?

知識情境感知的深度知識追蹤模型

2024-03-24 03:10張所娟陳衛衛
南京大學學報(自然科學版) 2024年1期
關鍵詞:解釋性試題權重

蒲 杰,張所娟,陳衛衛

(陸軍工程大學指揮控制工程學院,南京,210023)

隨著互聯網和移動通信技術的普及,在線教育正以前所未有的規模發展[1].學習者在使用在線教育系統(如Massive Open Online Course,MOOC)時產生了大量學習者與學習系統之間的交互數據,而知識追蹤(Knowledge Tracing,KT)就是從這些交互數據中挖掘學習者動態的認知狀態、學習偏好等信息的一類認知診斷技術[2].

學習者在學習過程中,通過對具體試題的作答,按照作答順序產生一連串的交互記錄.知識追蹤任務的目標是通過有監督學習的方法來評估學習者在作答過程中認知狀態的變化,并預測其在下一個時刻的答題情況.本文提出結合知識權重、試題難度等知識情境實現知識追蹤,如圖1 所示,進一步為在線教育系統提供評估支持,使每個學習者都能獲得更優的學習體驗.

圖1 融合知識權重的知識追蹤示意圖Fig.1 The example of the knowledge tracing with incorporated knowledge weights

知識追蹤模型通常分三類:基于概率圖模型的知識追蹤、基于因素分析的知識追蹤和基于深度學習的知識追蹤[3].基于概率圖模型和因素分析的知識追蹤方法對建模學習者的認知狀態具有較好的解釋性,但很難捕捉復雜的認知過程.相比之下,基于深度學習的知識追蹤模型依賴于深度學習對特征提取的強大能力,近年來成為研究的熱點.許多學者提出了一系列基于深度學習的知識追蹤模型,其中最具代表性的是深度知識追蹤(Deep Knowledge Tracing,DKT)[4].

早期KT 模型通常將試題編號或試題包含的知識點編號以獨熱(one-hot)編碼作為模型輸入.研究表明,使用知識點編號作為輸入的模型,其性能優于使用試題編號作為輸入的模型[5].而且,如果考慮答題過程中學習者與試題之間更復雜的交互關系,如知識點間的關聯關系[6]、知識點難度[7]等,能使模型的性能進一步得到提升.

現有的知識追蹤方法通常直接利用試題中考查的知識點來表征試題,這樣會損失重要的知識情境特征,限制模型的效果.聯通主義理論認為知識建構于情境之中,教育強調學習內容緊貼實際背景,即情境(Context)的融入.然而,目前對于學習者狀態的評估主要關注純粹的知識,試題之間互相獨立,缺乏與現實世界的聯系,無法考查學習者在面對實際任務時的能力和表現.同時,在基礎教育階段,學習者的信息素養評測考查的是學習者應對各種復雜現實情境、利用信息解決現實任務的能力,如果忽視試題內在的知識情境,就無法有效地評估學習者認知狀態的發展情況.因此,本文將試題涉及的各知識點的權重,試題的難度、區分度以及試題本身的猜測和失誤因子看作試題包含的知識情境.

同時,與靜態的認知診斷模型相比,傳統知識追蹤模型在解釋性方面稍顯不足.認知診斷模型源自教育學和心理測量學,并將教育理論的影響因素納入模型設計.在知識追蹤模型中引入認知診斷模型蘊含的教育理論特性,可以增強對學習者認知過程的理解,提升解釋性.

本文提出一種新的知識追蹤模型,即知識情境感知的深度知識追蹤模型(Knowledge Context-Aware Deep Knowledge Tracing Model,KCA -DKT),其融合知識情境特征來增強試題的表征,結合學習者的回答情況,利用循環神經網絡對學習者的認知狀態進行建模,同時,引入知識權重來實現多個知識聚合,最后由模型預測層對學習者未來的答題表現進行初步預測,并引入失誤、猜測因素修正預測結果.該模型一方面融入知識情境特征,進一步豐富試題信息,提高序列建模效果;另一方面利用認知診斷模型所蘊含的教育理論特性,強化知識追蹤的可解釋性.本文的創新如下.

(1)實現了對試題內部知識之間的交互關系帶來的知識權重的表征.

(2)構建融合知識權重、試題難度等信息的知識情境嵌入模塊來增強模型的試題表征.

(3)利用認知診斷模型蘊含的教育理論特性增加知識追蹤模型的可解釋性.

1 相關工作

1.1 知識情境

1.1.1 知識權重由于學習目標的差異性,不同的試題中知識間往往呈現不同的交互關系,不同的知識對任務達成的重要程度也不同.學習過程中某些知識點在解決問題時比其他知識點更關鍵[8-9],即每個知識點的權重可能是不同的[10].盡管部分學者已經開始考慮多知識間的相互影響,但現有的研究僅從知識自身的層次結構或者學科體系中的知識依賴關系來分析確定知識間的關聯性,沒有結合試題本身來建模知識關聯.若忽視同一試題中不同知識之間的影響,對學習者認知過程的理解會產生一定的偏差.

現有的知識追蹤方法主要捕捉基于學科體系的知識關聯,這類知識關聯可以看作是相對靜態和穩定的.其中,知識先決關系的研究受到了特別關注[6,11],如關系感知知識追蹤(Relation-Aware Self-Attention Model for Knowledge Tracing,RKT)[12]通過自注意力感知試題的上下文信息來獲得試題之間的相關關系;注意力知識追蹤(Attentive Knowledge Tracing,AKT)[13]則利用多頭注意力,用不同的時間尺度對應不同的衰減率來感知過去試題和當前試題的交互關系.

然而,現有研究大多將包含兩個(含)以上知識點的試題中的知識點視為同等重要,這是一種簡化,雖然降低了模型處理的復雜性,但實際上不同知識點對于作答當前試題的重要程度不盡相同.因此,在多知識點試題中,每個知識點的權重可能是不一樣的.

1.1.2 試題難度難度(Difficulty)是用來描述試題的重要參數之一,試題中除了知識點之外,還有任務難度等其他特征.項目反應理論模型(Item Response Theory,IRT)[14]包含難度參數,其對應的數值越大,試題越難.難度通常被定義為一個試題被正確回答的概率,通過統計分析可以得到難度參數的估計值.試題的難度系數可以由專家設置,也可以通過學習者的學習表現與試題之間的交互來捕捉.將試題的難度系數納入知識情境的范疇可以更好地表征試題,更精準地評估學習者認知狀態.

本文把試題內部各知識權重、試題的難度系數作為面向試題知識情境的表征信息.

1.2 知識追蹤下面分別介紹基于概率圖模型的知識追蹤、基于因素分析的知識追蹤和深度學習知識追蹤.

1.2.1 基于概率圖模型的知識追蹤概率圖模型用圖形和概率分布表示變量之間的關系[15],貝葉斯知識追蹤(Bayesian Knowledge Tracing,BKT)是一種具有代表性的基于概率圖的知識追蹤模型[2].BKT 將學習者的認知狀態建模為一個動態變化的過程,基于先驗概率(通常根據領域專家的經驗或大量數據得出)和學習者的歷史答題記錄,通過隱馬爾可夫模型(Hidden Markov Model,HMM)來推測學習者的知識水平和理解程度.在BKT 模型的基礎上,許多研究者提出了相應的變體模型.例如,K?ser et al[16]對知識點之間的關系和多個包含多個知識點的試題進行建模,Khajah et al[17]在BKT 模型中引入猜測概率和失誤概率,Yudelson et al[18]將學習者特定參數和技能特定參數作為BKT 模型的參數.

基于概率圖的知識追蹤模型對于建模學習者的認知狀態有較好的解釋性,但模型的結構通?;诮y計學原理進行設計,模型參數需要通過復雜的推導算法來確定.而且,由于認知過程的復雜性,這些模型可能難以完全捕捉學習者的認知過程.

1.2.2 基于因素分析的知識追蹤基于因素分析的知識追蹤模型通過學習一個回歸函數并結合學習者在具體學習過程中的各種因素來擬合并預計學習者的表現,代表性模型包括項目反應理論模型(IRT)[14]、表現因素分析模型(Performance Factor Analysis,PFA)[19]和因子分解機知識追蹤模 型(Knowledge Tracing Machine,KTM)[20].IRT 模型考慮了試題的特征因素(如難度和區分度),通過建立邏輯函數來推斷學習者的潛在能力水平.PFA 模型區分學習者在作答試題時答對和答錯的不同情況,設置相應的學習率.KTM 模型綜合考慮了學習者、試題、知識點、答對或答錯次數等多種因素進行建模.

基于因素分析的知識追蹤模型沒有考慮學習者回答問題的先后順序,在一定程度上弱化了問題的處理難度.然而,這也導致了一個假設,即特定學習者的能力水平始終保持不變,這與教育學理論和實際情況不相符.

1.2.3 深度學習知識追蹤由于循環神經網絡(Recurrent Neural Networks,RNN)在圖像處理、自然語言處理等任務上取得了較好的效果,DKT[4]首次將RNN 應用于知識追蹤模型.隨后有大量的相關研究,如基于圖的知識追蹤(Graph-based Knowledge Tracing,GKT)[21]使用圖神經網絡來模擬知識概念的結構圖和學習者知識狀態的變化過程;動態鍵值對記憶網絡知識追蹤(Dynamic Key-Value Memory Networks,DKVMN)[22]使用一個靜態矩陣存儲知識概念,使用另一個動態矩陣存儲和更新相應知識概念的掌握水平;AKT[13]使用單調注意力機制,將預測學習者對評估試題的作答與他們過去的歷史答題記錄聯系起來.

深度學習知識追蹤模型在具體任務上取得了較好的效果,但由于深度學習的復雜網絡結構和黑盒性質,深度學習知識追蹤模型的可解釋性差,給后續研究和應用帶來困難.本研究引入知識情境以及認知診斷模型中的猜測和失誤因子,進一步增強知識追蹤方法的可解釋性,為學習者畫像、學習推薦等下游任務提供有效的支撐.

2 模型與方法

本文提出KCA-DKT 模型,其框架如圖2 所示.本節首先介紹必要的假設及知識追蹤的問題,然后分別介紹知識情境嵌入模塊、知識狀態追蹤模塊、知識聚合計算模塊、學習表現預測模塊.

圖2 知識情境感知的深度知識追蹤模型框架圖Fig.2 The framework of knowledge context-aware deep knowledge tracing model

2.1 問題描述

假設1若一道試題對應多個知識,則知識之間存在不同的交互關系.

假設2考慮同一試題內知識間的交互關系,各知識對于試題正確作答的支持力度不同,稱為知識權重.

假設3由試題考查的知識概念及對應交互關系帶來的知識權重和試題本身的難度系數,共同構成知識情境.

學習系統中有N個學習者、M道試題和K個知識概念,分別表示為:

學習者sn的答題歷史記錄定義為:

2.2 知識情境嵌入模塊對于試題,除了考查的知識概念不同,試題內不同知識概念的重要性也存在差異,這種差異由試題內多個知識存在的交互關系產生,因此,在構建知識情境特征時,首先應考慮知識權重的表征方法.在認知診斷模型中使用Q矩陣建立試題與知識概念之間的關聯,試題ei與知識點kj相關時Qij=1,不相關時Qij=0.本節首先引入Q矩陣,可知t時刻試題對應的知識概念.

初始化知識權重參數矩陣如式(1)所示:

其中,wt=1/Ket表示t時刻對應試題的知識權重參數,符號?表示逐個元素相乘.

其次,在試題表征中嵌入知識權重,具體方法如下.首先,將學習者sn在t時刻作答的試題表征為涉及各知識權重的向量,如式(2)所示:

根據Q矩陣給出的知識關聯信息,非0 部分反映該試題考查的知識,在保留Q矩陣信息的前提下,知識權重向量在訓練過程中按照式(3)進行約束,歸一化處理為:

歸一化處理后,每道試題考查的知識概念的向量元素和為1,如式(4)所示:

根據假設3,融合試題難度系數來實現知識情境特征的構建.采用統計的方式[23]計算每個試題的難度系數,學習者sn在t時刻做的試題的難度系數為,如式(5)所示:

其中,count()* 表示滿足條件*的數量;試題的難度系數是訓練集的所有答題記錄R中試題答錯的次數與作答次數的比值.由于試題層級數據的稀疏性,當式(5)計算的試題難度系數時,用相同的統計方法計算每個知識點的難度,試題難度按對應知識點難度的平均值計算.

其中,Wkd∈RK×()K+1,是模型訓練學習的參數,⊕為串聯操作.

其中,0={0}1*K表示維度為K的全0 向量.

2.3 認知狀態追蹤模塊本模塊以知識情境嵌入模塊得到的試題表征向量作為輸入,利用門控循環單元(Gate Recurrent Unit,GRU)中隱藏狀態向量的變化情況來模擬學習者sn的隱式認知狀態隨特定試題作答后的變化情況.具體步驟如下.

其中,σ表示Sigmoid 激活函數,Wir,Whr,Wiz,Whz∈RD1×2K和br,bz∈RD1×1是模型訓練要學習的參數.

由于學習者在學習過程中存在遺忘行為,根據式(10)模擬計算遺忘歷史隱式認知狀態中的部分信息,得到候選激活門向量:

其中,tanh 為激活函數,Wih,Wh∈RD1×1和bh∈RD1×1是模型訓練要學習的參數,?為逐個元素相乘.

2.4 知識聚合計算模塊在認知狀態追蹤模塊中可以獲得學習者sn在t時刻的隱式認知狀態,通過全連接層建立隱式認知狀態到知識維度的顯式認知狀態的關聯關系:

其中,W1∈RD1×K和b1∈RK×1是模型訓練要學習的參數.

對于多知識點的試題,學習者是否達成某項試題取決于其在各知識點的顯式認知狀態以及該知識點的權重.如學習者sn在t時刻的顯式認知狀態=[0.2,0.3,0.4,0.1],若t+1 時刻對應的試題考查第1,3,4 個知識點,該任務中各知識點的權重分別為=[0.2,0.1,0.7].參考認知診斷模型對于多知識任務的處理方式,學習者在特定試題上的能力可以表示為表示聚合函數,即聚合每個知識點的顯式認知狀態來獲得達成試題的能力值.本文將聚合函數設置為知識權重與顯式認知狀態的加權計算,得到t時刻學習者sn在試題上的能力值具體計算如下:

其中,Σ 表示對向量進行逐元素求和.

2.5 學習表現預測模塊由式(14)計算t+1 時刻作答任務的區分度:

其中,C∈RM×1是模型訓練要學習的參數.

通過兩個全連接層和一個輸出層得到理想作答情況下(即不考慮猜測和失誤的情況)的預測結果:

在預測學習表現時應考慮學習者在答題過程中的猜測和失誤行為.試題的猜測因子表示在學習者沒有掌握正確作答試題所需知識點的情況下,以猜測的方式答對試題的概率,取值范圍通常是0~1,其值越高說明學習者更可能通過猜測來正確作答.試題的失誤因子表示學習者在認知狀態完全掌握所需知識點的情況下,出現失誤而答錯的概率,取值范圍通常為0~1,其值較高表示學習者更容易出現失誤.本文在KCA-DKT 模型中加入了猜測和失誤因子,進一步提高了模型的預測性能和可解釋性.

其中,W5,W6∈RM×1是模型訓練需要學習的參數.

3 實驗結果分析

3.1 實驗設置使用ASSIST2009[24]和Algebra2006[25]兩個公開數據集及一個私有數據集Program 進行實驗.

ASSIST2009 數據集是ASSISTments 在線教學系統收集的數據集,涉及的試題對應一個或多個知識等多種情況,選擇更新的skill-builder 版本,該版本修復了部分數據重復的問題.

Algebra2006 是PSLC DataShop 發布的數據集,是KDD Cup 2010 競賽的數據集之一.KDD Cup 中包含多個步驟的任務,將一個含多個步驟的問題按照步驟看作多個不同的試題,數據集中的每一條響應日志都包含一個學習者對一個問題的一個步驟的回答結果.

選取在線編程學習平臺產生的真實數據集Program,學習者可以在線進行編程學習,提交答案并實時獲得編譯器輸出進行修正.平臺允許學習者多次重復作答,本文選取學習者前兩次的作答記錄以保證實驗的公平性.

對于兩個公開數據集的預處理,均刪除了未標記知識點的試題和總計作答次數小于15 的試題.同時,將單個學習者作答次數大于200 的序列劃分為多個最大長度為200 的作答序列,刪除總計作答次數小于15 的學習者.預處理后的響應序列的20%為測試集,剩下的數據再按8∶2 分為訓練集和驗證集.Program 數據集通過正則表達式提取含關鍵字python 的試題,將試題按照作答次數從高到低排序,取作答次數多的前70 題,平均作答次數大于200.三個數據集預處理后的情況如表1 所示.

表1 預處理后的數據集的統計信息Table 1

本文基于Pytorch 深度學習框架實現KCADKT.為了保證實驗的公平性,所有基準模型的參數均調整至最優性能.

實驗環境:兩個2.1 GHz Intel(R)Xeon(R)Gold 6230R CPU 和一個11 GB GeForce RTX 2080Ti GPU 的Linux 服務器.

3.2 實驗結果分析

3.2.1 學習表現預測首先對學習者的學習表現進行預測,將提出的知識情境感知的深度知識追蹤模型與知識追蹤基準模型進行比較.為了公平起見,實驗沒有引入使用輔助信息(如知識圖譜[21]、試題文本[26])的模型.進行對比的具體的基準模型如下.

(1)BKT[2]:貝葉斯知識追蹤模型,是傳統知識追蹤模型的代表,常作為知識追蹤研究的基準模型.

(2)DKVMN[22]:基于深度學習的動態鍵值對記憶網絡知識追蹤,使用一個靜態矩陣來存儲知識概念,使用一個動態矩陣來存儲和更新相應知識概念的掌握水平,以跟蹤學習者不斷變化的認知狀態.

(3)DKT[4]:選用以試題編號為輸入表征的深度知識追蹤模型(DKT_Q)和以試題知識點編號為輸入表征的深度知識追蹤模型(DKT_KC).

(4)DIRT_4(Dynamic Cognitive Diagnosis Models with IRT)[27]:在深度項目反應理論模型的基礎上整合知識點編號、難度和區分度的試題特征,對學生認知狀態演變的順序建模產生了積極影響.

(5)DNeuralCDM(Dynamic Cognitive Diagnosis Models with NeuralCDM)[27]:將認知診斷對教育先驗的可解釋性融入基于深度學習的知識追蹤方法.

(6)AKT(Context-Aware Attentive Knowledge Tracing)[13]:使用注意力機制的知識追蹤模型,通過指數衰減和上下文感知的相對距離來計算注意力權重,同時考慮試題之間的相似性,將歷史交互信息和當前試題聯系起來.

(7)SAINT(Separated Self-Attentive Neural Knowledge Tracing)[28]:基 于Transformer 的知識追蹤模型,使用多層注意力機制,在編碼器和解碼器中分別對試題和作答記錄進行編碼.

首先在兩個公開數據集上進行了實驗,選擇曲線下方面積(Area under Curve,AUC)和準確性(Accuracy,ACC)作為評價指標.實驗結果如表2 所示,表中黑體字表示性能最優.由表可見,KCA-DKT 的性能優于基準模型,預測精度更好.和同為試題層級的融入教育先驗的DIRT_4 對比,在ASSIST2009 數據集上,KCA-DKT 的AUC提 升5.93%,ACC提 升4.40%,在Algebra2006 數據集上則分別提升了7.97% 和2.49%,提升效果比較明顯.

表2 各模型在學習者學習表現預測上的性能對比Table 2 Performance of each model on learner learning performance prediction

在Program 數據集上的對比實驗結果如表3所示,表中黑體字表示性能更優.由表可見,KCADKT 模型同樣具有更優的預測性能.

表3 KCA-DKT 和DIRT_4 模型在Program 數據集上的預測性能對比Table 3 Prediction performance of KCA -DKT and DIRT_4 on Program dataset

3.2.2 消融實驗為了驗證KCA-DKT 模型中各模塊的有效性,在ASSIST2009 數據集上開展消融實驗.KCA-DKT 和各變體模型(KCADKT_1 至KCA-DKT_5)的相關設置如表4 所示,表中“√”指對應模型中包含當前因素,“—”指對應模型不包含當前因素.

表4 KCA-DKT 及各變體模型的相關設置Table 4 The relevant settings of KCA_DKT and its variants

實驗結果如圖3 所示.由圖可見,知識情境與猜測和失誤因子等因素對模型的預測效果都有積極的影響.不考慮猜測和失誤因子,僅考慮知識情境特征的KCA-DKT_1 仍有較好的性能,AUC和ACC略有下降;不考慮試題難度的KCADKT_2 與不考慮知識權重的KCA-DKT_3 相比,KCA-DKT_3 的AUC和ACC的下降更明顯,證明知識情境的知識權重因素對模型性能的影響更大;不考慮知識情境的KCA-DKT_4 和不考慮知識情境特征與猜測和失誤因子的KCA-DKT_5 兩種模型預測能力的下降較明顯,證明了知識情境特征在模型建模中的必要性.

圖3 KCA-DKT 及其變體模型在消融實驗中的預測性能Fig.3 Prediction performance of KCA-DKT and its variants in ablation experiments

3.2.3 不同序列長度下的預測實驗為了評估KCA-DKT 是否能更好地建模學生的學習過程,對此進行了實驗.一般地,完整的學習過程需要較長的學習序列,學習序列越短,學習過程越不完整.因此,設置了四個不同的最大序列長度進行實驗,分別為20,50,100 和200.在ASSIST2009數據集上比較了KCA-DKT 和DIRT_4 在學習序列長度不同時對學生成績的預測結果,圖4 展示了序列長度不同時各模型的預測性能.由圖可見,在學習序列長度不同時,KCA-DKT 的預測效果始終具有一定的優勢.同時,隨著學習序列的增長,KCA-DKT 的優勢更加明顯,即隨著序列長度的增加,KCA-DKT 性能指標的上升幅度大于DIRT_4,表明KCA-DKT 受學習序列的影響較大,能更好地模擬學習者的長序列學習過程.在真實的學習環境中,獲得的學習者的學習反饋越多,KCA-DKT 越能更好地掌握學習者的認知狀態,給下游應用提供更準確的信息.

圖4 不同學習序列長度的預測性能Fig.4 Prediction performance for different learned sequence lengths

3.2.4 案例分析1使用KCA-DKT 模型對ASSIST2009 數據集的一個具體學習者的知識追蹤過程進行分析.該學習者在一段作答序列中對30個單知識概念試題作答,試題分別對應知識概念1、知識概念2、知識概念3,學習者對應的認知狀態為知識狀態1、知識狀態2、知識狀態3,實驗結果如圖5 所示.由圖可見,試題的作答情況與對應的認知狀態的變化基本一致.例如,學習者在知識狀態1 對第1,3,5,6,7 題答錯,則對應時刻的認知狀態有明顯的下降,證明了KCA-DKT 模型的有效性.

圖5 ASSIST2009 數據集知識追蹤過程示例Fig.5 The example of KT process on ASSIST2009 dataset

3.2.5 案例分析2表5 展示了KCA-DKT 模型對學習者學習表現的預測過程.對學習者理想作答的預測值為0.578,通過預定義的閾值(通常設置為0.5)來離散化對目標任務的預測結果后,學習表現的預測值為1,即學習者答對該道試題.但由于失誤和猜測因子的存在,根據式(21)計算得到實際作答的預測值為0.489,離散后的結果為0,即學習者答錯了該道試題,這與實際觀測的結果一致.由此可見,在KCA-DKT 模型中利用認知診斷模型蘊含的教育理論特性引入猜測和失誤因子,可以增強知識追蹤預測的可解釋性.

表5 學習者的學習表現預測過程Table 5 The prediction process of learners' learning performance

4 結論

針對目前知識追蹤中沒有考慮同一試題內的知識權重、試題表征過于簡單的問題,本文提出一種知識情境感知的深度知識追蹤模型,構建了知識情境嵌入模塊來增強試題的表征.同時,從試題層級出發,結合知識權重和學習者的認知狀態聚合計算來獲得學習者的作答能力,最后引入認知診斷模型的猜測和失誤因素,進一步提高模型的性能和可解釋性.實驗證明,本文提出的方法在學習者表現預測任務上的性能更優,同時具備了一定的可解釋性.

未來將融合多模態數據表征試題信息以進一步增強構建知識情境表征,還將嘗試將學習者的個性化特征與試題知識情境表征相結合,進一步提高模型的可解釋性.

猜你喜歡
解釋性試題權重
2021年高考數學模擬試題(四)
論行政自由裁量的“解釋性控權”
權重常思“浮名輕”
2019年高考數學模擬試題(五)
《陳涉世家》初三復習試題
2019屆高考數學模擬試題(二)
為黨督政勤履職 代民行權重擔當
英漢互譯中的認知隱喻翻譯探究
基于公約式權重的截短線性分組碼盲識別方法
融媒體時代解釋性報道的發展之路
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合