?

教育學領域學者數據重用行為及特征研究

2024-04-14 02:10姜鑫妍王翠萍宋雯琪
現代情報 2024年4期
關鍵詞:內容分析法教育學

姜鑫妍 王翠萍 宋雯琪

關鍵詞:科學數據;數據重用;數據重用行為;教育學;內容分析法

科學數據是科學研究的基礎,在開放科學的背景下,國內外陸續發布了眾多促進科學數據開放利用的相關政策和規范指南。近年來,我國科學數據規模增長迅速,但存在數據利用率不高的問題。隨著數據密集型研究范式的到來,數據重用研究熱度逐漸升高。數據重用(Date Reuse),也稱為數據復用、數據再利用,是對科學數據的重復利用及二次分析。本文所指的數據重用定義采取一種較為寬泛的概念,即數據重用是數據的重新使用或重復利用,無論之前是否使用過該數據.只要研究中所使用的數據或數據集不是科研人員自行收集的原始數據,其數據使用或數據分析過程就應視為數據重用行為??茖W數據重用行為的主要表現為數據重用目的、原始數據特征、數據處理分析、數據重用規范等方面。在科技文獻中可表現為數據使用、數據引用、數據來源提及等。

國外較早開始研究數據重用相關問題,研究主題較為廣泛和分散,大致可總結為數據重用概念及重要性的研究,元數據與數據重用的研究,數據重用行為及態度的研究以及其他相關研究。國內對于數據重用的研究主要集中對數據重用行為特征分析、數據重用的影響因素研究、構建數據重用模型的相關研究以及探討數據權益問題。目前對于學界內針對數據重用的研究更多地關注較為具體的問題,有部分研究從不同學科論文中的數據引用實踐人手,分析了生物學、化學、生命科學、地球物理學、人口學等學科領域的數據引用特征。在現有研究中,大多數學者主要聚焦于各類型數據較多的自然科學等學科領域的數據重用現象的研究,而對人文社科領域內學者們對數據重用現象研究較少。教育學作為社會科學領域中的一個重要范疇,在其研究領域內學者們廣泛應用觀察法、調查法等實證方法產生了大量的科學數據,同時普及了數據重用的意識和實踐。經基金資助的論文成果要求進行科學數據匯交,科學數據管理相對更規范,并且基金論文具有階段性特點能很好地反映科研人員數據重用行為的階段性特征,與本文研究目的更為契合。因此,本文選取教育學領域基金論文,運用內容分析法試圖揭示教育學領域的數據重用行為特征,以及數據重用各階段特點,以期在一定程度上為圖書館、數據出版商、數據中心等機構開展數據服務提供參考。

1樣本選擇與數據處理

1.1樣本選擇

全國教育科學規劃立項課題是教育學領域專門的國家級基金項目,能夠反映我國教育科學研究的普遍態勢,具有較強的代表性。由于科研基金立項項目具有長周期和持續性等特點,為充分了解學者們在其基金項目全周期內各階段論文中的數據重用特征,本研究選擇立項時間距今5年左右的基金項目產出的科研論文作為數據分析樣本,最終確定了2017年和2018年全國教育科學規劃項目數據為總體數據。

1.2數據獲取

本文從基金項目出發,統計了2017年及2018年立項課題數量,分別是488項和551項。由于全國教育科學規劃項目各年基金立項總數相差不大,但各類別課題立項數量不一致,其中國家一般課題所占比重最大,國家重大及重點課題所占比例最低。不同類別基金項目論文數量差異明顯,同一類別課題已發文數量相對一致。一般而言,一項國家一般項目發表論文數量多集中在3~8篇,國家重大及重點基金論文數量多為10篇左右。以往研究運用內容分析法分析論文數量并不一致,多則1000余篇,少則一兩百篇,但總體數量分布在400~1500之間,因此通過抽樣方法即可獲得滿意的數據量。為保證樣本數據的代表性,抽樣選擇基金項目數量應不少于80??紤]到各類基金項目數量分布的不均衡性,本文采取分層隨機抽樣方法,分年份分基金類別隨機抽取各類基金項目數量的10%,總計抽取100項,其中2017年與2018立項各類基金項目分別為49項和5 1項。在項目編號的規定方面,利用在線隨機數生成器得到隨機數,并依據此隨機數對所抽樣項目進行了標注。具體標注規則為:如被抽取課題已發表論文數量為0篇,則被抽取基金項目編號依次順延,但是應保證順延后序號與隨機數不重合,2017-2018年實際數據抽樣結果如表1和表2所示。

根據上述抽樣規則,本研究共抽樣選擇了100項課題,在中國知網檢索上述被抽取的基金課題已發表的相關論文成果,共獲取到研究論文544篇,平均每項課題發表篇數為5.4篇,數據量滿足分析條件。

1.3數據處理

1.3.1數據分析方法

本文采用內容分析法從數據是否重用、數據分析與處理方式、數據重用規范等方面對我國基金項目論文中的科學數據重用行為進行分析,通過人工識別的方法對所抽取的課題論文中所提及的非科研人員自行收集的原始數據或數據集進行了提取。在參考已有研究成果并結合教育學學科數據特征后,經過反復修改,最終形成數據重用行為內容分析編碼表,如表3所示。

1.3.2數據編碼說明

1)基本要素編碼

基金類別。全國教育科學規劃課題是國家社科基金教育學單列學科課題,課題類別包括國家重大、教育部專項等8類。內容編碼考慮基金類別主要是因為不同類別的課題發表的論文數量和研究方法存在差異,因此樣本抽樣區分基金類別可以使論文類型和數量分布更為均衡。

論文類型。本研究將已發表的基金論文分為實證論文和非實證論文兩類。實證論文指的是通過觀察、調查、實驗等實證方法收集數據而寫成的論文。

2)數據重用

是否數據重用。如果“是”則標為“1”,“否”記為“0”。

數據重用目的。本文所指的數據重用目的主要包括新的研究、佐證觀點、研究結果比較以及用做背景資料(研究背景)4大類。

3)原始數據特征

原始數據類型??茖W數據類型可按照研究方法分為調查數據和非調查數據。本文提到的調查數據包括統計數據在內,非調查數據是指調查數據以外的數據,包括觀察數據、實驗數據等多種類型。

數據重用來源渠道。數據來源渠道可分為正式和非正式兩種方式。正式的數據來源渠道包括圖書、期刊論文、年鑒等正式出版物及政府網站等其他官方統計網站或公開的調查報告等。非正式來源渠道有郵件、私人聯系等。一般可以通過文中提及、參考文獻、注釋等方式得知數據來源信息。根據初步分析,本文將數據重用來源渠道大致分為期刊論文、政府網站及其他三大類。

4)數據處理與分析方式

本研究將數據處理與分析分為數據使用、數據統計分析、整理成圖表和其他四大類(其他處理方式如文中明確提到借鑒、改編量表等)。

5)數據重用規范

數據重用格式。本文科學數據重用規范分析的主要內容包括數據重用格式、數據元素、數據重用位置3個方面,其中科學數據重用格式主要有參考文獻、注釋、文中提及以及其他4種形式,除此之外還包括序號、標點符號的使用等較為細節的部分。

數據描述元素??煞譃楸貍湓嘏c可選元素。必備元素有創建者、標題、URL等,可選元素如DOI、數據分級等。

數據重用位置。本文將數據重用位置分為引言、正文、結語3種,雖然這種區分較為簡單,但可以與數據重用目的相對應。

2教育學領域基金論文中的數據重用行為統計分析

2.1數據重用目的

一般而言,數據重用目的有4種:新的研究、研究佐證、研究結果比較以及用做背景資料,如圖1所示。圖1由圖(a)、圖(b)以及圖(C)組成,圖(a)為2017年數據,圖(b)為201 8年數據,整體數據見圖(c)。

通過對524篇基金論文的內容分析發現,教育學領域學者重用數據目的是新的研究比例最高的種類(43.40%),其次是研究背景(28.93%)和研究佐證(23.60%),較低比例的數據重用目的是研究結果比較(4.06%)。與2017年相比,2018年數據重用目的為新的研究及研究佐證的比例上升,在一定程度上可以反映出教育學領域學者越來越注重科學數據價值的挖掘。

2.2數據重用比例

本文通過標注與統計分析基金論文中的數據重用現象,來獲取教育學領域學者數據重用行為的總體情況。2017年立項的49項各類基金項目共產出基金項目論文300篇,其中實證論文篇數為88篇,占已發表論文總數的29.33%;有數據引用行為的論文有149篇,占比49.67%。2018年立項的51項各類基金項目共產出基金項目論文244篇,其中實證論文篇數為66篇,占已發表論文總數的27.05%,有數據重用行為的論文有109篇,占比44.67%??傮w而言,這兩年統計結果相差不大,數據重用比例接近50%,這是一個相對比較高的比例。實證論文比例接近30%,如表4所示。由此可見,這兩年的數據重用比例都明顯高于實證論文比例,即教育學領域學者數據重用比例高于自行收集數據比例。

調查法在教育學領域適用范圍廣泛、應用成熟,形成了一定的研究范式,實證論文中調查類論文占比最高。不過這并不意味著教育學領域學者更愿意重用數據而不是自行收集數據,仍有許多學者傾向于通過自行收集數據的方式以實現自己的研究目的。在學者自行收集數據開展實證研究并同時重用他人數據的情況下,數據重用的目的一般為用作研究背景或研究佐證,基本不是用作新的研究。當然,學者也可以使用已有數據,采取思辨方法驗證研究論點,或是將原始數據用作實證研究論文中的主要數據和研究基礎。因此,教育學領域學者數據重用行為與學者自行收集數據并不矛盾,也沒有必然聯系。

統計發現.2018年與2017年相比數據重用頻次明顯下降,一篇論文數據重用次數大于1次的比例下降。2017年數據重用頻次為244次,平均每篇論文數據重用次數為1.64次。2018年數據重用頻次為151次,平均每篇論文數據重用次數為1.04次。2017年共有5項基金課題項目未見有數據重用現象,占當年抽取比例的10.20%,2018年有11項基金課題項目未見有數據重用現象,占當年抽取比例的21.57%??梢酝茰y,數據重用行為在一定程度上受數據時間周期以及每項課題發表論文數量的因素影響。

2.3數據重用程度

由表5可知.2017年未采取任何數據分析手段的數據使用比例為54.73%,2018年數據使用比例為63.58%。

利用原始數據開展新的研究大多需要將原始數據進行再分析,但研究結果顯示,教育學領域學者在研究中將原始數據用做新的研究比例不足50%.而數據分析與處理類目為數據使用的比例超過一半,這表明數據重用目的與數據分析處理方式高度相關,教育學領域學者數據重用目的是研究背景和研究佐證的比例較高,意味著對已有數據的分析不夠,對科學數據價值的挖掘不夠深入,數據二次分析較少,數據利用程度較低。

2.4數據重用類型

教育學領域基金論文主要是引用政府網站及期刊論文中的數據,調查類數據一般來源于官方統計網站以及調查類研究論文,另外有少量數據來自互聯網等途徑。如表6所示,2017年數據重用類型中,調查數據占比58.02%,非調查數據占比41.98%:2018年數據重用類型中調查數據占比51.66%,非調查數據占比48.34%。原始數據類型以調查數據居多,一般是為了引出或驗證研究問題,即用做研究背景和佐證觀點。

其中,政府網站及科研院所的數據具有一定的連續性且數據質量較高,如教育部、國家統計局的調查數據涵蓋范圍廣,數據較為權威,可以很好地引出研究背景,是科學研究的重要數據來源。其次是期刊論文和碩博論文,獲取較為便捷,并且已發表的通過調查等實證方法收集的數據能夠佐證本文觀點,也可通過借鑒量表等調查工具開展新的研究。

教育學領域在調查研究中涉及到研究工具的重用,其中量表是比較有特色的數據重用類型。教育學領域量表重用現象較為普遍,可以是借鑒、改編、編譯國內外已有研究的成熟量表。通常情況下,對外文量表的數據重用需要翻譯審定,并且為契合研究目的應對量表進行本土化及刪減,例如“量表經專家使用英文原版翻譯……”。對已有成熟的量表的數據重用可以提高研究的科學性,節約時間和精力,是數據重用較為合適的選擇。

3教育學領域基金論文中的數據重用標注規范分析

數據重用來源、格式著錄是否規范影響著科學研究的準確性和科學性。因此,數據重用應遵循相應的規范以便科研人員在研究過程中追溯數據來源,促進科學數據再利用。本文主要對數據重用來源及標注和數據重用選擇偏好分析我國教育學領域科研人員數據重用規范。

3.1數據重用來源及標注

3.1.1數據重用來源標注

通過統計分析發現,教育學領域學者在數據重用過程中沒有任何標注行為(無參考文獻、無注釋、無文中提及)的比例在10%以下,如表7所示。

2017年“無”的比例僅為5%,2018年為9.93%,即超過90%的學者會在數據重用中標注原始數據來源,這表明絕大部分學者具備一定的數據重用規范意識。但是在數據來源方面,2017年數據來源未知比例有6.58%,2018年數據來源未知比例有16.56%。整體而言,有10%左右的學者沒有明確指出原始數據來源渠道,均大于數據重用規范為“無”的比例。這說明即便學者在文中提及數據來源或進行數據引用,但未必能全部明確指出詳細完整的數據來源渠道。

教育學領域學者重用數據存在不介紹重用數據的來源,或者交待部分出處但不可查的問題,表現為對原始數據不作實質性出處說明,不標注引用數據以及對于數據記錄的完整性認識不足等形式。數據重用更注重數據的結果,較少關注能夠反映數據全過程信息的元數據。對于科研人員自己整理的數據,同樣存在數據出處不明且不夠詳盡、準確的問題,給數據追蹤以及后續的數據重用造成了一定的障礙。

3.1.2數據重用標注格式

教育學領域學者在數據重用過程中很少像自然科學領域對數據或數據集進行明確聲明,對原始數據的來源標注一般通過文中提及、參考文獻及注釋的方法,其中參考文獻形式是科學數據的正式引用形式,其他3類是非正式形式。但科研人員標注數據來源時,往往不只采用一種形式,同時使用文中提及和參考文獻的情況較多,以保證數據的準確性和權威性。

統計發現,教育學領域數據重用格式為注釋這一形式較少,2017年僅有16條數據使用注釋這一形式,2018年僅有3條數據通過注釋說明原始數據來源。注釋可以詳細介紹數據的獲取及相關說明,但較少采用注釋方式注明數據來源。涉及到對歷史資料的數據重用,注釋這一非正式引用方式的較多,如注釋中寫道“此表內容來源于……的歸納”。注釋一般提及創建者及標題兩項,實際上,注釋與參考文獻作用相同,存在形式上是注釋,實際是參考文獻的情況,但通常注釋與參考文獻標注的格式不一致。

3.1.3數據重用標注習慣

高校及研究院等權威機構的調查統計報告也是數據重用的重要來源渠道,但與此相關的數據重用規范卻并不統一。若是僅對調查統計結果進行數據重用,則更傾向于在論文正文標注參考文獻。如果一開始就沒有將調查數據列入參考文獻中,那之后也不會列入,這是一種論文寫作習慣。一般直接使用調查數據,在正文中不會說明數據的增刪改情況。但實際情況復雜得多,科學數據類型多樣,除調查數據之外,教育學領域學者重用非調查數據的情況較為常見,測量量表和評價指標是出現頻率較高的非調查數據。當科研人員重用這類數據時一般會將以往研究整理成表格形式,部分以參考文獻的方式出現,參考文獻如果是期刊論文則較為規范,一般按照期刊論文的著錄標準著錄。如果來源于網站,那么在表格后表注釋數據來源則更為常見。而此種方式數據引用形式最為多樣,表明教育學領域學者數據規范意識不足。

通過對數據重用來源及標注的分析可知,雖然我國已發布科學數據相關國家標準,但在實踐中仍存在大量不規范數據重用現象,主要體現為科研人員在數據重用過程中未明確注明數據重用來源,數據規范意識有待提高。

3.2數據重用選擇偏好

3.2.1重用位置特征

為了解教育學領域學者數據重用行為規范,本研究進一步分析數據引用位置,將數據重用位置分為引言、正文和結論3部分。一般而言,在引言部分數據重用目的為研究背景,但同時也有少部分作為背景資料出現在正文中??傮w而言,在正文中有數據重用的比例最大,因為正文內容是研究的主體部分,且在正文中數據重用目的可以是用作研究背景、開展新的研究以及佐證研究觀點。教育學領域數據重用位置主要集中在引言和正文,以科學數據為研究基礎的論文通常會在正文研究設計中提到數據來源。數據重用出現在結論的部分占比最少,在論文結論部分進行數據重用一般是為了研究結果比較分析,而數據重用為研究比較的比例較低。因此,可以發現教育學領域學者較為重視科學數據的價值。

3.2.2數據重用元素選擇

科學數據元素是科學數據的進一步揭示,能夠反映數據重用行為是否規范。不同數據類型的元數據元素差異較大,即便是相同數據類型在同一期刊也不一樣,存在信息來源不完整、欠精確,對來源信息揭示度不高的問題。目前數據引用元素的規范并不統一,必備元素和可選元素的標準存在較大差異。為了能夠對數據集進行溯源,需要統一資源標識符。

當前數據重用不規范情況大量存在,雖然已經說明了數據來源,但因為缺乏數據重用規范和數據應用格式的認識,存在數據重用格式不規范、信息著錄不完善、數據來源標注較為隨意等問題,導致論文作者和原始數據查找困難。當前學者、期刊和相關機構缺乏對數據引用規范性的認識,使論文的數據引用不規范問題普遍存在。學者在論文中雖然重用了相關數據,但并沒有對這些數據及其來源明確說明和注釋。數據的引用格式也存在問題,使數據信息展示不全,甚至沒有詳細標注引用數據及其來源。

在數據重用過程中,數據元素標注還不夠全面,存在數據來源后只有原始數據的標題和時間信息的現象。大多數學者在引用圖表形式的數據時,僅在文中描述數據來源,列出部分數據元素,此類不規范的數據重用行為影響了科研人員通過數據引用信息定位原始數據,阻礙了數據的傳播與再利用。

3.2.3數據重用行為相似性

馬太效應反映了“強者越強,弱者越弱”的現象,教育學領域科研人員數據重用行為存在“馬太效應”,這在數據重用行為中表現為一項基金項目在項目前期重用他人研究數據,之后數據重用的可能性大為提高。反之,如果一項基金項目在項目前期沒有重用他人研究數據,項目中后期很可能也不會有數據重用行為。2017年共有5項基金課題項目未見有數據重用現象,占當年抽取比例的10.20%,2018年有11項基金課題項目未見有數據重用現象,占當年抽取比例的21.57%。這兩年的數據體現了“馬太效應”中“弱者越弱”的現象。與此對應的是2017年共有7項基金課題項目數據重用論文比例為100%,即已發表的每一篇論文都有數據重用行為,2018年數據重用論文比例為100%的基金課題有11項,但其中有9項為僅發表了1篇論文,并且這兩年數據重用比例為100%的基金課題項目已發表論文數均不超過5篇,由此可知數據重用并不是教育學領域科研人員開展研究的首選。

通過分析發表論文數大于5篇的基金論文中的數據重用行為發現,系列論文的數據重用行為特征也具有相似性。由于系列論文具有相對一致的研究方向,同一項目數據重用類型存在一致性傾向,傾向于使用同一類型數據的情況,這與研究內容、研究方法、數據重用目的以及研究者的個人習慣有關。

4結語

本研究采用內容分析法從相對客觀的角度分析教育學領域數據重用行為特征規律,選取了全國教育科學規劃項目數據為總體數據,對2017年和2018年的全國教育科學規劃立項課題進行抽樣,從數據重用目的、數據類型偏好及數據重用規范等方面分析教育學領域科研人員數據重用行為。研究發現,教育學領域科研人員數據重用行為有以下特征:

①教育學領域科研人員數據重用比例較高且較為穩定:②教育學領域科研人員偏向于調查數據的重用,其他數據以公式、代碼和教學數據資源為主,對量表的編譯改編借鑒重用較為頻繁:③在數據來源上,政府網站及數據中心是科研人員較為信任的數據來源渠道,已發表的專業期刊論文中的科學數據由于數據獲取便利性和專業性成為科研人員頻繁引用的原始數據。此外,互聯網數據因其可獲得性和時效性較強得到科研人員的關注:④科學數據重用過程中的數據分析與處理較為粗淺,數據使用最多,將原始數據整理成表格也是常見的數據處理分析方式,文獻計量與數據可視化分析逐步成為熱門,但存在數據分析方法較為粗淺的問題。并且數據分析處理與數據重用目的密切相關:⑤由于缺少明確統一的科學數據參考文獻及注釋格式規范,科學數據的元數據描述差異較大。此外,數據重用過程數據來源不詳是數據獲取障礙的重要原因。

本研究以教育學領域的基金項目產出論文為分析依據,對其中的數據重用現象進行了識別和提取,通過對該領域學者數據重用行為特征的分析,總結其專業內部的科學數據使用偏好及使用規范,而數據重用行為有明顯的學科差異性。本研究通過對教育學領域科研人員數據重用行為的分析,希望能夠在一定程度上為圖書館、數據出版商、數據中心等機構開展數據服務內容及調查數據平臺等教學資源數據庫的建設方向提供參考。

但本研究僅從相對客觀的角度分析科研人員數據重用行為,關注了基金論文文本中體現的數據重用現象,未能探討文本外的科研人員自身的情感、態度等主觀方面的動態的因素。在基金項目樣本的時間范圍的選擇上,本次研究僅選擇了2017年和2018這兩年的基金項目,相對而言數據量有一定局限性。另外,數據重用規范僅僅考慮到格式、位置及元素,更偏重研究數據重用行為形式特征,內容分析編碼類目構建考慮不夠完善,未來研究還需挖掘數據重用行為其他特征表現。

猜你喜歡
內容分析法教育學
究教育學之理,解教育學之惑
——《教育學原理研究》評介
實踐—反思教育學文叢
曲靖師范學院教育學學科
基于內容分析法對阿爾茨海默病患者居家照護概念的解析
教師工作坊中促進知識建構的磨課活動研究
非正式學習研究現狀及趨勢分析
教育學是什么科學
Scratch教學研究綜述 
基于Blackboard 網絡教學平臺學生應用狀況的調查分析
對我國音樂教育學 學科建設的一些思考
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合