?

索引的本質屬性及其在學術規范與評價中的作用

2023-04-23 11:57葉繼元
圖書情報知識 2023年6期
關鍵詞:學術規范數據庫

葉繼元

1 引言

1928年我國圖書館學界和文史哲學術界曾興起“索引運動”,其實質是要提高學習和研究的效率。自此索引的重要作用被學界和社會逐漸認識。索引是檢索、統計、分析信息的利器,是圖書情報學研究的核心內容,而“現代的索引就是數據庫”[1]。凡是在學術研究,乃至于工作、生活方面遇到查找信息、知識點困難的時候,索引和數據庫都大有用武之地。然而,雖然文獻信息不斷增多和用戶需求不斷增加,但目前對國內各種索引、數據庫的編制仍然相對不足,不能滿足用戶的多樣化、快速、準確檢索信息與知識需求。要編制更多更好的索引和數據庫,首先要厘清對索引本質的認識,澄清對索引工作的一些模糊認識,在大量索引實踐的基礎上抽象出索引理論,以便更好地指導索引實踐,實現理論與實踐的良性互動。同時應清醒認識到,加強對索引這一圖書情報學研究的核心內容的研究和實踐,對于堅守圖書情報學的核心領域或內容,適度擴展到相關學術領域或公共學術話題,具有十分重要的意義。

學術規范與學術評價是國內外學術界、教育界、管理界等十分關注的公共學術領域。這兩個領域與圖書情報學中“規范文檔”和學術文獻的采集、評價和篩選等的研究有密切關系。研究索引及數據庫與學術規范及評價的關系,探討二者相互促進、良性發展的途徑,對于圖書情報學/信息資源管理一流學科的發展,擴大學科影響力,無疑具有重要價值。

2 文獻綜述

經文獻調研,尚未發現論述索引、數據庫與學術規范、評價的關系,或對索引的理論進行專題研究的論著。有幾篇題名涉及“索引理論”或“索引原理”的文章,其研究內容屬于哲學、語言學、信息系統或經濟學范疇,或沒有論述“原理”“理論”本身,僅涉及索引的概念和定義;例如,《以索引性理論探討地方特色產品在旅游地行銷中扮演之角色》[2]。零星幾篇提到“索引詞的理論”的文章,如《索引詞理論:一個哲學邏輯視角》[3]。有的則是“索引系統的原理”,如《PRECIS索引系統的基本原理、功能和應用》[4]。但現有研究沒有深入論述“索引理論”本身。

在國內圖書情報學、文獻學界,有些論者提出過“索引學”或“索引學科”,但在各種規范性詞典或專業工具書中難覓蹤跡(剛發現新近出版的《中國大百科全書:第三版.圖書館學》中已有“索引學”詞條),似乎沒見到以“索引學”為書名的專著。著名學者加菲爾德先生曾出版過《引文索引法的理論及應用》,在第一章引文索引法的概念里,并沒有涉及索引和引文索引的“理論”[5],著名情報檢索語言專家張琪玉先生在一篇文章中也列出過章節題名“索引原理在其他領域的應用”[6],但仔細看全文,發現所述“理論”和“原理”的闡述很簡約。這說明索引學是一個新興的、尚在發展的、有待同行形成共識的學科。索引學涉及到語言學、邏輯學、知識分類學、信息管理系統等學科。按照張琪玉先生的觀點,如果要研究“索引學”,不要研究太廣,與其他學科交叉的不重點研究,索引的基本原理、基本方法和技術則是研究重點。

從上可知,研究索引與學術規范、評價的關系具有現實性、新穎性和學術性。研究索引的本質屬性,探討索引及數據庫在學術規范與評價上的適當作用,對于充分發揮索引、數據庫的功能,準確理解同行專家評價法在學術規范和評價上的主導作用和文獻計量法的輔助、校驗、確認等作用,具有重要意義。本文利用概念分析法,研究索引、數據庫、引文的本質屬性。利用典型案例分析法,分析各類型索引、數據庫在學術規范和評價上的作用,尤其注重對學術創新這一基本規范的識別與評價,為學術規范與評價研究提供新的思路與路徑。

3 索引的本質屬性探討

什么是索引?索引與目錄的主要區別在哪里?許多教科書或工具書并沒有明確說明,或語焉不詳。網上一些解釋或比喻,也不準確,甚至有誤導。要解決這些問題,認清索引的本質至關重要。

所謂本質屬性就是一事物區別于另一事物的最重要的個性特征。例如,目錄與索引都是檢索工具,也都是信息統計、分析的工具,都是款目的集合,都需要排序,這些是二者的共性。但能深入到文獻或信息資源集合的內容進行不同程度的標引,注明其出處,異于源信息集合的排序則是索引的個性,或曰“本質屬性”,因為目錄不具有這些特征。目錄是匯集一組文獻或信息資源,著錄其責任者、題名、出版者等事項,形成款目,按一定方式排序的檢索工具。而索引,一定要從源文獻中抽取詞或詞組,甚至句子,加上注釋、出處等,形成款目,其排序一定與源文獻的排序不一樣。概括說來,源文獻抽取、出處、“異排”(“異排”是本文作者首次用來概括索引一個獨特性的語詞,是指不同于源文獻的排序,如源文獻正文的排序是分類,則索引的排序一定是主題、作者、題名排序,不能是分類排序)是索引區別于目錄等類似檢索工具的“本質屬性”。用專業術語也可以抽象出索引的概念模型:

源文獻或信息集合-抽取-索引項(詞、參照)-排序-出處指向-連接-源文獻或信息集合。例如,《全國中文期刊聯合目錄》著錄了幾萬種期刊的編者、期刊題名、創刊時間等信息,按分類排序,這是目錄??梢詫⑦@個目錄看成是“源文獻”,從每個期刊款目中抽出編者、題名等,注出出處頁碼,按名稱的字順排序,就形成了《全國中文期刊聯合目錄》的“名稱索引”。

又如,將數千種報刊(源文獻)中的文章篇名抽取出來,著名文章發表的出處(報刊名稱、卷、期、頁碼),并按照異于源文獻的次序排列,這就是文章篇名索引,如《全國報刊索引》。盡管有些論文篇名索引被稱為“題錄”,但這“題錄”不是目錄,而實際上是索引。

近期有些同行爭論,某大型商場各層樓商品導航或指南是否是“索引”的問題。按照上述索引的本質屬性來分析判斷,也很容易澄清這個問題。如果只是注明各層樓有哪些商品,按照樓層次序排列,則這個指南不是索引;如果將這個指南中的各種商品名稱一一抽出、標引,按照商品名稱字順排列,注出其出處(幾層樓幾區等),則這個就是商品索引。

網上360百科認為“索引的作用相當于圖書的目錄,可以根據目錄中的頁碼快速找到所需的內容?!盵7]這里的“目錄”,實際上是指一本書的“目次(contents)”,目次不同于目錄(catalogue/bibliography)。目次中是有表明章節的頁碼,但其排序卻與源文獻的排序一致,故目次不是索引?!爱惻拧笔侵浮爱愑谠墨I的排序”,這是索引區別于目錄、目次的一個重要特點。360百科將索引比喻成目錄(目次)是不準確的,表明詞條作者對索引的本質缺乏認識。

張琪玉先生認為現代的索引就是數據庫,理由是索引以數據庫形式出現,其應用面更廣。數據庫在功能上相當于傳統索引的一個索引體系。數據庫推動了索引編制技術的發展,特別是自動抽詞、自動賦詞、賦分類號等技術。推動了加權檢索、截詞檢索、模糊檢索等檢索方法。還推動了索引用語言(情報檢索語言)的創新,最重要的是索引語言的組配化和自然語言的應用[1]。

我認為,張先生的觀點是極有價值的,既充分肯定索引的價值,又明確了數據庫的重要性,將索引與數據庫有機聯系起來,對于大力倡導編制各種類型的索引或數據庫很有助益。數據庫是記錄的集合,每條記錄又是字段的集合,各種可檢字段都可以生成一個索引。數據庫的檢索原理實際上是索引原理的發展。

在關系數據庫設計者看來,索引就是數據結構,其特點是能排序、快速查找,不需要全面掃描,排序后僅掃幾次即可,能提高數據檢索的速度。數據庫在功能上相當于傳統索引的一個索引體系。因為數據庫包含許多字段,有的字段相當于文獻款目的各種著錄事項,而另一些字段相當于文獻的各種檢索標識項(諸如分類號、主題詞、題名、責任者等),這些字段對各文獻款目都可以生成一個索引,通過這個索引可以對數據庫相關內容進行檢索,也可以對相關字段直接檢索。一個含有分類號、主題詞等字段的數據庫相當于有了分類索引、主題索引等索引體系。因此從功能上說,數據庫具有傳統索引的全部檢索功能。正是從這個意義上說,現代索引就是數據庫。當然數據庫的檢索功能更為強大,數據庫是比傳統索引更為高級、先進的索引,二者不能完全等同。隨著計算機技術應用的普及,目前編制大型索引均為計算機編制,故許多索引都命名為“某某索引數據庫”。為行文方便,下文中提到的索引,如不特別申明,均指傳統索引和現代索引——數據庫。

關于索引的原理,張琪玉先生曾認為:索引是對某一文獻集合(如期刊)中所包含的各篇文章,或某種文獻(如專著)中所討論的各個局部主體和所述及的具有信息價值的各個事項(如人物、機構、地區、事件、生物、礦物、設備、工藝、方法、公式、數據、著作等)以簡明的方式分別著錄標引,即確定其檢索標識和指出其所在位置,并將款目按一定的可檢順序排列和組織,以方便檢索的一種工具[6]。

從以上原理的論述中可以看出,索引原理來源于索引的概念或定義和功能。

國家標準《索引編制規則(總則)》(修改稿)對索引有以下定義:指向文獻或文獻集合中的概念、詞語及其他項目等的信息檢索工具,由一系列款目及參照組成。而索引款目則是:對某一文獻或文獻集合的主題內容、涉及事項或外部特征加以描述的記錄,是索引的基本單元??钅坑蓸四?、注釋、副標目及出處組成。部分索引款目還帶有附加信息。索引的功能除提供文獻線索、節省文獻調研時間等外,有調查和核實學術成果,統計、分析文獻被引用情況,進行大范圍的文獻普查、利用等,還有文獻考證、文獻鑒別、古籍???、古籍整理等,用作語言學、目錄學、文化史、科學史、文獻計量學、科學計量學等研究的手段和工具。輔助查明某項發現、發明、理論、原理、方法等的優先地位或二次發現?;虬l現研究中的空白點或可能的生長點。這些功能與學術規范與學術評價有密切的關聯。

從索引的原理,我們可以推出以下一些命題。

推論一:對任何一個較大信息資源集合,總可以根據查找需求,將該集合中的特定元素或事項標引為索引項(標目)。這就是說,萬事萬物皆有信息,故皆可索引。商場層樓商品索引,索引項、出處標引理論上都可以多標,但在實際上,都應根據查找的需求來標引,標引應該適度。

推論二:索引項必須有序化,且有出處或位置符號。如果“異排”是一個特點的話,那么可以將“異排”增加上去,即:索引項必須有序化,異于原排序,且有出處或位置符號。

推論三:索引來源于信息資源集合(索引源),但不等于集合本身。信息資源集合是索引的源泉,索引僅是指向信息資源集合的線索或路徑。

推論四:索引指向信息資源集合中的內容,但不等于內容本身。

從以上四個推論就可以引申出引文索引、評論索引僅僅是“輔助學術評價與規范的作用”的結論。這些作用包括:對研究成果可以查新、認證、普查、統計、分析、排序等,并不是直接對研究成果質量的評價,盡管引文數據等能在一定程度上反映內容,或與質量有正相關性,但畢竟不能等于內容的質量評價,它僅對評審專家有參考、輔助作用,不能代替同行專家的評價和判定。因此,在學術評價上將“SCI至上”是有害的。本文在下面還會論及這個問題。

因此我們可以說,索引充分體現了“省時法則”:索引是省時高效查找信息、知識的利器。同時它還是一個有效的計量工具:索引的來源信息越多,數據越大,計量分析越有價值。在信息社會,具有“索引意識”“索引思維”極為重要,也是信息素養的一個重要組成部分。只要查找信息、知識感到不方便,那立刻就應想到“索引”,這就是“索引意識”。而后馬上思考如何能標引和有序化,怎樣才能省時高效標引和排序等,這就是“索引思維”。

4 索引/數據庫在學術規范中的作用

2001年筆者通過招標承擔教育部的哲學社會科學研究學術規范研究項目,起草“規范”,經過各校多位專家討論、修改,教育部社會科學委員會通過,教育部于2004年頒布《高等學校哲學社會科學研究規范(試行稿)》,被同行譽為“首部中國學術憲章”。2005年筆者出版國內首部《學術規范通論》,首次對學術規范下了定義[8],2017年再版。2011年又承擔教育部重大項目《學術規范和學科方法論研究》,主編出版了文科11個學科的規范與教育叢書,諸如在《圖書館學情報學學術規范與方法論研究》“總序”中指出:人文社會科學各個學科“對學術規范達到的目的、所起的作用或功能、所包含的最基本內容等的認識還是大同小異?!盵9]。

所謂學術規范是指學術共同體根據學術發展規律參與制定的有關各方共同遵守的、有利于學術積累和創新的各種準則和要求,是整個學術共同體在長期學術活動中的經驗總結和概括。包括學術研究基本規范、研究程序規范、研究方法規范、論著撰寫規范、責任者署名規范、論著引用規范、論著呈現規范、學術評價規范、學術批評規范。規范是手段,創新是目的,手段圍繞目的而變化,只要有利于學術創新,不適宜的規范就必須修改。遵守學術規范,就是講究科研誠信,反對學術不端(故意之行為,如剽竊、篡改、偽造、虛假署名、虛假信息、買賣論文、代寫等)、學術失范(無意之行為,如不會引用、論文格式混亂、圖表無標題和編號,選題空洞、沒有學術史回顧、缺乏論證、文摘、關鍵詞不規范等,自然科學稱之為“科研不當”)。發現、確證學術不端行為后,就必須處理;而發現失范或不當行為,則主要是教育。二種行為的性質及其處理方式必須分清,否則會影響學術的健康發展。學術研究基本規范,諸如合理質疑、批判性思維、創新性思維、獨立思考、學術平等基本規范是“綱”,責任者署名規范、論著引用規范等技術性規范是“目”,“綱舉目張”,基本規范最為重要,適用于文理各學科的研究。換言之,內容規范是“綱”,形式規范是“目”。以學術論文為例,其形式規范包括題目文字的多少、章節的標記符號、文摘、關鍵詞、參考文獻/注釋、圖表、措辭等規范。而內容規范是指選題、綜述、觀點、方法、論證(事實、數據)、結果/結論等每一步驟的規范。形式規范是底線,內容規范是關鍵,論文要有新意,能分析問題、解決問題,這是最重要的規范。

編制索引/數據庫的作用主要體現在以下幾個方面。

4.1 有利于提高文獻內容質量

編制有關文獻內容的索引,可以核對核心概念、術語的規范度,通過參照統一詞語表述,行文規范和統一性校對;通過主題(有關學術觀點、研究方法、研究結果和結論的主題詞)初步判斷論文的水平和質量。通過對《馬克思主義理論學科學術規范與方法論研究》《圖書館學情報學學術規范與方法論研究》《政治學學術規范與方法論》《語言學學術規范與方法論研究》等11本叢書編制書后索引,可以規范術語等內容表述,提高了叢書質量。又如,通過為博士論文編制索引,尤其是對論文創新點進行標引,能夠凸顯論文遵守內容規范,尤其是基本規范的情況。再如,編制題名索引對不當重復研究、重復發表的文章的查證(一稿多發問題);數據庫對抄襲認定的輔助(“翟天臨博士論文抄襲事件”);學術年表式索引的查新功能(首發權的認定、注冊),可以輔助查明某項發現、發明、理論、原理、方法等的優先地位或二次發現,或發現研究中的空白點或可能的生長點,重組文獻知識體系(學術創新是基本學術規范,文理科皆然)。

4.2 有利于“辨章學術、考鏡源流”

張琪玉先生于2001年就提出編制“學術年表式索引數據庫的設想”,以實現“辨章學術、考鏡源流”中國傳統目錄學理論的精華。在文獻題錄/索引基礎上,增加“時間(發表時間或發生時間)”“學術事件說明(仿照年表敘述方式)”兩個字段,按照時序揭示某一學科、專業、專題、主題領域的文獻及其在該領域發展史上的貢獻[10],對學術規范(學術史文獻綜述)和學術評價有重要作用,且能起到分類、主題索引不能起到的功用。

4.3 有利于科研誠信建設

引文索引、評論索引對引用經典、切題引用文獻、他人研究成果的評述或驗證,查看引用文獻和文獻綜述的合理性均有作用。有的查詢可直接核實,有的查詢則可指引專家聚焦判斷。包括“智能查重”,文獻是否為抄襲,最終需要專家定奪,不能由查重系統(數據庫)“一刀切”。

5 索引/數據庫在學術評價中的作用

索引在學術評價上的輔助作用學界討論很多且已有共識,比較好理解,輔助作用不能擴大化,變成“唯”,就片面化了。

學術評價是評價主體根據一定的目的和標準對評價客體進行的價值判斷。包括學者評價、機構評價、媒介(期刊、報紙、網站等)評價、成果評價(出版前評價與出版后評價)等。對于成果評價來說,有成果出版前評價:投稿評價、項目評價、學位論文評價等;成果出版后的評價則有期刊評價、圖書評價、論文評價、學者評價等。學術評價的原則有目的性;定性定量相結合;分類評價;質量評價;三公(公開、公正、公平);相對性評價。2010年筆者及其研究團隊首次提出了學術“全評價”體系論[11],2021年又推出專著《學術“全評價”體系論》,明確概括了學術“全評價”體系就是“六大要素”“三大維度”“若干推論、解釋和運用原則及規則”[12]。近年來學界、期刊界有不少報道、轉載、引用、評論。該評價體系與近期國外的《舊金山宣言》《萊頓宣言》的一些觀點不謀而合,且提出時間更早、邏輯性、易記性稍強。與近期中央有關評價中反“四唯”“五唯”的精神相契合,為其奠定了學理基礎。學術“全評價”體系論已被學界應用于期刊、圖書、論文、網站、學者、館藏文獻評價等方面。所謂學術“全評價”體系,概括言之,就是六大要素、三個維度、若干推論,全方位、全要素、全過程評價。六大要素是指評價主體、評價客體、評價目的、評價方法、評價標準及指標、評價制度。三大維度是指形式評價,內容評價、效用評價。由淺入深,層層遞進(三個維度階梯論)。若干推論是指評價目的制約論、同行專家主導論、評價客體細分論、評價指標可采論、評價方法適度論、評價制度保障論、計量方法與專家方法互補論等。形式評價一般為簡單評價,質量評價主要是內容評價和效用評價。

5.1 有利于輔助查明學術新貢獻

利用各種索引,尤其是綜合性、收錄文獻較為全面的索引數據庫,可以輔助查到學者、機構等的研究新成果,諸如某個新概念、新觀點、新方法、新資料、新理論等,并可以快捷、方便地確定知識產出的優先權,從而確定學者、機構的學術新貢獻。

5.2 有利于定量評價學術影響力

利用各種引文數據庫、學術評論數據庫、觀點創新索引數據庫等,可以查到研究成果及其作者、作者所在的機構、地區、國家等的分布情況,并可通過知識圖譜給予形象描述,通過數據的統計和分析,可以從一個側面測度研究成果及其作者、機構等的學術影響力。近幾十年來這方面的研究成果豐富,已形成文獻計量學、科學計量、信息計量學、網絡計量學(含Altermetrics)等新領域。

5.3 有利于輔助評價學術質量

由于引文索引數據庫等的出現,其利用變得非常方便,于是以引文為代表的計量評價法應運而生。不論是SCI、SSCI、A&HCI、SCOPUS,還是南京大學編制的《中文社會科學引文索引》(CSSCI)、《中文學術圖書引文索引》(CBKCI)、《中國智庫索引》(CTTI)、《中文學術評論索引》(CARI)、《中文人文社會科學集刊引文索引》等等,除了檢索作用外,亦有統計、分析學術影響力的作用(影響力不等于質量)和輔助評價質量的作用。從幾十年學界對其評價作用的爭論就可知道其作用。有的院士幾十年前就要求廢除SCI,但至今沒有落實。其中一個主要原因就是:引文既包含同行專家的定性評價,又可以定量評價,因此,否定不了。但這種同行的定性評價不都是直接的質量評價,動機多種多樣,引用深度也大不一樣。因此,對引文索引等的輔助評價學術質量的作用,我在十多年前就明確表示,一定要實事求是,不能絕對化,不能高估,也不能低看。值得指出的是,如果SCI,CSSCI研制目的主要是“檢索”作用的話,那么《中文學術評論索引》(CARI)、《中國學科專家索引數據庫》(CSI)則除了“檢索”外,更側重于“輔助評價學術質量”。但盡管如此,這些索引/數據庫都不能代替同行評議,僅供同行更好地評議學術質量作參考,或者對同行評議的結果進行核實、校驗。

6 結語

加強學術規范、遵循科研誠信,建立科學合理公正的學術評價體系是一個長期的任務,索引等技術手段僅是輔助工具。目前應將各種新技術與學術規范與評價研究的成果密切結合,雙管、多管齊下,療效將更為明顯。具體措施可以對大學生、研究生進行學術規范、科研倫理與學術評價的系統教育,提高智能查重與評價數據(影響因子、被引次數、H指數、Altmetrics等)的準確性,對論文的關鍵詞、文獻綜述、參考文獻是否規范均可自動檢測,以幫助指導老師審閱論文的規范性,學生也可利用系統自我學習有關規范,提高論文質量。但對學術不端行為應嚴格處理,加快中國學術共同體的建設(有學界,有同行,有學人,但無成熟的學術共同體,此正在建設與完善之中)。索引或數據庫系統不能代替專家、學者的認定和評價。研究者的綜合性思維、批判性思維、創新性思維在相當長時間里是技術(包括ChatGPT等新技術)不能替代的。索引/數據庫+人工智能先解決論文形式規范問題,如摘要、關鍵詞是否規范,以后再涉及論文內容規范,如文獻綜述是否合適,是否有重大遺漏,是否有創新點(查新)等問題。索引工作看上去似乎不怎么“高大上”,許逸民先生認為“眼高者不屑為,手低者不能為,用之者稱方便,而編者之苦衷非盡人皆知也”。而張琪玉先生認為“知識誠可貴,索引價亦高”。如果索引編制質量很高,那么 “知識誠可貴,索引價更高”。筆者深以為然。索引工作是有點“為人作嫁衣裳”,但“潤物細無聲”。更適當、更恰當地說,某些索引工作較簡單,但揭示復雜內容的索引卻未必。尤其是質量精當的內容索引或向量數據庫,至少涉及到邏輯學、語言學(術語學、語法)、情報語言學、目錄學、文摘學、編輯出版學等多方面的知識。索引工作的創新包括索引選題的創新、索引項的創新、索引方法的創新、索引應用的創新(在學術規范和學術評價上的應用),此并非易事。如果“高人”也來做索引/數據庫,無疑其功用將更大。

最后仿照名人句式作為結語:“學術尚無止境,索引必須多編,諸位加倍努力,大有用武之地!”

猜你喜歡
學術規范數據庫
來稿規范
來稿規范
PDCA法在除顫儀規范操作中的應用
來稿規范
如何理解“Curator”:一個由翻譯引發的學術思考
對學術造假重拳出擊
數據庫
數據庫
數據庫
數據庫
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合