?

美國地質調查局數據管理機制及啟示

2019-09-18 06:09趙輝
數字圖書館論壇 2019年7期
關鍵詞:數據管理出版物信息

趙輝

(中國科學技術信息研究所,北京 100038)

收集、管理和使用科學數據對國家科技創新和社會發展具有重要戰略意義。政府部門及相關機構是科學數據產生的重要機構[1],建立高效的科學數據管理與共享機制是提升科學數據利用率和創新效率的關鍵所在。美國政府部門及相關機構在科學數據管理機制構建方面具有成功經驗,美國地質調查局(USGS)是科學數據收集、管理和共享服務的重要機構之一,遵循美國科學數據共享的法規和制度,致力于生態、氣候、土地使用變化、能源和礦產資源、環境健康、自然災害、水資源領域的數據資源開放和共享,對其進行研究可以為我國政府部門制定科學數據管理政策、構建科學數據管理機制提供參考。

1 USGS的數據管理政策

1.1 政策依據

USGS在1879年建立之初,就簽署了各種與數據管理與共享相關的民事法案(《美國法典》,第20頁、第394~395頁),授權USGS向社會公布其從事科學活動的數據和發現。

USGS將公開出版物、地圖、數據和模型都歸入數據管理范疇,將公開出版物、地圖、數據和模型統稱為數據產品,并保證公眾所獲得的產品在技術上是合格的,且經過同行評議。對于這些產品,USGS堅持嚴格的開發、審查、批準和發布政策、標準及程序。2013年2月22日,美國科技政策辦公室(oSTP)發布備忘錄——“增強對聯邦資助科學研究成果的訪問”[2],號召所有年度研究與開發支出超過1億美元的聯邦機構來共同執行一個計劃,提高聯邦資助所形成的直接科學研究成果(包括同行評議出版物和數字化數據)的開放獲取。美國內政部2015財年全部年度研究與開發預算資金為9.25億美元,其中,74%(6.86億美元)分配給了USGS,其余部分分配給了其他的內政部門。在6.86億美元中,超過10%(約7 000萬美元)分配給了非USGS下屬的研發團隊[3]。這些資金所形成的研究成果都屬于oSTP所提出的數據開放獲取計劃的管理范圍,具體包括3部分:①USGS資助的科學研究活動,或者是由USGS管理的科學研究活動所形成的數據成果;②USGS主動發布的數據成果;③USGS科學家,或者承擔USGS資助研究活動的科學家對外發布的數據成果。

1.2 版權規定

2013年開始執行的開放數據獲取計劃規定,2013年及其以后執行的所有研究活動所形成的信息產品的電子拷貝須于正式發行日期后的12個月內向公眾提供免費查閱服務。該電子拷貝既可以是被接受的最終稿(AM),也可以是最終出版版本。出版物的支持性數據優先于出版物出版日期,或與出版物出版日期同步向公眾發布,公眾可免費獲取。此外,與USGS資助研究相關的最終數據免費提供給公眾。被開放獲取的信息產品全部經過同行評議[4],包括關聯數據[5-8]。在所有媒體上發布的數據,無論是否由USGS發布或出版[9],數據作者可以是全職、兼職、志愿者,也可以是退休人員[10]。但是,數字化的科研數據如遇特殊情況不能公開,需經審批同意。例如,如果科研數據中包含瀕危物種的位置數據,則不能公開。開放數據獲取計劃還要求所有新的研究方案必須包含正式的數據管理計劃(DMP)。2015年2月起USGS內部的科學家必須遵守這一要求,從2016年1月開始,所有承擔USGS研究項目的外部科學家也必須遵守這一要求。

美國的無形財產管理政策為聯邦資助機構提供了一項權利,即在復制、出版或以其他方式使用信息產品時,免版稅、非獨家、不可更改。為了聯邦目的,也可以授權他人進行以上出版和復制活動。同時,依據美國法律,聯邦政府具有:①獲取、復制、發布或以其他方式使用聯邦資助所產生的數據;②授權他人接收、復制、發布或以其他方式使用這些數據。

2 數據開放的管理機構及信息系統

2.1 數據管理機構及其職責

USGS負責數據開放獲取的具體機構包括6個。①科學質量與誠信辦公室(the Office of Science Quality and Integrity)制定數據開放相關政策,監督政策執行。②通信與出版辦公室(the Office of Communications and Publishing)負責編輯、制作、準備、發布USGS所屬的系列出版物。③核心科學系統任務區(the Core Science Systems Mission Area)負責USGS出版物倉庫(USGS圖書館系統的一部分)、USGS科學數據目錄和數據倉庫,創建和管理USGS數據管理網站的數據集成社區。④企業信息辦公室(the office of Enterprise Information)負責管理特定的存儲庫和檔案。⑤美國地質調查局的科學中心主任(USGS Science Center Directors)負責確??茖W家向科學中心提供數據,遵循USGS的基本科學實踐。⑥收購和捐贈辦公室(Office of Acquisition and Grants)負責向USGS以外的科學家提供研究資金,要求這些科學家創建數據管理計劃,并向USGS交付發表手稿的數字版本和相關數據。

2.2 數據出版系統及其關系

為了保證數據開放政策的落實,USGS將數據開放所涉及的信息系統進行了統一規劃,引入了如數字對象唯一標識符(DOI)等信息管理機制,建立了對外公開的網絡接口。USGS對外公開與服務的信息系統架構示意圖如圖1所示。USGS還對信息系統架構中所涉及的系統名稱進行了定義。

(1)黑色檔案(Dark Archive):指不能被開放訪問的檔案。黑色檔案的建設目的是作為一種信息保存,用于災難恢復的保護措施。讓一份文檔“光明化”指將其從黑色檔案系統中提取出來,放在公眾可訪問數據庫中。

(2)外部出版物(External Publications):指任何被非USGS實體所發布的USGS信息,包括但不限于科學雜志、專業團體卷宗、合作代理的出版物和大學或商業出版者。

(3)基礎科學實踐(Fundamental Science Practices,FSP):是USGS政策中規定的一套強制性要求,描述了由USGS科學家主導地發表科研結果、發布數據的同行評審過程。

(4)信息產品(Information Product):一件信息產品顯示了科學知識(發現、事實或它的解釋),通過演講、文本、圖形或地圖被交流,以任何媒介(如印刷、數字化、Web、視聽)送達到明確的受眾或客戶。既包括出版物,也包括數據。

(5)科研數據(Research Data):記錄下來的事實材料,被科學界認為可以用于驗證研究發現。事實材料不包括初步分析、科學論文草稿、未來研究計劃、同行評議或與同事交流的記錄等內容。這種“記錄”材料也不包括物理對象(如實驗室樣品)。

(6)學術出版物及相關科研數據(Scholarly Publications and Associated Research Data):指任何展示USGS資助的研究成果的出版物,以及與該研究相關的任何數據。這些數據或者包括在出版物中,或者是獨立的數據集,但其可以指向學術出版物。

(7)USGS信息產品數據系統(Information Product Data System,IPDS):內部的USGS IPDS是一個基于Web的應用程序和黑暗文檔,它記錄和跟蹤FSP下的信息產品的審查、批準和傳播。IPDS還向USGS出版物倉庫提供了用于創建引用的書目元數據。IPDS作為一個黑暗的信息產品檔案,目前還沒有公開發布。IPDS收藏了USGS資助的出版物上接受的手稿。如果在信息禁止發布期結束后出版商未能提供開放獲取,IPDS將向USGS出版物倉庫提供副本,以滿足開放獲取要求。

(8)USGS科學數據庫(USGS ScienceBase):是一個數字存儲庫和協作數據管理平臺,提供對機器可讀數據和元數據的開放獲取。ScienceBase還充當一個跨計劃的機構存儲庫,確保對聯邦資助的研究結果進行長期管理。ScienceBase允許科學家以任何文件格式提供新的和原始的數據內容,為某些類型的格式提供高級訪問和集成功能(例如,通過開放地理空間聯盟Web服務提供shapefiles和GeoTIFF文件)。ScienceBase的設計目的是為項目團隊提供安全開發和數據管理的功能,并促進對公開發布數據的最終審查和批準。

(9)USGS科學數據目錄(USGS Science Data Catalog):是一個USGS科學數據的開放搜索和發現工具。元數據可以通過USGS科學數據目錄從USGS任務區和計劃獲得。USGS數據管理員通過科學數據目錄儀表板應用程序向科學數據目錄提供元數據,并提供各種匯總報告。

(10)USGS出版物倉儲(USGS Publications Warehouse):是由USGS圖書館管理的在線引文索引,可以訪問USGS出版物的權威信息源。每個出版物都有一個動態生成的描述性引用頁面。出版物倉儲編目團隊基于各種來源的數據構建和維護記錄,包括IPDS、USGS科學出版網絡頁面和公告以及其他書目數據庫。出版物倉庫站點的構建方式允許Web搜索爬蟲程序輕松索引,并提供基本和高級搜索功能。出版物倉儲還提供許多不同的Web服務,包括可定制的RSS提要和Mods XML服務。

(11)USGS系列出版物(USGS Series Publications):指系列編號的信息產品,每個系列都是為了滿足特定的受眾需求,由USGS自行制作,并在USGS網站上免費發布。

圖1 USGS學術出版物和數字化科研數據開放與出版體系示意圖

2.3 具體管理規定

2.3.1 對學術出版物的規定

在完成同行評審、USGS批準和生產之后,學術出版物被提交到USGS出版物倉儲,以PdF和XML格式進行編目和開放出版。

學術出版物最終手稿的全文被保存在IPDS系統中。IPDS是國家檔案及記錄管理(National Archives and Records Administration)數據倉儲的一部分。這個數據倉儲是所有美國國家資助所形成的信息產品的黑暗檔案。IPDS中收錄了所有USGS資助外部科學家所形成學術出版物的電子拷貝。內部科學家的出版物由科學家自己存入IPDS。承擔USGS資助的研究項目的外部科學家的出版物由負責USGS外部項目的科學家存入IPDS。

一經出版,所有USGS對外出版的系列出版物和學術出版物都將在USGS出版物倉儲中進行編目。相關的數據也要同步或提前于“AM”或“PoR”的出版,在USGS科研數據目錄中進行編目。鏈接會提供所有信息產品的全文和訪問類型(開放獲取或僅訂閱者可獲?。?。

USGS與美國開放科研管理中心(Clearinghouse for the Open Research of the United States,CHORUS)簽有協議,規定如果非USGS的出版物刊登了USGS資助研究所形成的出版物且該出版物與CHORUS有服務協議,CHORUS就要向USGS進行通報在該出版物上發表USGS資助成果的信息。這些USGS以外的出版物及其元數據要在USGS出版物倉儲中進行編目,并在出版商網站上提供全文鏈接,在時滯期后會提供免費開放獲取。

對于那些不能通過CHORUS獲取全文的出版物,或時滯期超過12個月的出版物,存儲在IPDS黑暗檔案中的手稿會通過USGS內部服務器公之于眾,并可通過USGS出版物倉儲獲取。

2.3.2 對數字化數據的規定

在經過質量保證、質量控制、正式描述、審查和批準后,與USGS學術出版物相關的數據既可以包含在出版物中,也可以作為一個獨立的數據實體發布。

與USGS學術出版物相關的數據,以及其他獲準出版的數據都需將數據內容、所需的數據管理水平和所需的傳播方法提交到USGS內部數據存儲庫中。為了提高服務能力,用戶訪問的是一個可信的第三方分布式存儲庫,但數據的權威版本由USGS保存。描述數據的元數據全部被編入USGS科研數據目錄庫,以此提高了開放發現的一致性。

USGS數據在基礎科學實踐框架下進行審批,一旦批準發布,公眾就能以恰當的形式免費獲得數據。

USGS對于科學庫中的系列出版物和數據集、其他數據存儲庫以及期刊出版商分配和注冊了數字對象標識符(DOIs),以提高信息產品訪問的便捷性。

2.3.3 對及時訪問能力的規定

USGS出版物數據倉庫提供對其系列出版物最新文獻和歷史文獻的及時搜索、發現和訪問,用戶可以免費進行PDF格式的下載。出版物倉儲中編目的所有USGS的作者發表的非USGS所屬出版物,也會在正式出版后即刻提供全文鏈接。出版物正式出版后12個月內,公眾可以通過出版商網站或USGS網站免費閱讀、下載和分析全文的電子版。無論任何時候,USGS都會提供所有經過同行評議的出版物的全文檔案。

USGS鼓勵公私協作,允許第三方輕松地從USGS出版物倉儲和USGS ScienceBase中獲取元數據記錄和鏈接,這些記錄和鏈接可用于外部發現和存儲庫系統。USGS參與了CrossRef和DataCite,使用DOIs來促進科研出版物和相關數據的訪問。USGS為訪問和提取元數據記錄提供了多種選項,例如API,可下載的格式包括RIS、CSV、TSV、Excel、RSS和JSON。

為限制未經授權的訪問和下載等行為,USGS的各個信息系統都不提供多個出版物和多個數據集的批量下載。USGS對出版物的線上服務商進行監測,如果發現非法的大規模復制和傳播情況,USGS的法律辦公室將會進行處理,并剔除該服務商。

3 科研數據的過程管理

對于研究、監測/觀察項目產生的數據,絕大部分都可以通過USGS網站在線訪問。有些數據(如國家水標尺網絡監測數據)甚至提供實時數據服務。USGS確保開放的數據都符合《聯邦信息安全管理法案》、隱私法和其他有關部門的政策規定,能夠保護機密和個人隱私,維護恰當的私有利益、商業機密和知識產權,避免重大負面影響,保障國家的創新和競爭力。無論是USGS自行出版或與第三方合作出版,都選擇使用機器可讀、開放且符合數據標準的格式,提供完整的元數據以支持進一步的信息處理和傳播活動。為保證數據質量,USGS建立了數據管理生命周期模型,按照科研數據生命周期模型對數據的生產、獲取、分析、服務等活動進行管理和操作,具體如圖2所示。

圖2 USGS數據管理生命周期模型

科研數據生命周期模型描述了數據管理活動從開始到結束的各個階段,包括計劃、獲取、處理、分析、存儲和出版/共享,還包括一貫始終的元數據、管理質量和數據安全等活動。

明確的科研數據生命周期模型為USGS的數據活動提供了行動、操作或過程的綱要,良好的數據管理有助于提高數據資源的質量和價值,讓科研人員可以重用這些經過精心管理的數據資源,這是整合數據和提升數據價值的關鍵。

科學數據生命周期模型中規定了科研人員和數據管理人員各自的角色和職責(見表1)。在制定數據計劃和出版/共享數據階段,科研人員和數據管理人員一起工作,其他階段則主要是科研人員從事科研數據的相關活動。這樣的規定有助于明確職責,也讓科研人員清楚地知道可以在何處以及何時尋求管理人員的幫助。需要說明的是,每個項目的數據管理計劃可以根據實際情況進行調整,而不是必須執行的規定。

表1 USGS科研數據管理的職責分工示意

數據管理活動與科研項目一起開始。在出版/共享數據之后,科研項目產生的科研數據和項目管理活動形成的資源可以被其他項目使用。

數據管理生命周期模型是USGS評估和改進科研數據管理政策和實踐的依據,并據此確定需要的新工具和標準。

3.1 數據管理計劃

生命周期模型的第一個元素是數據管理計劃,旨在幫助科研人員確??紤]與處理項目數據資產相關的所有活動,從項目開始到出版和歸檔。在此階段,應該評估、處理和記錄模型的所有元素。大多數資助機構要求在提交項目申請書時提交數據管理計劃。數據管理計劃一般包括如何獲取數據、使用適用的標準、確保足夠的文檔、提供免于損失的保護以及共享和保存支持其研究的數據。數據管理計劃的每個部分都應該包括“為什么”。例如,對于元數據標準,不僅應該描述將使用哪個元數據標準,還應該描述選擇該元數據標準的原因。

項目團隊應該考慮方法、所需的資源(包括資金和人員)以及數據生命周期每個階段的預期產出。參與制定數據管理計劃的人員包括首席研究員、合作研究者、數據收集者、數據分析師、IT人員、建模人員、GIS人員和元數據專家。這些人員共同制訂一個實用且有益的數據管理計劃。

3.2 數據獲取

第二個元素是收集,包括收集、生成、考慮和評估新的或現有數據以供重用的活動。水標尺數據、歷史地圖、地震學運動傳感器輸出、生物記錄和衛星觀測都是獲得數據和信息的例子,這些數據和信息代表著USGS研究中各種各樣的科研數據輸入。在這個階段要清晰定義所有權及所有權變更的歷史信息,這是USGS策略和最佳實踐的要求,有利于維護USGS信息產品的來源信息和完整性。

3.3 數據處理

第三個元素是處理新數據或先前收集的數據。處理活動包括:定義有效的數據元素;不同數據集的集成;提取、轉換和加載;校正數據以進行分析。在此階段,科研人員需要確認USGS的已有標準和工具是否可以滿足項目需求,這些工作也有助于建立USGS的基礎科研活動。

3.4 數據分析

第四個模型元素是數據分析,代表了探索和解釋已處理數據相關的活動,從而對假設進行驗證,獲得發現,得到結論。分析活動包括總結、繪圖、統計分析、空間分析和建模,用于產生科學結果和信息。在這個元素中,可以生成新的數據,跟蹤數據版本的變更,并記錄處理過程。分析期間的數據管理有助于提高數據分析活動的效率,保留對科學完整性至關重要的文檔,并為將來的研究奠定基礎。數據分析活動的輸出是數據的解釋或新數據集,通常以書面報告或機器可讀格式發布。

3.5 數據存儲

第五個模型元素是保存,指與存儲數據相關的長期活動(遠遠超過項目生命周期),以確保數據的使用和可訪問性。由于項目預算和時間壓力,通常直到項目的最后階段才考慮保存問題。而根據生命周期模型,在數據發布與共享之前,需要考慮如何長期保存數據。通常,在此時項目完成方與USGS的業務單位達成協議,以保存項目完成之后的數據。也就是說,獲得聯邦資助的科學家必須計劃長期保存數據、元數據、輔助產品、與應用程序無關的存儲格式和任何其他文檔,以確保數據的可用和重用。所有由USGS資助產生的科研數據都必須保存。

3.6 數據出版與共享

在數據出版/共享階段,將出版物同行評審概念與通過Web站點、數據目錄、社交媒體和其他場所分發數據相結合。數據和信息的出版和傳播是USGS的重要任務。同時也進一步明確,數據和傳統出版物一樣,都是科研成果,同樣需要進行管理。

數據出版/共享前需要完成9項工作,包括定義數據文件的內容,使用統一的數據組織方式,使用穩定的文件格式,分配描述性文件名,保存處理信息,履行基本質量保證,提供文檔,保護數據,以及保存數據。

需要為每個參數選擇一種格式,并在元數據中解釋這種格式,而且要在整個文件中使用這種格式。盡量選擇和使用數據集的標準化格式。遵循5W1H的要求準備數據文檔,說明誰收集數據、誰處理數據、誰撰寫元數據、誰擁有數據、誰負責回答數據問題、誰負責數據銷售;數據在哪里收集、在哪里處理、在哪里保存;數據是關于什么的,在什么項目支持下收集的數據,使用時有什么限制,質量如何,數據可以用在什么地方,測量了哪些數據,數據格式是什么;為什么要收集數據;何時收集的數據,何時處理的數據;如何收集數據,如何處理數據,如何訪問數據,如何訂購數據,獲取數據的成本是多少,如何評估數據質量。

3.7 元數據及文檔管理

元數據是數據發現的基礎和保障。標題、描述和關鍵詞等元素使用戶能夠基于主題搜索發現數據??臻g和時間元素允許用戶根據數據的地理位置或時間段發現數據。元數據也是理解和重用科研數據的關鍵。在數據開發時,科研人員最了解他們的數據集和創建數據集的步驟。隨著時間的推移,對細節的記憶開始模糊,關于數據集的知識會慢慢淡忘。如果沒有元數據記錄,關于數據集的信息可能永遠丟失,造成數據不可用。

USGS是美國內政部的研究部門,其任務是為其他機構的資源管理決定提供健全和中立的數據及數據解釋。這些決定可能會引起爭議,有可能往往會在法庭上受到質疑。必須充分記錄做出這些管理決定的數據,以便使其透明和可復制,能夠使第三方將這些點聯系起來得出類似的結論。USGS規定,在批準和出版之前,元數據必須伴隨所有USGS科研數據、軟件和其他信息產品。這些元數據記錄必須符合聯邦地理數據委員會(FGdc)批準的標準之一。數據和元數據必須在出版前進行質量和完整性檢查。在實際管理過程中,USGS建議讓同一個人評審元數據和數據。一旦獲得批準,這些元數據必須存入合適的機構目錄和更大的系統(如DOI目錄),并通過這些系統共享,DOI目錄向管理和預算辦公室及data.gov報告數據資產。最后,必須更新元數據記錄,以反映更改,確保鏈接正常工作,并繼續指向預期的文件。

USGS產生的大多數數據本質上是地理空間數據,因此,必須提供符合FGDC批準標準的元數據。地理空間數據不僅包括可導入地理信息系統應用程序的數據,還包括重要位置的野外照片和樣本等數據。FGDC在1994年采用了數字地理空間元數據的內容標準,并在1998年進行了修訂。2010年,FGDC通過了ISO 19115標準。到2015年,這一套標準文件包括ISO 19115-2,即圖像和網格數據的擴展;ISO 19110地理空間特征編目標準和ISO 19119地理空間Web服務的內容標準;以及ISO 19139 XML實現模式。USGS并不支持一種標準勝過另一種標準,但要求使用其中一種標準來描述地理空間數據。

4 結語

USGS作為將數據管理和共享職責視為重要使命的政府部門,其對數據資源的認知和管理機制啟示如下。

(1)出版物和數據集都是科學研究的成果,反應了研究成果的不同側面,具有天然的聯系,都具有很高的科學價值、社會價值和經濟價值。作為其產出的重要部門,要進行一體化的設計和規劃,建立兩者融合集成的管理機制,使二者發揮更大的作用。

(2)需要建立項目管理與數據管理的集成化管理機制,使科學研究所產生的信息成果實現高效收集、管理和利用。項目管理與數據管理制度只有彼此獨立,又相互依存,互為支撐,才能使數據管理活動得以制度化推廣和應用。

(3)數據管理機制的成敗關鍵在人,因此需要將人員的角色、定位和任務清晰劃分。行政管理人員、數據管理人員和科研人員的關注點和職責不同,將基本職責和工作原則劃分清晰,會更加有利于數據的高效管理和利用。

(4)數據信息與出版物信息相比更加復雜,領域差異性很大,管理過程中需要更多的標準,為了方便交換和共享,需要更加注重開放標準的建立和使用。

猜你喜歡
數據管理出版物信息
企業級BOM數據管理概要
定制化汽車制造的數據管理分析
海洋環境數據管理優化與實踐
CTCS-2級報文數據管理需求分析和實現
2017年出版物
訂閱信息
Global analyses of sea surface temperature, sea ice, and night marine air temperature since the latenineteenth century
Arctic sea ice decline: Faster than forecast
2015 年出版物
展會信息
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合