?

農業知識圖譜構建數據集

2024-04-29 05:01陳雷,周娜,朱芃璇,袁媛
農業大數據學報 2024年1期
關鍵詞:知識圖譜

摘要:通過信息技術提高農業生產的效率、優化農業生產中的問題對我國農業發展至關重要。目前,信息技術的發展產生了海量數據,這些數據大多以碎片化、非結構化的形式分布在網絡上。尤其在農業領域,使用傳統搜索引擎進行信息檢索難以高效準確地獲取其中有價值的農業信息,往往需要消耗大量的時間和精力從海量無組織的數據中進行二次收集和整理。針對上述問題,本文通過網絡爬蟲技術挖掘公開的農業網站中的數據,經過自動化或半自動化數據清洗、去噪等過程,將非結構化的數據重新組合成結構化的數據,最終以知識圖譜的方式進行存儲。所構建的農業知識圖譜數據集包括糧食作物、經濟作物、水果、蔬菜等11個農業大類、共計8 481個小類的條目數據,每個小類條目對應一種農業生物或藥物。具體包括糧食作物461種、經濟作物2 208種、水果1 294種、蔬菜257種、食用菌118種、花木1 161種、水產142種、農藥113種、農作物病蟲害1 605種、獸藥519種、中草藥603種。根據該數據集構建的農業知識圖譜三元組達到90 508條,規模較大、覆蓋品類較為廣泛,能夠為農業知識問答、推薦系統等人機交互友好的智能應用研發提供基礎數據支撐;同時,在生成式大模型中融入農業領域知識圖譜,有助于在垂直領域上實現更為高效、精準的信息檢索和智能決策。

關鍵詞:農業數據;網絡挖掘;知識圖譜;數據集

1? 引言

近些年,農業信息化的發展在網絡上產生了海量數據,這些數據大多以非結構化、碎片化的形式存在,傳統搜索技術難以高效準確地發現所需數據,往往需要數據需求者消耗大量的時間和精力從海量無組織的數據中進行二次收集和整理。因此,亟需一種結構化的數據表示方法以剔除無關信息并有效組織有價值的信息,從而降低信息獲取、分析和應用的難度。

2012年,谷歌提出的知識圖譜(Knowledge Graph)[1]采用<實體1,關系,實體2>三元組對知識進行結構化表示,構成網狀的知識結構[2],可用于各類復雜場景的知識分析與智能決策,已在經濟[3-4]、醫學[5]、藥物分析[6]等領域廣泛應用。這為解決上述農業領域知識表示與信息檢索的難題提供了良好的思路和參考。農業知識圖譜可以實現分散數據集的相互關聯與有效整合,有助于實現高效的數據檢索[7]和知識推理[8],成為國內外學者持續關注的研究主題。CHEN等[9]構建的AgriKG是一個面向農業全領域的知識圖譜,使用自然語言處理和深度學習技術識別非結構化文本中的農業實體和關系并鏈接到知識庫中;許鑫等[10]通過網絡爬蟲技術獲取小麥品種信息,對抓取的數據進行清洗、抽取、融合、實體識別、關系抽取等處理,構建了小麥品種知識圖譜;張嘉宇等[11]為解決農業知識圖譜對病蟲害防治相關實體和關系刻畫不夠細致問題,構建了蘋果病蟲害知識圖譜;陳明等[12]構建了花卉病蟲害知識圖譜,使得花卉病蟲害知識更加規范、完整;張朋朋等[13]采用Python爬蟲和OCR技術對數據進行處理,最終獲得5類奶牛疫病261條數據,構建了中國奶牛疫病知識圖譜。

上述研究大多構建的是某一種或某一類農業對象的知識圖譜,規模相對較小,難以滿足農業數據組織與搜索的需求。本研究通過網絡爬蟲技術快速挖掘網絡數據,經過數據清洗、去噪等一系列預處理,得到包括11個農業大類、共計8 481個小類的條目數據,據此構建的農業知識圖譜三元組達到90 508條,規模較大、覆蓋品類較為廣泛。

2? 數據采集與處理方法

構建農業知識圖譜數據集主要分為三個階段:數據采集、數據預處理、數據存儲。數據采集主要是確定數據的來源以及數據的挖掘;數據預處理是將挖掘的數據進行去噪、清洗等操作;數據存儲是選擇適當的形式存儲獲得的結構化數據,為后續抽取三元組、構建知識圖譜做準備。

2.1? 數據采集

網絡上的農業數據雖然種類繁多,但是分類明確、屬性清晰的結構化數據非常少。因此,在這樣的條件下,構建農業知識圖譜首先要篩選農業領域分類清晰且每個農業數據條目都附帶有相應的屬性說明的網絡數據源。根據以上要求,作者在查閱眾多網站后,采用“中國農業網(http://www.zgny.com/)”和“農博數據(http://shuju.aweb.com.cn/breed/breed-1-1.shtml)”這兩個公開網站作為數據挖掘的來源。

同時,不同網站數據結構和屬性不同,根據構建知識圖譜所要求的數據完整性和類型一致性等約束條件,最終選擇了11類屬性條目相對完整且一致的農業數據作為構建知識圖譜的數據來源。如圖1所示,花卉類需要具有分類名稱、品種名稱、國家級審定編號等屬性。數據來源確定后,使用Python語言編寫腳本用于目標網頁數據的爬取,其中主要采用requests和xpath庫進行html頁面解析并挖掘文本數據。獲得的原始數據包括11個農業大類、共計8 481個小類的條目數據,具體包括糧食作物461種、經濟作物2 208種、水果1 294種、蔬菜257種、食用菌118種、花木1 161種、水產142種、農藥113種、農作物病蟲害1 605種、獸藥519種、中草藥603種。

2.2? 數據預處理

從網絡挖掘的文本數據一般存在兩個問題:一是屬性及其描述通常包含在大段非結構化的文本中,且文本中包含特殊符號等噪聲;二是即使數據類別相同,其包含的數據屬性也是不一致的,如圖2所示。因此,需要對挖掘的數據進行清洗、去噪等預處理。

首先,采用腳本語言編寫正則表達式以批量去除文本中的網頁標記等特殊字符,示例如圖3所示,能夠對英文字母大小寫、阿拉伯數字、標點等特殊字符進行相應的處理。

然后,對文本使用隨機采樣的方式抽取每類數據中所包含的屬性,進行篩選后確定每類數據最終的屬性構成,如表1所示。最后,按屬性名稱從長文本段落中提取相應的屬性描述。完整的數據預處理流程如圖4所示。

2.3? 數據存儲

基于預處理后的數據構建知識圖譜,需要進行實體識別、關系抽取等前期工作才能獲得相應的三元組。為了簡化這些工作,本文進一步將預處理后數據以結構化的形式進行存儲,使得能夠較為方便地從其中的單條數據構建出多個<實體,屬性名,屬性描述>或<實體1,關系,實體2>形式的三元組。如圖5所示,以花木數據中虎眼萬年青條目為例,可以構成<虎眼萬年青,別名,海蔥>、<虎眼萬年青,產地,原產南非>等三元組。

3? 數據內容

本文構建的農業知識圖譜包含11個農業大類、共計8 481個小類的條目數據,具體每類數據的數據量如表1所示,每類數據保存在相應的JSON文件中,以大類的英文命名。

條目具體內容包括品種名稱和品種屬性描述,其中品種名稱作為鍵,屬性描述作為值,以字典形式存儲,如圖6所示。示例中,“紫云英”“小麗花”等品種名稱作為鍵,其“別名”“產地”“習性”等屬性的描述作為值,形成字典形式的結構化數據進行存儲。

根據上述數據存儲方式能夠較為方便地抽取出90 508條知識圖譜三元組,從而構建農業知識圖譜。所構建的知識圖譜部分如圖7所示。

4? 質量控制和技術驗證

在數據采集階段,采用多種方法控制數據質量,其中為獲取到分類明確、屬性清晰的農業數據,對農業領域網站進行搜索和篩選,最終選擇較為專業且規范的網站作為數據來源,保證每條農業數據的來源真實可靠。

在數據預處理階段,除了數據清洗、噪聲去除等自動化方式,作者團隊中還配備長期從事農業信息化研究的科研人員對所挖掘的農業數據及類別進行檢查和分析,逐條檢查預處理之后的文本,糾正可能存在的數據錯誤,包括文本噪聲完全去除和數據類型及屬性是否與表1一致等檢查,進一步保證了數據的準確性和一致性。

在數據存儲階段,以規范的JSON格式存儲數據,結構清晰,便于自動化解析和處理,提高構建農業知識圖譜的效率。

在數據的技術驗證階段,首先依據此數據集構建了農業知識圖譜。然后,對知識圖譜中的實體和關系進行完整性檢查。由于受限于數據來源網站,所構建的數據集不可避免地存在數據不完整的現象。對于原始數據中缺失的部分屬性,在構建的結構化數據中相應地標注為“未知”,以便為后續知識圖譜擴充或知識補全方法的研究提供標簽信息。最后,為驗證該數據集的有效性,搭建了基于文本分類的農業知識問答系統[14],基于構建的農業知識圖譜進行答案的檢索,從系統應用的角度對數據集進行驗證。

5? 數據價值與使用建議

目前農業知識圖譜大多只包含某一種或某一類農業對象,本數據集涵蓋11個大類的農業數據,共計8481個小類,根據此數據集構建的農業知識圖譜規模較大、覆蓋品類較為廣泛。數據價值主要體現在如下兩方面。

(1)直接作為知識推理研究的知識庫??稍谠摂祿幕A上利用知識補全等方法對數據進行擴充,進一步提高知識的完整性。

(2)為智能農業應用研發提供基礎數據支撐。研究人員可以結合自然語言處理技術,快速搭建農業知識問答[14-15]、推薦系統[8]等應用軟件。

隨著生成式大模型的快速發展,在大模型中融入農業領域知識圖譜,有助于在垂直領域上實現更為高效、更為精準的信息檢索和智能決策。

6? 數據可用性

數據庫(集)的訪問與獲取信息如下:

中國科技資源標識碼(CSTR):17058.11.sciencedb. agriculture.00016;

數字對象標識碼(DOI):10.57760/sciencedb. agriculture.00016。

數據服務系統網址:https://doi.org/10.57760/ sciencedb.agriculture.00016,允許公開獲取。

數據作者分工職責

陳雷,數據分析、質量控制及論文撰寫指導。

周娜,數據匯總及論文撰寫。

朱芃璇,數據獲取、質量控制及匯總整理。

袁媛,數據分析、質量控制及論文撰寫指導。

倫理聲明

本文數據不涉及倫理聲明相關的內容。

利益沖突聲明

作者聲明,全部作者均無會影響研究公正性的財務利益沖突或個人利益沖突。

參考文獻

[1] SINGHAL A. Introducing the knowledge graph: things, not strings [EB/OL]. (2012-05-16) [2023-08-22]. https://blog.google/products/ search/introducingknowledge-graph-things-not/.

[2] 劉嶠,李楊,段宏,等. 知識圖譜構建技術綜述[J].計算機研究與發展, 2016, 53(3): 582-600. DOI:10.7544/issnl000-1239.2016. 20148228.

[3] 陳曉軍,向陽. 企業風險知識圖譜的構建及應用[J]. 計算機科學, 2020, 47(11): 237-243. DOI:10.11896/jsjkx.191000015.

[4] 楊波,廖怡茗. 面向企業動態風險的知識圖譜構建與應用研究[J]. 現代情報, 2021, 41(3): 110-120. DOI:10.3936/j.issn.1008-0821.2021. 03.011.

[5] SONG Y, CAI L, ZHANG K, et al. Construction of Chinese Pediatric Medical Knowledge Graph[C]. Joint International Semantic Technology Conference, Hangzhou, China, November 25-27, 2019. DOI:10.1007/ 978-981-15-3412-6_21.

[6] GONG F, WANG M, WANG H, et al. SMR: Medical knowledge graph embedding for safe medicine recommendation[J]. Big Data Research, 2021, 23:100174. DOI:10.1016/j.bdr.2020.100174.

[7] 王棟,周菲,李穎芳,等. 我國甜櫻桃產業知識圖譜構建研究[J]. 中國果樹, 2023, 2023(1): 104-108. DOI:10.16626/j.cnki.issn1000-8047. 2023.01.021.

[8] 趙繼春,孫素芬,郭建鑫,等. 農業在線學習資源知識圖譜構建與推薦技術研究[J]. 計算機應用與軟件, 2022, 39(8): 69-75. DOI:10. 3969/j.issn.1000-386x.2022.08.010.

[9] CHEN Y, KUANG J, CHENG D, et al. AgriKG: an agricultural knowledge graph and its applications[C]. Database Systems for Advanced Applications, Chiang Mai, Thailand, April 22-25, 2019. DOI:10.1007/978-3-030-18590-9_81.

[10] 許鑫,岳金釗,趙錦鵬,等. 小麥品種知識圖譜構建與可視化研究[J]. 計算機系統應用, 2021, 30(6): 286-292. DOI:10.15888/j.cnki.csa. 007986.

[11] 張嘉宇,郭玫,張永亮,等. 細粒度蘋果病蟲害知識圖譜構建研究[J]. 計算機工程與應用, 2023, 59(5): 270-280. DOI:10.3778/j.issn.1002- 8331. 2205-0556.

[12] 陳明,朱玨樟,席曉桃. 基于知識圖譜的花卉病蟲害知識管理方法[J]. 農業機械學報, 2023, 54(3): 291-300. DOI:10.6041/j.issn.1000-1298. 2023.03.029.

[13] 張朋朋,李全勝,孔繁濤,等. 中國奶牛疫病知識圖譜構建數據集[J]. 中國科學數據, 2023, 8(2): 257-264. DOI:10.11922/11-6035.nasdc. 2022.0011.zh.

[14] ZHU P, YUAN Y, CHEN L, et al. Question answering on agricultural knowledge graph based on multi-label text classification[C/OL]. Seventh International Conference on Cognitive Systems and Information Processing (ICCSIP2022), December 17-18, 2022, Fuzhou. DOI:10.1007/978-981-99-0617-8_14.

[15] 封晨,楊文,孫冠群. 基于知識圖譜的智能問答系統研究[C]. 第三十七屆中國(天津)2023I、網絡、信息技術、電子、儀器儀表創新學術會議,天津, 2023. DOI:10.26914/c.cnkihy.2023.022844.

引用格式:陳雷,周娜,朱芃璇,袁媛.農業知識圖譜構建數據集[J].農業大數據學報,2024,6(1): 1-8. DOI: 10.19788/j.issn.2096-6369.100002.

CITATION: CHEN Lei, ZHOU Na, ZHU PengXuan, YUAN Yuan. A Dataset for Constructing Agricultural Knowledge Graph[J]. Journal of Agricultural Big Data, 2024,6(1): 1-8. DOI: 10.19788/j.issn.2096-6369.100002.

A Dataset for Constructing Agricultural Knowledge Graph

CHEN Lei1,2, ZHOU Na1, ZHU PengXuan2, YUAN Yuan1,2*

1. School of Electronic and Information Engineering, Anhui Jianzhu University, Hefei 230601, China; 2. Institute of Intelligent Machines, Hefei Institutes of Physical Science, Chinese Academy of Sciences, Hefei 230031, China

Abstract: Improving the efficiency of agricultural production and optimizing the problems in agricultural production through information technology is crucial for the development of agriculture in China. At present, the development of information technology has generated massive amounts of data, which are mostly distributed on the Internet in fragmented and unstructured forms. Especially in the domain of agriculture, using traditional search engines for information retrieval is difficult to efficiently and accurately obtain valuable agricultural information, often requiring a lot of time and effort to collect and organize secondary data from massive unorganized data. To address the above issues, this paper utilizes web crawler technology to mine data from publicly available agricultural websites. Through automatic or semi-automatic data cleaning, denoising, and other processes, unstructured data are recombined into structured data, which is ultimately stored in the form of a knowledge graph. The dataset for constructing agricultural knowledge graph includes item data for 11 agricultural categories, such as grain crops, cash crops, fruits, vegetables, etc. Specifically, it includes 461 types of grain crops, 2 208 types of cash crops, 1 294 types of fruits, 257 types of vegetables, 118 types of edible fungi, 1 161 types of flowers and trees, 142 types of aquatic products, 113 types of pesticides, 1 605 types of crop diseases and pests, 519 types of veterinary drugs, and 603 types of Chinese herbal medicines, totaling 8 481 subcategories. The agricultural knowledge graph constructed based on this dataset has 90 508 triplets, which can provide basic data support for the development of human-machine interactive intelligent applications such as agricultural knowledge Q&A and recommendation systems. Meanwhile, integrating agricultural knowledge graph into generative large language models can help achieve more efficient and accurate information retrieval and intelligent decision-making in vertical domains.

Keywords: agricultural data; network mining; knowledge mapping; datasets

猜你喜歡
知識圖譜
國內外智庫研究態勢知識圖譜對比分析
國內信息素養研究的知識圖譜分析
國內圖書館嵌入式服務研究主題分析
國內外政府信息公開研究的脈絡、流派與趨勢
基于知識圖譜的產業集群創新績效可視化分析
基于知識圖譜的產業集群創新績效可視化分析
基于知識圖譜的智慧教育研究熱點與趨勢分析
國內酒店品牌管理研究進展的可視化分析
從《ET&S》與《電化教育研究》對比分析中管窺教育技術發展
專家知識圖譜構建研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合