?

機器可識別標準實現路徑及保障措施

2024-04-11 17:32陳心怡張華方偉謝軍太
中國標準化 2024年7期
關鍵詞:標準

陳心怡 張華 方偉 謝軍太

摘 要:標準作為經濟活動和社會發展的技術支撐,是行業共同遵守的準則和依據。隨著產業體系的數字化轉型,標準也急需向網絡化、數字化、智能化發展。標準數字化發展主要階段中,機器可識別作為其數據源基礎受到廣泛關注。本文系統梳理機器可識別標準轉化的關鍵技術路線,結合當前現狀,提出傳統標準向機器可識別標準轉化的保障措施。最后,對機器可識別標準的挑戰及發展進行總結,以期對標準數字化轉型的發展提供借鑒。

關鍵詞:標準,標準數字化轉型,機器可識別標準

DOI編碼:10.3969/j.issn.1002-5944.2024.07.002

0 引 言

依托互聯網及數字技術的發展,產業鏈供應鏈的上下游已開始全鏈路、全要素、全場景地優化升級,進行產業體系的數字化轉變已成為當下熱點[1]。標準作為行業共同遵守的準則和依據[2],也急需向網絡化、數字化、智能化發展,標準數字化是標準未來發展的主要趨勢。

目前大部分標準只能以PDF文件或在線查看器(HTML)的形式存在,由人員制定和核查,出版后以人員為主要使用對象,很難滿足人機交互以及機器與機器交互的數字化需求。很多領域的自動化程度越來越高,標準的應用與更新適應能力不足、標準的數字化開發落后于市場發展需求等問題已不容忽視。標準的數字化轉型可以實現以數字形式提供規范,用于機器與其他系統(如CAD)之間的數據共享和數據交互,實現標準與機器或其他系統的自動讀取和應用,這將進一步節省時間和成本,提高產業應用的質量。

標準數字化作為未來面向所有領域的基礎規范與制度,是受數字時代所驅動的自我變革,它是系統性的,覆蓋全鏈條、全生命周期的[3]。標準數字化具有交互智能化等特征,能夠有效支撐機器執行或解析標準內容,甚至自主應答詢問,實現“標準即數據”“標準即軟件”“標準即服務”等新型標準應用模式。

標準數字化包含三個階段,即機器可識別、機器可執行以及機器可決策,以獲得人員使用的標準、機器使用的標準、人機協作的標準為目標[3]。然而,人員和機器對標準內容的解析方式存在明顯不同。人類在理解非結構化數據和邏輯推斷方面通常比機器更好,能夠從更豐富的經驗中獲得知識,因此可以關聯外部參考。機器通常無法理解非結構化的數據,也不能對未顯式定義的外部上下文進行推斷,通常不容忍語法和語義錯誤,因此內容的數據準確性對于機器而言尤為重要。將傳統標準準確地轉化為計算機語言文件是當前進行科技文檔數字化的基礎。作為標準數字化發展的第一個環節,機器可識別標準轉化的實現可以讓機器準確的“看見”標準,為后續的標準數字化發展奠定數據源基礎。

1 關鍵技術路線

機器可識別標準轉化是標準所定義的規則與特性,能直接被機器所執行的前提以及標準信息查詢、統計、交換、處理、統一管理的基礎。該階段需要利用相關數字化技術和工具,對標準進行加工、處理、解析、標注和關聯等。該階段的主要技術路線為先將傳統標準文本進行數字化處理,形成標準原始數據,基于原始數據進行分析標注。采用自下而上的知識體系構建模型進行數據處理,最后再進行該階段的綜合應用,其實現原理結構如圖1所示。

現有的標準以開放的標準數字文檔存在,PDF是主要的存在形式,一般來說,常見的標準PDF文檔有兩種:原生的PDF文檔,是文本文件生成的PDF文檔,這種文檔一般來說都可以直接復制文本;圖片轉PDF文檔,掃描件就是其中一種,復制文本需先進行OCR圖文識別才可復制。對于獲取的標準原始文件,首先需將標準掃描為圖像資料,且掃描分辨率要求為300dpi以上,并且將掃描好的標準圖片進行存檔,并依次按順序通過OCR識別,利用本身功能自動分析表格和文字,完成傳統標準的預處理,將圖像PDF標準統一轉化為可選中可編輯的雙層PDF格式[4]。

對雙層PDF標準進行初步結構化處理可借助內容特征進行信息抽取,進而實現將完整的標準文本離散為標準數據模塊。標準文檔的內容具有科技文檔的屬性,主要包含文字、公式、表格和圖片等信息,這些信息構成標準文檔的主體部分,也是標準中最小的獨立信息單元。對于雙層PDF中標準內容的分析識別可通過信息單元特征確認其在標準中的位置分布,其中表格分析需檢測所有的表格線,并組織成單元格結構,為之后的還原提供數據支撐,而文字和圖片可直接進行分析并識別,最終圖片、表格和文字形成相互對應排列的關系[5]。進一步根據標準文檔結構中字體、字號等信息確定標準名稱、正文等元數據,根據位置信息,并結合少量的人工干預進行正文拼接、正文與標題關聯等成文操作,從而使得整個版面上的標準行文能較快重新構建,同時可以自動獲取到該標準所在的版面區域、標準文檔框架和標題的字體、字號等標引信息,解決了標準重新構建過程費時費力或者效果不理想的問題。

基于上述路線,需要特別關注由于標準文本PDF文件里的文本往往缺少對于行、段落等結構的描述,所以要根據一些文本語義特征和規則,通過文檔結構識別來完成這項“組合”的工作。通過相應的函數處理,每頁內的文本結構會以一個樹形結構保存下來。采用的標準文檔結構識別框架如圖2所示。結合內容和標準格式的特征,對標準文本各部分的屬性和位置進行標注,可實現對表格、文字和圖片分析識別的結果進行組織和導出,按照原始表格模式進行原版書格式還原。

2 保障措施

基于當前現狀,將傳統紙質標準轉化為機器可識別標準是一項系統工程,需要從組織和人員兩個方面進行過程保障,進而加強技術協調和實施,為下一步機器可執行標準的形成奠定科學穩定的基礎。

(1)加強組織領導。建立貼合數字化標準的新型管理協調機制,形成職責明確、協同推進的工作格局。標準數字化的推進需國標委等各級平臺的共同配合,共同組織實施標準編制過程的轉型升級。

(2)拓寬新型標準使用渠道。機器可識別標準相較傳統的非結構化標準進行了知識的碎片化處理,標準技術內容的指向性提高,為各種應用場景的智能對接提供可能,拓寬了機器可識別標準的使用渠道,為下一步機器可執行標準的實現奠定基礎,為未來生產應用的對接提供條件。

(3)強化監督管理。積極推進機器可識別標準相關規定的確定,構建完善的新型標準全周期管理體系,充分結合新型標準的使用情況,提高標準的質量。

(4)完善技術人員配置。機器可識別標準管理工作要求建立機構配備具有相應標準化經驗和相關技術的工作人員,對機器可識別標準工作進行技術保障、安全保障、監督檢查和長期保存等,對已有紙質標準進行機器可識別轉化環節全過程有效控制。

3 結 語

本文以實現機器可識別標準轉化為基礎,結合標準內容,確定各要素涉及的知識數據,構建層次分明、結構合理、可擴展性高的機器可識別標準轉化技術模型體系。然后,通過數字化技術實現從標準文本中提取多模態標準知識實體。針對不同的信息單元,建立具有特異性的分析識別方法。

機器可識別標準在未來有助于改變標準的檢索方式。隨著標準信息化的發展,標準應用的領域和深度日益增加,單一的標準題錄檢索和卡片式管理模式已不適應新型標準檢索需求,需要能夠提供更加快捷、更加精確的檢索模式來實現對標準內容的精準檢索?;跈C器可識別標準的應用,計算機對標準可進行信息化管理與查詢,逐步實現了標準紙質文檔向標準電子文檔的轉變,提高了標準檢索的效率,加快了標準信息傳遞及信息共享的速度,使標準的應用、管理更加高效,同時實現對標準的動態跟蹤,進一步增強了標準信息的及時性、準確性[6]。

參考文獻

[1]李倩,田雪.數字化轉型背景下企業產業鏈現代化水平提升路徑研究[J].商場現代化,2024(1):103-105.

[2]米愛娟,楊曉玲, 竇玲.淺析標準的重要性[ J ] .中國纖檢,2009(2):41.

[3]汪爍,盧鐵林,尚羽佳.機器可讀標準——標準數字化轉型的核心[J].標準科學,2021(S1):6-16.

[4]王珂,楊芳,姜彬.光學字符識別綜述[J].計算機應用研究,2020,37(S2):22-24.

[5]馮亞南.基于深度學習的光學字符識別技術研究[D].南京:南京郵電大學,2020.

[6]曹永生.標準數字化系統的構建與實現[J ].中國標準化,2016(8):62-66.

作者簡介

陳心怡,通信作者,工程師,主要研究方向為標準數字化。

(責任編輯:袁文靜)

猜你喜歡
標準
2022 年3 月實施的工程建設標準
忠誠的標準
標準匯編
美還是丑?
你可能還在被不靠譜的對比度標準忽悠
一家之言:新標準將解決快遞業“成長中的煩惱”
2015年9月新到標準清單
標準觀察
標準觀察
標準觀察
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合