?

基于規則引擎的氣象臺站元數據質量控制方法

2024-01-10 09:09
江西科學 2023年6期
關鍵詞:氣象臺站歷史沿革數據文件

王 鈺

(1. 江西省氣象數據中心,330096,南昌;2. 江西省氣象檔案館,330096,南昌)

0 引言

氣象臺站歷史沿革數據是氣象臺站自建站以來有關臺站名稱、臺站級別、隸屬機構、臺站位置、臺站環境、觀測要素、觀測儀器、觀測時制及其他影響觀測數據質量的變動情況記錄,是關于氣象臺站的元數據,其變化直接影響氣象觀測數據序列的比較性和均一性。氣象臺站歷史沿革數據為用戶分析、選擇和利用氣象資料,提供了科學依據,是氣候變化研究的基礎[1-3]。我國一直都十分重視氣象臺站歷史沿革數據的編研,形成了一套氣象臺站歷史沿革數據編制、審核、管理和服務的工作流程和制度。但由于沿革數據項目多、時間跨度長、信息來源渠道眾多,內容涉及氣象觀測的全過程,沿革內容和變化復雜[3-5],數據的完整性、規范性、準確性多依賴于數據質量檢查人員人工檢查和檢查規則與程序代碼綁定方式的質量控制[6-7],影響到質量控制效率,為此提出基于規則引擎的氣象臺站歷史沿革數據質量控制方法。

1 氣象臺站歷史沿革數據內容

氣象臺站歷史沿革數據文件簡稱“L文件”,由首部和沿革數據組成。首部由臺站檔案號、區站號、省名、站名、建站和撤站時間6數據組成。沿革數據由20個項目組成,各項目名稱及標識碼見表1。每個項目由一條或多條記錄組成,每條記錄由若干數據組成,各數據組之間用“/”分隔,每組數據長度有固定或規定的最大字符數。

表1 臺站歷史沿革文件各項目標識碼及名稱

2 氣象臺站沿革數據質量控制規則

規則引擎起源于基于規則的專家系統,屬于人工智能的范疇,它模仿人類的推理方式,使用試探性的方法進行推理,并使用人類能夠理解的術語解釋和證明它的推理結論。規則引擎的應用簡化了人類向計算機表述復雜業務邏輯的過程,它通過規則文件來存儲業務邏輯,又通過對規則文件的解析來處理業務,從而實現業務邏輯與處理邏輯的分離[8]。

2.1 規則集

規則集的定義和規則的編寫是規則集構建的兩個主要方面[9]。物理結構上,規則集是一張或幾張二位數據表。邏輯功能上,是用于存儲記錄待檢查數據質量使用到的最基本規則[10]。依據氣象行業標準《氣象臺站歷史沿革數據文件格式》《氣象臺站歷史沿革數據文件編制說明(簡稱:編制說明)》,梳理各時期氣象觀測規范及月、年數據文件形成校驗指標,制定氣象臺站歷史沿革各數據項質量控制規則,構建質量控制規則集,并將規則以數據庫表的形式存儲管理, 以提高規則庫的靈活性和可維護性,數據庫表的邏輯結構如圖1所示。

2.2 規則的編制

根據圖1的邏輯結構,從數據格式、時間一致性、內部一致性、數據的合理性編制氣象臺站沿革數據質量控制規則。

圖1 規則庫數據表邏輯結構

2.2.1 數據格式檢查 檢查數據格式與氣象行業標準中沿革數據格式的一致性。1)文件名檢查,氣象臺站歷史沿革數據文件名:LXIIiiixY1 Y1 Y1 Y1Y2 Y2 Y2 Y2.TXT,其長度為20字符,各字符含義固定,首字母固定為“L”,第2個字符是臺站類型識別碼,為“D”或“G”或“R”,第3~7位氣象臺站區站號,第8位專用識別碼,為“1”或“0”,第9~12位和13~16位為文件數據開始、終止年份,且第9~12位小于13~16位,第17位為“.”,第18~20位為“TXT”,沿革數據文件名需符合上述命名規則,否則設置“格式有誤”提示。2)數據項完整性檢查,判斷文件首部和數據項是否完整。缺少,則設置“xx項缺少”提示。3)數據組檢查,計算首部和每條記錄中數據組分隔符“/”的數量,比對氣象行業標準中各項數據的組數,檢查各條記錄數據組的完整性。4)數據組長度檢查。計算首部和每條記錄中各組數據長度,檢查首部和數據項各組數據的長度是否與氣象行業標準規定的長度一致。5)數據項重復記錄檢查,檢查各數據項是否包含重復記錄即是否存在2條或以上相同記錄。6)非法特殊字符檢查,檢查各項目中使用的分隔符、標識符,如“/”“;”“?”“(”等是否均為半角;“厘米”和“毫米”等計量單位是否為使用英文大寫“CM”和“MM”;數據文件中16個方位是否符合氣象觀測規范的縮寫規則,否則提示“xx項有非法字符”。

2.2.2 時間一致性檢查 檢查項目間開始、終止時間變化的同步性。1)項目時間一致性檢查,數據文件相關聯項目的開始時間與結束時間應一致,若文件名、文件首部中開始、終止時間與臺站名稱、區站號、臺站級別、所屬機構、臺站位置、臺站周圍障礙物、觀測時制、觀測時間、守班情況、觀測記錄、觀測規范的第一條開始時間和最后一條終止時間不一致,則設置信息提示。2)時間連續性檢查,同一數據項中,若后一條記錄的開始年月日和前一條記錄的終止年月日不連續,且在12項中無說明,則設置疑誤信息。3)觀測要素時間檢查,觀測要素07項中各觀測要素最早的開始時間與首部信息不一致,且在12項中無說明,則設置疑誤信息。4)觀測儀器時間檢查,觀測儀器開始終止時間需與對應觀測要素的開始終止時間保持一致,否則提示可疑。

2.2.3 內部一致性檢查 檢查數據文件中關聯項目、同一項目或同一條數據的內部一致性。1)臺站名稱一致性檢查,檢查臺站名稱是否和月、年報數據文件的臺站名稱一致。2)區站號一致性檢查,檢查數據文件中區站號與文件名、文件首部中區站號的一致性;檢查數據文件中區站號與對應的月、年報數據文件中的區站號是否一致。3)臺站級別與10項觀測時間一致性檢查,當臺站級別與10項中的觀測次數不相符時,提示“03項臺站級別稱謂與10項內容不一致”。4)臺站位置標識符與數據組“距原址距離;方向”一致性檢查,當標識符為“05”時,同一條記錄中的“距原址距離;方向”若為“00000;000”,或標識符為“55”時,“距原址距離;方向”若不為“00000;000”,都提示“05項內容不一致”。5)臺站位置與臺站周圍障礙物一致性檢查,當臺站位置遷移變化標志符為“05”時,而障礙物未隨之同步變化,則提示“05項環境變化06項障礙物未變”。6)觀測要素與觀測儀器一致性檢查,若07項觀測要素是器測要素,08項必編報對應的觀測儀器項,否則設置疑誤信息,反之亦然。7)觀測儀器與觀測記錄一致性檢查,當使用儀器不與14項觀測記錄相匹配時,如某年代08項使用某自記儀器,而14項同時段沒有該儀器觀測記錄載體的編報,且在12項中無說明,則提示疑誤信息。8)10項觀測次數與11項一致性檢查,若10項中的觀測次數與11項中的守班情況不匹配時,如10項觀測時間中的觀測次數為“4”,而11項守班情況為“不守班”,則設置疑誤信息提示。

2.2.4 數據的合理性檢查 按照沿革數據項目內容[11]和編制說明中各類參考表內容,檢查數據名稱、數據內容規范性、合理性。1)開始、終止時間合理性檢查,檢查開始、終止年份數組是否符合年份的特征數字,其日期應配合小月不出現31日;2月應判斷是否有閏日,同時開始時間應小于終止時間。2)名稱合理性檢查,臺站級別、觀測要素、觀測儀器設備、觀測記錄載體名稱等稱謂應與編制說明中各稱謂參考表內的名稱一致。3)臺站位置合理性檢查,檢查項目中的經度、緯度、觀測場海拔高度與對應月、年數據文件中的是否一致;“臺站地理環境”應與編制說明中臺站地理環境參考表內的名稱一致;“距原址距離;方向”應與通過臺站前后兩點的經緯度計算得出的距原址距離、方向一致,否則設置疑誤信息。4)周圍障礙物合理性檢查,當障礙物為山體時,高度應小于等于3 000 m;障礙物為建筑物時,高度應小于等于60 m,障礙物為樹木時,高度應小于等于18 m,否則提示疑誤信息;障礙物仰角小于3度時,提示不為障礙物;障礙物寬度角方位使用16方位表示,且每個方位不大于23度,否則提示疑誤信息。5)觀測儀器距地高度合理性檢查,觀測儀器距地高度均需符合氣象觀測規范中各類儀器安裝高度,同時需與對應的月、年數據文件中儀器高度一致,對儀器高度長期未變化的,設置疑誤信息。6)觀測時制合理性檢查,觀測時制以氣象觀測規范的定時觀測時制為準,如:1951—1953年的地面定時觀測時制有120E標準時、105E標準時及90E標準時3種;1954年01月01日—1960年06月30日地面定時觀測時制為“地方平均太陽時”;1960年07月01日后地面定時觀測時制為“北京時”,否則提示錯誤。7)觀測規范合理性檢查,觀測規范名稱及執行時間應與編制說明中規范參考表內的名稱及時間一致,否則設置疑誤信息。

2.3 規則引擎的實現

進行質量檢查時,首先依據各條項目中分隔符“/”,將L文件的各條項目數據組進行分解,去除3個預留項目,按數據文件01-20標識碼,分別存放到17個二維數據中,“行”為各項目記錄條數,“列”為項目的數據組個數。規則引擎從規則數據庫中提取規則,逐項檢查,對錯誤和可疑信息進行確認、定位、分析、處理、數據修改、標識,最后生成質量控制后的L文件。

圖2 基于規則引擎的質量控制流程圖

3 應用效果

基于規則引擎研發的氣象臺站歷史沿革數據質量控制軟件在《全國基礎氣象資料建設》中應用于地面氣象臺站歷史沿革數據的質量檢查,完成全國2 400余個國家級地面氣象臺站歷史沿革數據的審核,檢查出錯誤、可疑信息數萬條。通過軟件的錯誤定位功能,人機交互界面,對錯誤、可疑信息進行核對、判斷,完成了數據修正工作,大大提高了審核工作效率,保證了歷史沿革數據的規范性、完整性和準確性,為全國基礎氣象資料提供了質量可靠的臺站元數據,滿足數據共享服務需求。該方法具有規則庫維護的靈活性,能較好地滿足氣象臺站觀測元數據后續變化的需要,在近年的“歷史與實時資料一體化”“氣象臺站歷史沿革數據階段編研”等業務中發揮著積極作用,實踐證明,方法的應用是行之有效的。

4 結論

基于規則引擎的氣象臺站歷史沿革數據質量控制方法,能高效地檢查、過濾氣象臺站歷史沿革數據文件中不符合氣象行業標準及相關規范的數據,確保沿革數據的真實性、規范性,解決了氣象臺站元數據質量控制效率低的問題。該方法不僅提供便捷、直觀、完整的信息提示,還提供數據質控規則編制接口,便于規則的增加與改進,實現規則庫動態交互,以適應氣象臺站歷史沿革數據規則的完善及檢查規則不斷更新變化的需求。

猜你喜歡
氣象臺站歷史沿革數據文件
數據文件恢復專題問答
數據文件安全管控技術的研究與實現
白及粉末入藥歷史沿革概述
基于基層氣象臺站預報服務的幾點探討
SQL數據文件恢復工具
新形勢下縣級綜合氣象業務與人才培養管理工作初探
政府在基層氣象臺站保護氣象探測環境中的作用分析
大同清真大寺歷史沿革考釋
西方輿論觀的歷史沿革
縣級綜合氣象業務一體化發展的思路
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合