?

概率論與數理統計在NLP領域創新發展研究

2020-04-07 03:41翁宇旋
信息技術時代·中旬刊 2020年5期
關鍵詞:概率論與數理統計

摘要:計算機的語言模塊發展中,對于數據資源的依賴相當高,在對于語料的分析中,利用不同的分析方式,帶來的效果也存在著很大的差異性。在本文中詳細介紹了其中關于基于數理統計和概率論分析下的NLP管理方式,對于數據研究中,將依據處理包的模塊化分析為計算理論提供了理論基礎,并在語義的分析以及邏輯的調整下形成轉換,不僅統一的了標準,避免出現語句的表達錯誤,同時也是加強了語句的表達方式。在對文本檢索的計算方式上進行調整,強調數據之間的語義邏輯沖突檢索,在數據分析的基礎上不斷提高自然語言的使用能力。

關鍵詞:概率論與數理統計;自然語言處理數據模塊;語料庫邏輯分析

隨著網絡社會的不斷發展,對于網絡數據的管理形式更加多元,這就給網絡平臺帶來了極大地自由,與此同時就會出現違規的情況,網絡環境的凈化就亟待解決。如今,在不同的網絡平臺中廣泛使用的NLP(自然語言處理,以下簡稱NLP)對網絡進行有效的凈化,不斷對語言進行統一,在概率分析的基礎下,利用數據包的模式對語言轉換起到幫助作用。在對語言的管理模式中,NLP系統就是基于概率論和梳理統計基礎上衍生出的管理模式,有效的促進了網絡系統的語言統一,對網絡運行成本也能夠有效地控制。

一、NLP數據模型基本情況

NLP是自然語言處理的統稱,在計算機統計中一門分類學科,利用自然語言的文本中對數據進行采集和存儲,并根據算法對數據進行檢索。在過程當中,對于語言的統計還細分為標注和語義的分析,在量化指標的要求下,把作品的風格進行調整,利用計算機數據加工功能對數據的詞匯庫進行加工,通過詞匯之間的隨機搭配,在深度的融合下實現研究范圍擴大。在軟件數據庫中,將大量的文字進行處理,在語法分析和詞性的辨析上起到搭配的效果,從一個新環境中進行檢索研究,省去了各個軟件之間相互轉化的麻煩。在傳統的自然語言管理中,各個軟件需要進行相互的轉換,不能只有的進行切換,更不能根據設計者的要求進行深度語言處理研究,詞匯的搭配不能在隨機的模式中進行,但是根據概率論和數理統計的方式,可以將已有的詞匯在計算中得到充分的使用,由原來的片段形式,形成篇章的形式,在工具包的模擬下,彌補研究中的不足。同時在NLP中使用Python 語言更能將語言得知轉換變得便捷。在邊界模糊的語言處理中,由于Python 語言是處理的源頭,數據的處理較為方便,使得在多個領域中將概率論和數理統計分析作為研究的突破口,把Python 語言作為研究的模式,在語句庫中新城NLP管理模式。

二、NLP管理模式研究內容

在原始語言中,將數據在網絡中接入,根據數據的內容不同,接入的接口不同,在根據人工的判斷,將數據形成轉換介質,在文本中出現的符號和相對應的格式中,將不規范的問題在計算機算法中進行解決,保證了軟件能夠識別的前提下,通過數據統計的方式再次對源數據(語言)進行處理,并用Python 語言進行數據包的上傳,在數據庫中調用非表達式模式的文本,將表達的方式不局限在語言表達,可以轉化為公式辨識的方式,并在replace模式下,將命令下達,對字符進行轉化,保證原有不規范的詞語和不正確或是出現不正常的語句進行修正,刪除贅余的語句,形成對篇章的整體處理。

作為第一步,完成Python 語言上傳,也就是NLP管理中數據的預處理,是將隨機的數據根據算法進行上傳,充分的將概率分布的原理融入其中,隨后是對詞語進行修改,在多條不相兼容的數據中,進行物理隔離,在對于較好識別的詞語進行優先分類,對分類的形式作為識別模塊,在采集數據的過程中,數據的識別模塊就相應的激活,由于數據的來源上相同但是內容完全的不同,會形成文本存在差異性,利用加權矩陣的驗證方式,對于相互存在關聯性的文本進行合并。這部操作中,降低大量來自數據自身的工作時間,減少了人為操作的麻煩,避免了數據分類中存在的錯誤。其次在分詞中,數據的雜亂性也可以根據驗證的公式進行初步的篩選,將原有錯誤的數據進行淘汰。根據淘汰的數量進行概率的計算,為下一步詞句的還原作為基礎工作。隨著詞語內容的劃分,隨即對語言的語料進行劃分??紤]到后期語言處理的可檢索,將Python 語言包中的調用模塊提前使用,并與識別模塊相互兼容。鑒于數據在使用語句塊的replace命令將多個語句進行替換,就會出現統計上的誤差,會對后期的語句重組進行加工,將標注和注解進行深度處理,保證功能方式的實現,并根據非表達語言分類方式,實現分詞的語料分析,達到細分詞語的效果。

再者是對詞性的還原,在語段中,將曲折的表達方式進行文本的歸納,在文本的模式中,更換研究的方式,保證詞語進行歸納,在不同的詞語中,由于詞性的相同可進行歸納。在定量的語句控制下,達到語言處理詞匯量整體形成數據庫的效果。在Python 語言數據包中,將還原詞進行多次的詞性還原,并根據相同詞性數據庫的管理方式,進行詞性的賦值,在分類中,對自然控制下的條件語言進行細分,對于檢索和增加標簽的方式進行數值模塊,并在處理中借助神經模塊的方式提高分類的準確性,形成對詞匯的賦值,保證后期的檢索方便。

三、NPL管理中統計分析

NPL管理中運用的是統計學的相關原理,對于Python 語言也是根據概率的方式進行數量的控制,在大量的數據進行匯總分析,在檢索中形成索引,根據不同的規律進行劃分,把個別偶然出現的,對于語義和語境沒有作用的詞語進行篩選,根據偶然性的概率進行劃分,并衍生到規律當中,形成語言的具體搭配,模擬成固定的形式,并外部的搭配中完善Python語言數據庫。在考慮到詞句和詞語的不同,遵循概率的方式,在一詞多個用的情況下,可隨機對語句進行搭配,保證數據的多重使用,在內在的規律下,形成定義的轉化,并在意義與管理的模式中進行切換,在傾向性的變化中突出語言的使用技巧,并在Python 語言中進行數據的統計分析。

在進行所有操作之前,需要進入命令行,輸入指令將 Python 語言自然語言處理包導入。通過輸入指令②,將語料導入。Python 語言包自身包含古騰堡項目、布朗語料庫、網絡和聊天文本、路透社新聞語料庫等大量語料庫資源。在原始語料中,存在“]”、“-”、“”、“CHAPTER”大小寫混雜等情況,會影響下一步對語料的標注與統計分析,需要在進行下一步分析之前去除,本文通過命令③來實現文本的清潔。在處理包中,可通過調用 is. alpha ( ) 屬性來去除語料文件中非字母部分,結合 if 判斷句的使用,實現文本的清潔。NLTK 對文本處理方式較多,也可以通過正則表達式中“/W”匹配符對字母進行匹配,從而獲得清潔文本。在命令③中,調用 lower ( ) 方法,對語料中單詞進行小寫處理,以便提高統計的準確度。對語料進行清潔處理后的對比,上部分為原始數據,下部分為進行清潔處理后的數據。處理后“Emma”“I”被處理為“emma”“i”,“[”已被去除。

在進行詞形還原操作之前,需要先輸入命令將Word Net Lemmatizer方法分配。經歷上述步驟后,獲得語料基本能夠滿足進行詞匯搭配研究需要,可以對詞匯出現頻率和搭配進行研究,但當前基于語料庫的研究已不僅僅限于詞匯層面,還涉及句法、篇章等多個層面。要在更高層面開展研究,還需要對語料進一步處理即詞性標注。在 Python 語言中,通過調用pos_ tag 方法實現?!癳mma”被標注為名詞,“by”被標注為介詞。限于技術原因,標注還不能做到 100% 準確,如人名“austen”被錯誤標注為動詞。

下面還是以常見詞“of”為例,介紹的自然語言程序處理包在檢索詞語搭配中的運用。在獲得詞匯“of”的常見搭配的估計之后,為進一步對詞匯進行研究,證明提出的小說中“of”一詞詞匯搭配的猜想,還需要對搭配進行統計分析,以便證實猜想。在研究單詞“of”附近一個位置范圍內,常見搭配的頻數統計上,自然語言處理包提供bigrams,ConditionalFreqDist等多種工具可滿足研究需要。通過以下命令實現對詞匯“of”附近一個位置范圍內的出現詞匯頻數的統計。在實際研究中還需要生成詞表以便對語料的整體特征有所掌握。Python 自然語言處理包提供了FreqDist對詞匯進行統計。

四、語義邏輯分析檢測

在NLP處理中實現的信息管理,將多個區域的數據進行分類,在規則的條件下根據統計的不同進行性能的變化,在以來與語言的分析和文本格式的調整,實現語言的語料分析,在不需要大的計算的條件下,進行知識的融合。在運用信息抽取的情況下,將數據模型中資源進行架構調整,并在思考的方式上進行改變,把原有的詞匯精準性提高,在對計算機的理解下,將相互關系進行變換,提高智能服務的能力。在描述邏輯的語言分析中,對語言網進行調整,把概念性的語言進行識別,在對象的幾何中,由于對象是二元對對立,保證本質的區分的同時考利到定義的不同,將具體的語言進行個別定義,利用模型的語義進行推理,保證在邏輯中模型不出現沖突的情況,在運算層面上保證知識同樣不出現沖突性。

上述主要是在語義方面的邏輯沖突的檢測,簡單的來說就是在源數據的基礎上利用不同的定義對原有的數據進行重新描述,在語言的嚴謹性和關聯性方面實現統一,保證結構化的數據在思維的大數據模型中表現出概率分析的特性,當然,只利用數據的模式不能夠過于單一,對語義的分析要遵循管理原理,在嚴謹性上使用主謂賓的管理方式,在順序上進行相應的推導,保證不會出現歧義的情況發生,在保證描述性的一致性上,對定義詞匯進行描述,在靜態和數據動態進行直接推導,形成語句的標注和檢索具體功能實現。

以語言中語句的標注為例,在多個應用場景中,利用語言的選擇方式,在獨立的瀏覽模式中,將語句接入場景中,提供實用性分析,在接入網絡服務后,滿足多個用戶的需求。在不同的語句分析模塊下,對需要標注的文本進行分析填注,在不同的實體之間進行切換,在實例與虛擬的空格之間上文本。對于語法的分析中,在選擇標注的方式和標準的定義方式,對于無法標記的內容,缺乏邏輯內涵的數據進行屏蔽,把具有邏輯鏈條和相互作用的語句進行添加,實現數據的共通。在語義的推導中,利用不同的推導方式,將未知的數據進行問題形式分析,在模式型的解釋分析中,將概念抽象以及后期的數據共享。所謂的概念模型就是在抽象中數據中將一些具體的描述性話語進行解釋,在有明確的定義的分析中,對不明確的內容進行解釋,使得語句的表述清晰,語義明確,保證用戶的認可度提升,實現應用系統在語義上的串聯,同時也是保證分類方面的一致性,確保詞句直接在檢測沖突上達到相同的概念分析。

五、結束語

由于數據庫中語言的復雜性,在支持的數據中不同的語料情況較大,利用單一的數據分析方式無法滿足自然語言的處理方式,利用概率論和數理統計的方式可以很好的解決語言管理方面的一系列問題。在今后的研究中,可根據語言處理包的不同,對語義進行劃分,并將劃分歸納的方式進一步統一,形成文字間固有的處理方式,提高自然語言的處理模式效率。

參考文獻

[1]夏天,樊孝忠,劉林. 利用 JNI 實現 ICTCLAS 系統的 Java 調用.計算機應用, 2004(24):177-182.

[2]張宗仁.基于自然語言理解的本體語義信息檢索. 廣州:暨南大學,2011

[3]徐力斌基于 WordNet 和自然語言處理技術的半自動領域本體構建計算機科學,2007(34):219-222

[4]BIBERD,CONRAD S,REPPEN R. Corpus linguistics: investigating language structure and use[M]. Cambridge: Cambridge University Press,1998.

[5]BIRD S,KLEIN E,LOPER E. Natural language processing with python[M].New York: O'Reilly Media Press,2009.

[6]PERKINS J.Python text processing with NLTK2.0 cookbook: Lite edition[M].Birmingham: Packt Publishing Ltd,2011.

作者簡介:翁宇旋(1987.09-),男,本科,主要研究方向:自然語言處理研究。

猜你喜歡
概率論與數理統計
淺談概率論與數理統計課程與數學建模思想的融合
概率論中幾個事件之間的聯系與區分
應用型本科院?!陡怕收撆c數理統計》教學模式的探索
《概率論與數理統計》教學創新探究
行動導向教學法背景下的《概率論與數理統計》
加強計算機技術在“概率論與數理統計”課程中的應用
翻轉課堂教學模式在《概率論與數理統計》課堂教學中的實踐研究
民辦高校概率論與數理統計教學改革探討
數學建模在概率論與數理統計教學中的應用
軍?!陡怕收撆c數理統計》教學方法探討
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合