?

論大數據技術與在線生成文章的關系

2020-07-23 16:35李滕飛孫東王平
商情 2020年31期
關鍵詞:大數據技術

李滕飛 孫東 王平

【摘要】隨著計算機,互聯網的日益普及,大數據技術的迅速發展,因特網用戶量和信息量的快速增長。用戶對于多渠道的廣泛的信息的需求也是日益增長的,用戶希望在各行各業中得到大數據技術的應用,通過大數據平臺機器學習搜索實現文章在線生成,實現與社會實踐相結合,了解社會大眾人口的需求,為其定制合理的在線文章生成的軟件。在線生成文章可實現各種文章的模擬,可以涉及到各個行業應用。通過Spark特征提取,只要輸入標題或關鍵字就可以生成符合用戶需求的文章。

【關鍵詞】大數據技術 ?Spark數據庫 ?在線生成文章

引言:Spark是我們項目決定選用的計算框架,因為其包括了在大數據技術中的各種各樣的計算框架。比如我們的機器學習就是應用到了Spark Mllid,圖計算應用到了Spark?GraphX。對于項目研究我們也是選用了Spark+Hadoop的組合,它是大數據領域最熱門的組合之一,同時也是最有前景發展的組合,因此我們項目組決定采用spark基本框架實現在線生成文章APP的研究。(Spark主要用于大數據計算,Hadoop用于大數據的儲存)。

一、項目實施的背景和目的

在項目之初我們進行了社會調研,走向大眾,通過調查問卷和隨機采訪的形式了解大眾對所研發的在線生成文章的APP的需求,分析調查問卷,以學生群體為例:幾乎100%的學生承認寫作是自己的弱項91.4%的學生同意或非常同意在線生成文章對他們提高寫作會有所幫助。在這其中,有74.3%的學生同意或非常同意數字化該平臺能幫助自己利用碎片化時間學習,為自己提供了有價值的資源和信息,而擁有一個文章平臺可以有效調動了自己的寫作積極性,降低了寫作焦慮感。

通過大數據的數據庫儲存的各類文章,通過機器學習來進行關鍵詞的整合分類以達到項目要求的創作的文章,通過大數據技術快速的特點和可變性,在滿足數據質量的同時能夠提供多渠道的大量的數據來進行應用和實踐,通過低成本的大數據技術完成高品質文章的生成,同時開發者通過學習機器學習能夠更多的去研究探討計算機對于人類發展的便捷應用,通過這個項目使需要新文章新思路等需求人們獲得便捷和多樣的選擇,更好的便民利民。

二、項目研究內容

開發并學習使用spark計算。Spark是屬于基于內存計算,在提升數據處理的實時性的同時也確保了它的高容錯性和高可伸縮性,而hadoop就像是一個大腦和一個口袋這兩個元素構成的一個集合,其中大腦負責計算數據,而口袋則負責存儲數據。spark就像是許多更聰明的大腦組成的集合可以計算存儲在hadoop里面的數據,通過快速的計算來達到數據的實時應用,完成各種進程,滿足不同需求的計算,進行輸出。Spark兼容多種語言:例如Java、Scala、Python、R和SQL等。執行機器學習,構建數據的搜索框架。

三、項目的設計與實現

(一)架構設計

用戶通過需求輸入關鍵詞后系統后臺在云數據庫中進行搜索分析和整理,最后整合排版多渠道數據后呈現在服務器終端的用戶頁面上。

架構設計圖

(二)設計需求

研究需要性能較強的具備獨立顯卡和運行內存較高的計算機以及相關輸入設備;需要應用到的軟件開發環境,能夠支持多臺計算機和路由器組成的局域網絡,多臺能夠連接到互聯網絡用于資料查詢的計算機以及其他各種相關技術資料的獲取方式的硬件條件。

項目思路:

(1)創建基礎數據庫:數據可以存放在數據庫中,這其中保存的是我們搜集的各種類型的文章素材。

(2)創建新表和序列:滿足需求設計。

(3)創建索引和視圖:方便查詢搜索和辨識。

(4)實現數據篩選和記錄:實現功能,滿足用戶需求。

四、結語

本項目利用Spark大數據技術領域最熱門的組合,也是最有前景的組合,為項目走向社會大眾,解決大眾對生成文章的需求。

參考文獻:

[1]〔英〕維克托·邁爾·舍恩伯格(Viktor Mayer-Sch nberger).大數據時代:生活、工作與思維的大變革.浙江人民出版社.

[2]周濤.為數據而生——大數據創新實踐.北京聯合出版公司.

基金項目:吉林建筑大學大學生創新創業訓練項目,項目編號:201910191115。

猜你喜歡
大數據技術
善用“互聯網+” 提升政府善治能力
大數據技術之一“數據標識”
基于大數據技術的O2O跨境電商客戶信息研究
大數據技術在霧霾治理中的應用
淺談大數據技術在互聯網金融中的應用
大數據技術在電子商務中的應用
大數據技術對新聞業務的影響研究
大數據技術在電氣工程中的應用探討
大數據技術在商業銀行中的應用分析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合