?

基于python對地攤經濟信息的獲取與分析

2022-03-04 12:51丁建霞王志鵬
科教導刊·電子版 2022年2期
關鍵詞:爬蟲云圖網頁

丁建霞 王志鵬

(南陽師范學院物理與電子工程學院 河南·南陽 473061)

0 引言

在公共衛生事件面前,全國經濟遭到了重創,地攤經濟在一定程度上使全國的經濟得到了回暖。為讓經濟有更快速的回升,利用Python在互聯網上爬取與地攤經濟有關的數據信息[1],進一步推動地攤經濟的發展與全國經濟的回溫,更進一步向大眾普及了python語言的使用,同時也在一定程度上推動了互聯網的發展。

網絡爬蟲,也稱為網絡機器人[2],是一種按照一定的規則,自動提取網頁的程序,它為搜索引擎從萬維網上下載網頁,是搜索引擎的重要組成。傳統爬蟲從一個或若干初始網頁的URL開始,獲得初始網頁上的URL[3],在抓取網頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統的一定停止條件。

1 軟件設計與實現

在python爬蟲當中,每個python運行成功之后都有源代碼和生成的目標文件組成:源代碼包含了所有要執行的命令,只要語法和邏輯上均沒有報錯,目標文件就能生成我們所需要的東西。此項目需要獲取到的是對影響“地攤經濟”的因素,詳細分析代碼過程如下[4]:

(1)python庫的引用。Python語言簡潔的原因是它能調用多個庫,庫里面已經為使用者定義并寫好了很多的所需要的東西,使用者只需明白其庫的作用就能直接使用。此次編碼用到的庫如下:requests庫,BeautifulSoup庫和os庫均為第三方導入的庫,request庫用于接口測試,可以節約使用者的大量工作,并滿足http測試的需要;Beautiful-Soup庫可以配合requests庫的需要寫爬蟲[3];os庫可方便把從網上搜索到的內容寫入到文本中。

(2)要從互聯網上大量獲取與地攤經濟有關的信息,需要爬取的大量的網站,此時需要用到每個網站的url地址,例如:

(3)在網絡爬取信息的過程中,因為網站有robots協議,當訪問太多時容易觸發防控機制會禁止繼續訪問,此時為順利訪問網頁,需要編寫請求頭:

(4)利用上面的請求頭,用get進行訪問。因訪問過程容易出現亂碼,需要解碼換回能看懂的中文字符。

(5)對每個網頁的標題進行提取,需要用到此網站的標題行的“選擇器”,這樣可以從大方向上查看我們所爬取到的信息是否正確,并試運行查看代碼是否有出錯。此時如果沒有出錯可繼續進行接下來的代碼編寫,若語法出錯則查看報錯的點是什么,對該處進行修改;若邏輯方面出錯則需重新整理思路。

(6)此時需要再寫一個對網頁內容進行爬取的代碼即可,提取方式與上述相同。

(7)把爬取到的內容寫入并保存到文本中

2 爬取結果分析與總結

通過對互聯網上多個網頁的內容爬取,以下展示爬取到的部分結果(為方便查看,對結果的格式稍作了整理)。如圖1所示。

圖1:爬取內容

為分析爬取到的內容,利用python的wordcloud對爬取到的做數據了詞云圖,出現的次數越多,字體的規格顯示就會越大,表示出現的頻率就越高,說明對于“地攤經濟”的影響來說,這個因素的影響力越大。如圖2所示。

圖2:爬取內容詞云圖

3 結語

本文通過分析與地攤經濟相關的網頁結構,利用python語言及其強大的第三方庫編寫代碼,獲取其中影響地攤經濟的數據信息,把信息進行整理及分析,并制作可視化詞云圖以方便查看,有效地降低了用戶的時間成本并提供了參考意見。不足之處為只能獲取單個網站的信息,在未來的工作中將把重點放在同時進行多個數據源的信息的獲取,以獲得更多更全的信息。

猜你喜歡
爬蟲云圖網頁
利用網絡爬蟲技術驗證房地產灰犀牛之說
基于Python的網絡爬蟲和反爬蟲技術研究
成都云圖控股股份有限公司
基于CSS的網頁導航欄的設計
利用爬蟲技術的Geo-Gnutel la VANET流量采集
黃強先生作品《雨后松云圖》
基于URL和網頁類型的網頁信息采集研究
大數據環境下基于python的網絡爬蟲技術
基于TV-L1分解的紅外云圖超分辨率算法
網頁制作在英語教學中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合