?

基于python對地攤經濟信息的獲取與分析

2022-03-04 12:51丁建霞王志鵬

科教導刊·電子版 2022年2期

關鍵詞：爬蟲云圖網頁

丁建霞王志鵬

（南陽師范學院物理與電子工程學院河南·南陽 473061）

0 引言

在公共衛生事件面前，全國經濟遭到了重創，地攤經濟在一定程度上使全國的經濟得到了回暖。為讓經濟有更快速的回升，利用Python在互聯網上爬取與地攤經濟有關的數據信息[1]，進一步推動地攤經濟的發展與全國經濟的回溫，更進一步向大眾普及了python語言的使用，同時也在一定程度上推動了互聯網的發展。

網絡爬蟲，也稱為網絡機器人[2]，是一種按照一定的規則，自動提取網頁的程序，它為搜索引擎從萬維網上下載網頁，是搜索引擎的重要組成。傳統爬蟲從一個或若干初始網頁的URL開始，獲得初始網頁上的URL[3]，在抓取網頁的過程中，不斷從當前頁面上抽取新的URL放入隊列，直到滿足系統的一定停止條件。

1 軟件設計與實現

在python爬蟲當中，每個python運行成功之后都有源代碼和生成的目標文件組成：源代碼包含了所有要執行的命令，只要語法和邏輯上均沒有報錯，目標文件就能生成我們所需要的東西。此項目需要獲取到的是對影響“地攤經濟”的因素，詳細分析代碼過程如下[4]：

（1）python庫的引用。Python語言簡潔的原因是它能調用多個庫，庫里面已經為使用者定義并寫好了很多的所需要的東西，使用者只需明白其庫的作用就能直接使用。此次編碼用到的庫如下：requests庫，BeautifulSoup庫和os庫均為第三方導入的庫,request庫用于接口測試，可以節約使用者的大量工作，并滿足http測試的需要；Beautiful-Soup庫可以配合requests庫的需要寫爬蟲[3]；os庫可方便把從網上搜索到的內容寫入到文本中。

（2）要從互聯網上大量獲取與地攤經濟有關的信息，需要爬取的大量的網站，此時需要用到每個網站的url地址，例如：

（3）在網絡爬取信息的過程中，因為網站有robots協議，當訪問太多時容易觸發防控機制會禁止繼續訪問，此時為順利訪問網頁，需要編寫請求頭：

（4）利用上面的請求頭，用get進行訪問。因訪問過程容易出現亂碼，需要解碼換回能看懂的中文字符。

（5）對每個網頁的標題進行提取，需要用到此網站的標題行的“選擇器”，這樣可以從大方向上查看我們所爬取到的信息是否正確，并試運行查看代碼是否有出錯。此時如果沒有出錯可繼續進行接下來的代碼編寫，若語法出錯則查看報錯的點是什么，對該處進行修改；若邏輯方面出錯則需重新整理思路。

（6）此時需要再寫一個對網頁內容進行爬取的代碼即可，提取方式與上述相同。

（7）把爬取到的內容寫入并保存到文本中

2 爬取結果分析與總結

通過對互聯網上多個網頁的內容爬取，以下展示爬取到的部分結果（為方便查看，對結果的格式稍作了整理）。如圖1所示。

圖1：爬取內容

為分析爬取到的內容，利用python的wordcloud對爬取到的做數據了詞云圖，出現的次數越多，字體的規格顯示就會越大，表示出現的頻率就越高，說明對于“地攤經濟”的影響來說，這個因素的影響力越大。如圖2所示。

圖2：爬取內容詞云圖

3 結語

本文通過分析與地攤經濟相關的網頁結構，利用python語言及其強大的第三方庫編寫代碼，獲取其中影響地攤經濟的數據信息，把信息進行整理及分析，并制作可視化詞云圖以方便查看，有效地降低了用戶的時間成本并提供了參考意見。不足之處為只能獲取單個網站的信息，在未來的工作中將把重點放在同時進行多個數據源的信息的獲取，以獲得更多更全的信息。

猜你喜歡

爬蟲云圖網頁

利用網絡爬蟲技術驗證房地產灰犀牛之說

房地產導刊(2022年10期)2022-10-18

基于Python的網絡爬蟲和反爬蟲技術研究

現代信息科技(2021年21期)2021-05-07

成都云圖控股股份有限公司

中國農資(2019年44期)2019-12-03

基于CSS的網頁導航欄的設計

電子制作(2018年10期)2018-08-04

利用爬蟲技術的Geo-Gnutel la VANET流量采集

電子測試(2018年1期)2018-04-18

黃強先生作品《雨后松云圖》

名家名作(2017年3期)2017-09-15

基于URL和網頁類型的網頁信息采集研究

電子制作(2017年2期)2017-05-17

大數據環境下基于python的網絡爬蟲技術

電子制作(2017年9期)2017-04-17

基于TV-L1分解的紅外云圖超分辨率算法

光學精密工程(2016年4期)2016-11-07

網頁制作在英語教學中的應用

電子測試(2015年18期)2016-01-14

科教導刊·電子版2022年2期

科教導刊·電子版的其它文章: 高中生對“內卷”與“躺平”現象的認知與接受狀況的研究
——以L市高級中學高三學生為例; 應用型大學校企合作課程開發與實踐
——以土木工程專業為例; 基于藝術社團實踐的高職美育成效研究
——以蘇州經貿職業技術學院非晚劇社為例; 基于MOOC的醫學生創新創業教育模式探索; 綠色發展理念視域下我國高校生態文明教育的創新發展研究; 用荊楚文化培育湖北高職學生工匠精神的有效路徑

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合