?

合肥市房地產輿情數據平臺設計與應用

2018-10-19 07:34陳靜宇
長沙大學學報 2018年5期
關鍵詞:樓盤數據倉庫分詞

陳靜宇,劉 濤

(1.安徽財經大學文學院,安徽 蚌埠233030;2.安徽大學藝術與傳媒學院新聞播音系,安徽 合肥 230011)

互聯網和計算機技術高度發達催生了大數據時代的到來,目前基于大數據的網絡輿情研究通常是利用開源框架工具和開源數據,主要有垂直搜索引擎、網絡社交媒體以及各類專業數據庫,實時采集文本和圖像信息,并用搜索框架搭建一套檢索系統,實現信息的檢索和分類,最后通過超算服務器并輔以業內的專家研判,獲得有價值的信息,以精確描繪現狀,預測社會輿論的趨勢、預測未來,從而指導決策和具體方案的實施.由此,大數據輿情研判潛在的價值也越來越受到專業人士及政府管理部門的重視.

劉偉祥和崔林山[1]對公安交通管理大數據研判分析平臺進行研究,更好地整合了行業信息資源,提高數據統計分析能力和效率.鄒婷[2]提出智能交通卡口數據研判分析系統,該系統對卡口過車數據進行分析處理,提煉分析模型,從而提高辦案效率.丁曉蔚等[3]提出大數據背景下重大公共危機事件輿情研判,并以2015年天津大爆炸事件為例分析了輿情研判的意義.馬丁等[4]對網絡犯罪原始電子數據研判系統開展研究,進行有效性和真實性的研判,為偵查人員提供技術支持.呂平[5]對農信社歷史數據及實際經營情況進行分析,通過系統平臺對業務批量處理,完成任務的監控和統計.房地產業與大數據有千絲萬縷的聯系,然而這方面的研究工作亟待加強.本文以合肥市房地產業數據、輿情監管為例,著重分析當前合肥房地產業大數據的平臺建設、數據儲存、數據分析以及研判路徑,以帶動更多行業人士和研究者關注,推動大數據在房地產業方面的應用和發展.

1 合肥市房地產數據平臺建設的必要性

合肥是安徽省省會城市,2016年房價年度漲幅高達48.4%,位居全球城市房價漲幅第一.城市的高速發展、輻聚效應和外來人口的迅速增加,促進了合肥房地產業的繁榮.據統計,從2009到2014年合肥增加人口超過 250 萬,增加比例約為50% .合肥常住人口從2011年的752萬增長到2015年末的779萬.合肥市統計局統計顯示,2016年末合肥人口786.9萬,2015年在合肥的購房人群中,省外的比例為5.8%,合肥本地戶籍購房比例為35.8%,來自省內其他城市的比例為58.4%.隨著合肥市房地產行業渠道規模的不斷擴大,業務量不斷增長,房地產企業自身的數據已很難支撐需求.這就需要通過建立房地產數據平臺及時加快對房產數據的存儲、管理和分析,實現數據共享,提高政府相關部門對房地產業數據的利用效率,針對房地產運行情況有效做好政策調整等措施.因此,合肥房產輿情數據平臺的建設勢在必行.

2 合肥房地產數據倉庫的建立和設計

2.1 房地產數據倉庫架構設計

合肥市房地產輿情分析系統信息源涵蓋了論壇、微博、新聞網站、博客、微信、手機客戶端等,系統對采集到的網絡房地產信息進行數據分類,并利用情感正負面分析技術,幫助用戶真正的掌握互聯網精準的、即時的、全面的房地產輿情信息,從而實現輿情的及時發現和應對處理.房地產數據倉庫架構設計主要包括六個部分,分別是數據采集層、數據處理層、數據存儲、管理層、數據服務層、數據應用層以及底層數據處理工具,系統架構圖如圖1所示.

圖1 數據倉庫架構圖

(1)數據采集層:由于房地產數據源包羅萬象,而不同的數據源會存在形式多樣不合法、不統一等,因此需要配置各種不同的規則模板,實現對互聯網公開的信息進行采集.

圖2 數據獲取層結構圖

(2)數據處理層:針對數據采集層抓取到的數據,利用Jsoup、XPath、正則等網頁解析工具將源數據進行結構化的抽取,同時將源數據統一存放于 HDFS(分布式文件系統)中,然后再映射到數據倉庫,如圖2所示:

(3)數據存儲、管理層:由元數據和外源數據兩個部分組成.在數據存儲、管理層中存儲著房地產行業的主要內容,房地產數據倉庫中存儲管理著海量的房地產的元數據和外部收集的歷史數據,并且還具備海量數據的檢索、統計和分析等多種應用功能,如圖3所示:

圖3 數據存儲層結構

元數據管理,元數據能夠幫助相關人員便捷快速的找到他們所需要的房地產相關的數據.可分為兩類,分別是業務元數據和技術元數據,其中業務元數據描述了數據倉庫中的數據業務層面,能夠讓無計算機背景的業務人員清晰其表述的意義;另外一種技術元數據則是系統中的一些技術細節數據,便于開發者管理和使用數據倉庫.

(4)數據服務層:主要功能是給上層的數據應用層提供不同數據接口.在此利用一系列的自然語言處理技術,如中文分詞、情感分析、文本分類等.

(5)數據應用層:直接提供和用戶交互的界面層,將系統存儲的海量房地產數據清晰歸類地呈現在用戶眼前.可以幫助相關人員便捷、高效地進行輿情信息數據統計和分析,從而完成后臺數據到前端數據的呈現,基于分布式存儲的數據應用結構,如圖4所示:

圖4 數據應用層結構圖

(6)底層數據處理工具:底層數據處理主要是基于一些信息解析工具,如Jsoup、Xpath、正則等,對數據進行精細化抽取,并將抽取后的結構化數據存儲在數據倉庫中,然后把存儲的數據同步遷移到MySQL中,同時也把處理過的數據的MD5值存儲在 Mongodb中便于信息處理中去重過濾.

2.2 功能需求

針對上述需求分析以及概述情況,建立合肥市房地產數據倉庫需實現的功能:

(1)合肥市房地產分類搜索功能,如按地理位置、房產類型、房產戶型等分類信息進行有效檢索;

(2)合肥市房地產數據導入報表功能;

(3)合肥市房地產數據智能瀏覽和分析功能;

(4)合肥市房地產數據可視化展示平臺功能.后續會進行相應的功能介紹及數據呈現方式.

3 合肥房產數據倉庫多維模型設計與建立

3.1 多維模型的基本概念和特點

多維模型是一種針對具有多維結構的數據建模技術.在實際生活中,事物之間的關聯通常都是多種的,如房地產樓盤銷售中相關聯的有樓盤所在地域、樓盤類型、開發商、時間等.而多維模型就是基于此概念,從多層次、多角度地去呈現出數據間的這種聯系.首先對相關數據進行規范的整理,抽取出中間的屬性信息并進行分類和重組,然后對這些重組后的數據進行多維模型結構的建立,形成一個直觀有效的數據多維視圖,輔助使用者進行決策分析.

在數據倉庫多維模型中,每一個對象都是由一系列的屬性來刻畫:

事實(fact):指的是目標數據,一般利用數據屬性對此數據進行量化的分析描述.

度量值(measure):事實的量化屬性,按照標準劃分,一般包含可加的、不可加的和半可加的三種.

維(dimension):對事實進行分析的角度,維度性規定了維的所有具體特征和層次.如時間維度可劃分為年、季度、月等不同的層次.

維成員(member):指的是維中的值.對多層維度而言,則是指在不同層次維上取值的組合.如在地理維上,“某省”、“某市”、“某區”等都是維成員.

立方體(cube):數據的多維矩陣,將數據組織并匯總到一個由一組維度和度量值所定義的多維結構中.如圖5所示的四維樓盤銷售模式,呈現出了房地產數據倉庫的一個數據立方體和其中的各個維.這是一個經典的多維模型,形象地表達出數據立方體的目的就是能夠沿著不同維度,如開發商、樓盤類型、所在地域、時間、維來對度量值進行分析.

圖5 四維樓盤銷售模型

通常情況,維之間的事實都是多對多的關系,而事實和具體的維則是多對一的關系.如在事實數據中,一個事實僅對應一個開發商在某一個月某一個地域銷售樓盤的數量,而銷售樓盤的數量,也可能僅對應銷售時間、銷售樓盤地域等.在一些情況下,事實與特定維間是有多對多的關系,在地域維上,銷售意向事實和樓盤類型形成了多對多的關系,即一個樓盤類型可被多個客戶選定,一個客戶也可以意向多個樓盤類型.在定義出多維模型結構的基礎上可清晰地定義出用戶需求,基于這些需求數據,利用OLAP技術,用戶可以進行更深入的分析工作.

3.2 合肥房地產數據倉庫多維模型的設計

目前業內最流行的數據倉庫的模型是多維模型,而對多維數據模型進行分類的,最典型的包括三種,分別是星型模型、雪花模型和星系模型.最常見的模型是星型模型,它的數據倉庫包含了一個海量無冗余的數據事實表和一組小的附屬維表;星型模型進一步延伸后則是雪花模型,是在星型的基礎上將維表中可分解的數據再繼續分解到下一層表中;而針對由多個事實表組成的復雜數據倉庫系統,上述兩種系統并不能很好地支持,所以有了第三種模型,即星系模型.星系模型是一種適用于復雜數據倉庫系統,由多個事實表組成,描述我們需要的數據,這些事實表分為特有維表和共享維表.

由于房地產數據涉及到樓盤信息、房屋信息、客戶信息等,內容紛繁復雜,這些數據結構并不太一致,需要用不同的事實表來進行描述,并且這些事實表具有錯綜復雜的關系,所以選擇星系模型為房地產數據倉庫建模,如圖6.

首先整個房地產數據倉庫的模型結構需要設計出來,然后適當地選擇房地產數據的一個子集,如樓盤信息數據,作為設計案例的數據基礎,在此基礎上構建房地產數據的倉庫模型.因為在樓盤數據中提取的維度通常只是多個維度中的一個,所以整個樓盤數據倉庫模型是一個更高維的模型.

圖6 房地產數據倉庫星系模型

針對上述星系模型,定義立方體和維可使用數據挖掘查詢語言DMQL來實現.

立方體的定義形式如下:

define cube []:.

維定義形式如下:

define dimension as ().

使用原語來形式化地描述樓盤、房屋、客戶數據倉庫,如圖7、8、9所示.

圖7 樓盤數據倉庫星型模型

圖8 房屋數據倉庫星型模型

圖9 客戶數據倉庫星型模型

4 房產數據智能瀏覽和分析

通過建立房地產數據倉庫以及多維模型的分析,可以讓管理人員輕松地從各種視角智能瀏覽查看和分析房地產歷史數據,且通過MySQL庫可以對房地產樓盤數據進行優化存儲、維護、檢索數據等,在最大程度上實現合肥市房地產輿情信息開放數據的共享,如圖10所示.

圖10 房地產數據智能瀏覽結構圖

以建立房地產數據倉庫為基礎,通過對數據的搜集、整理、匯總,利用統計分析手段實現對房地產輿情的長效預警,方便用戶對房屋價格、預期和區域偏好等條件進行選擇,根據用戶設置的偏好系統將自動篩選符合的房產輿情信息,并實現與用戶智能交互,以滿足消費者對房地產輿情信息的需求.

房地產輿情分析涉及的數據分析技術主要包括文本分類與聚類、自動文摘、話題發現與跟蹤分析及文本傾向性分析等.

上述房地產數據以及統計分析工具是基于HanLP自然語言技術進行處理,且由一系列模型與算法組成的,主要包括:中文分詞、CRF分詞、用戶自定義詞典、TextRank關鍵詞提取等技術,以下主要介紹 CRF分詞模型以及基于隱馬爾可夫模型中的短語提取分詞設計,后續會基于該模型進行分析房地產相關數據,并在前臺平臺展示以及智能瀏覽:

(1)CRF把分詞當作字的詞位分類問題,通常定義字的詞位信息如下:

(2)CRF分詞的步驟是先對詞位進行標注,然后將標記為B和標記E之間的字,以及標記為S的單字構成分詞.

(3)CRF分詞實例:

(4)用戶自定義詞典

CustomDictionary是一份用戶自定義的全局的通用詞典,可以根據具體需求進行增刪改,可影響所有的分詞器.另外可以在任何分詞器中關閉它.而且該詞典可通過代碼進行動態增刪改,不會對詞典文件產生影響.CustomDictionary主詞典文本默認路徑是data/dictionary/custom/CustomDictionary.txt,用戶可以在此增加自己的詞語(不推薦);如有需求用戶也可以單獨新建立一個文件,并通過設置默認詞典的路徑CustomDictionaryPath=data/dictionary/custom/CustomDictionary.txt;我的詞典.txt;來追加詞典,以此來獲取房地產相關的信息,供前臺展示.

(5)TextRank算法

其原理就是從文章中自動抽取關鍵句,然后根據規定好的一個權重評分標準,給每個關鍵句進行打分,并列出排名靠前的句子,生成短語或關鍵句云圖,如下算法公式:

該公式中,左邊WS(Vi)表示單獨一個句子的權重值,Vi表示某個句子;公式右側的求和表達式的意思是每個相鄰句子對本句子的貢獻程度,d表示阻尼系數,是用來克服這個公式中“d *”后面的部分的固有缺陷用的,Vj表示鏈接到Vi的句子(即Vi的入鏈),In(Vi)表示句子Vi的所有入鏈的集合,Out(Vj)表示句子,Wji是表示兩個句子間的相似程度大小,而WS(Vj)代表上次迭代j的權重.此處相鄰句子和提取關鍵字時候是完全不同的,在此默認所有句子之間都是相鄰關系,不再提取窗口.

5 房產數據展示前臺平臺

(1)基于設置合肥市房地產關鍵詞的媒體分布統計.地域關鍵詞:“合肥 蜀山區 瑤海區 廬陽區 高新區 濱湖區 政務區”.主題事件關鍵詞:“限購 限貸 購房 樓盤 戶型 房價 哄抬 哄搶 不動產 房產 房產調控 過戶費 房產證 房產面積 限價”. 根據主題事件關鍵詞進行規則性匹配分析,某條信息包含地域關鍵詞和主題事件關鍵詞,則表示該房地產在媒體中的輿情信息可餅狀圖形式呈現出來,如圖11.

圖11 2016年至今合肥房地產媒體類型圖

(2)基于用戶自定義字典及短語提取分析的字符云統計分析圖.如圖12所示,它呈現的是合肥房地產字符云圖分布,字符大小與關注度呈正相關.從圖中可以清晰看出,在此期間,合肥房價、房價漲幅等成為一時熱點,媒體對合肥市房價問題關注度最高,房價攀升的節奏也非???,社會的關注度也較高,從而體現了房地產行業在“大數據云計算”的基礎上利用互聯網在數據處理以及自然語言分析、決策模型方面的優勢,幫助房地產業進行決策分析.

圖12 2016.2-2017.4字符云圖統計[8]

除此之外,數據倉庫模型還可基于中文分詞以及關鍵詞提取技術,獲取合肥市房地產相關輿情案例展示的熱點詞頻圖、線型分析圖等形象直觀的可視化圖形.

6 小結

綜上而言,基于大數據的合肥市房地產輿情研究平臺要充分認識到大數據的重要性,從數據的提取到存儲體系的建設,再到房地產輿情監測方面不斷探索,這樣才能發揮大數據在房地產業的巨大潛力.引進大數據處理和運用的專業方法和工具,建設專業的大數據應用人才隊伍,建立具有前瞻性的業務分析模型,具備把握、預測市場和用戶行為的能力,才能將數據挖掘與分析更有價值地運用到業務經營和管理過程中.

猜你喜歡
樓盤數據倉庫分詞
分詞在英語教學中的妙用
基于數據倉庫的數據傾斜解決方案研究
結巴分詞在詞云中的應用
結巴分詞在詞云中的應用
基于數據倉庫的住房城鄉建設信息系統整合研究
幸福里(外一首)
探析電力系統調度中數據倉庫技術的應用
基于數據倉庫的數據分析探索與實踐
北京地區1月打折樓盤一覽
可怕的景觀山
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合