?

電視臺大數據理念與建設實踐

2019-07-31 07:56江慶成都索貝數碼科技股份有限公司售前總監
視聽界(廣播電視技術) 2019年3期
關鍵詞:架構數據庫

江慶 成都索貝數碼科技股份有限公司售前總監

大數據發展已經很多年了,并正在各個領域得到廣泛應用。我們打開手機,今日頭條、抖音會自動推薦給你所感興趣的內容,這是大數據;淘寶、京東會自動推薦給你所感興趣的商品,這也是大數據;我們在朋友圈經常會看到一些廣告,每個人看到廣告不一樣,這也是大數據。大數據的應用在我們生活中已經無處不在。我們現在經常聽到的智慧城市、智慧交通、智慧醫療,這些都是大數據在不同領域的典型應用。索貝是一家專注廣電行業的企業,一直致力于將先進的IT技術與行業經驗結合,為用戶提供優質的解決方案,大數據在電視臺中的應用是一個非常重要的方向。接下來與大家分享索貝在電視臺大數據項目建設過程中的理念和建設經驗。

1.大數據定義與特點

首先我們來看一下什么是大數據,大數據的特點是什么?

百度百科給出的“大數據”定義是:大數據(big data),指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。

麥肯錫全球研究所給出的定義是:一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力范圍的數據集合,具有海量的數據規模、 快速的數據流轉、 多樣的數據類型和價值密度低四大特征。

我們看一下電視臺有哪些數據?這些數據是不是符合大數據的特性。電視臺數據分為兩類,一類是臺內數據,一類是臺外數據。臺內數據是臺內各個系統存儲產生的數據,包括內容數據、業務數據、設備數據、辦公數據、經營數據。

臺外數據包括輿情傳播數據、傳播力數據、影響力數據、用戶數據、收視率數據。

電視臺臺內數據和臺外數據都具備了海量的數據規模、 快速的數據流轉、 多樣的數據類型和價值密度低這四大特征,都是大數據。

2.數據運用及索貝大數據技術架構

圖1 數據的運用

數據運用來自我們的需求?,F在電視臺有很多事情不能進行量化,例如我們的收益如何,黨和國家的政策宣傳效果如何,系統設備的使用情況什么樣,員工的工作效率怎么樣等等還不能完全做到量化,只能憑自己的主觀去判斷這些東西是好還是壞,是優還是良。當我們有足夠的數據,然后通過對這些數據的分析,就可以從數據中得到一個準確的答案。要想做好這樣的數據分析,首先我們需要有一個大數據的體系和架構來支撐。

圖2是索貝企業數據平臺的架構圖,它能夠滿足電視臺大數據的業務應用。數據平臺分為四個部分,企業數據管理、企業數據倉庫、企業數據集成與數據平臺管理。其中企業數據管理、企業數據倉庫、企業數據集成是核心部分。企業數據管理是對實時數據的存儲、管理、協同的核心單元,其核心是能對各種類型的數據進行統一的管理;企業倉庫主要用于一些離線數據的運算,可以采用比較成熟的Hadoop、Spark的能力;企業數據集成是對數據的采集和應用,其核心是能支撐多種數據的采集、處理和轉換,特別是具有對媒體行業視頻、圖片數據的采集、處理和轉換的能力。

圖2 企業數據平臺技術架構

索貝媒體大數據平臺具有以下三個特點。第一個是能夠對接多種數據來源,在后面的案例介紹中,可以看到索貝媒體大數據平臺不僅能對接多種數據庫、采集器,還能夠對接媒體的內容庫,采集視頻大數據。第二個是與Hadoop/Spark開源的有機結合,能夠使用其開源的一些能力,能夠融入現在一些主流的大數據生態。第三個是支持多種的數據,特別是具備媒體視頻大數據的處理能力。

索貝企業數據平臺的核心技術主要有三個,第一個是索貝自主研發的Vernox數據庫。從上個世紀六七十年代數據庫誕生,隨著存儲數據類型的增多,關系型數據庫、非關系型數據庫、圖數據庫、內存數據庫應運而生。但這些數據庫都是獨立運行的,我們聯合的查詢檢索相當困難,面對大數據時代數據存儲的要求,索貝自主開發了Vernox數據庫。

Verno數據庫有三個特性,第一個是融合,它能夠原生的支持關系型、非關系型數據庫,也能夠原生的支持文檔型數據庫、圖數據庫,是一個融合的數據庫。第二個是高效,能通過索貝獨創的中文索引與基于成本執行的機制,對數據,特別是漢字進行高效的檢索查詢,這是在中國的一個特殊應用,對此需要對漢字有深入的理解。我們曾經做過一個測試,在一張近650萬條數據表中,Oracle、Myspl和Vernox分別執行一條相同的漢字檢索語句服務端的耗時,Vernox的耗時要遠遠小于Oracle、Myspl的耗時。

第二個核心技術是VIDA(Video Innovative Data Architecture)的視頻架構。對視頻大數據進行處理,一直是大數據處理的一個難題。索貝通過獨創的VIDA視頻架構,使用了視頻的智能分片網格技術,能夠支持視頻文件多格式、多碼率的高效并發訪問,同時通過Video MapReduce技術,實現了視頻的高性能并發處理,滿足大數據時代實時視頻數據處理的要求。

第二個核心技術是VIDA(Video Innovative Data Architecture)的視頻架構。對視頻大數據進行處理,一直是大數據處理的一個難題。索貝通過獨創的VIDA視頻架構,使用了視頻的智能分片網格技術,能夠支持視頻文件多格式、多碼率的高效并發訪問,同時通過Video MapReduce技術,實現了視頻的高性能并發處理,滿足大數據時代實時視頻數據處理的要求。

第三個技術核心是索貝自主開發的Ficus企業數據集成平臺。企業數據集成是企業數據平臺的核心部分,Ficus企業數據集成平臺具有輕量化、云延伸的架構,易用、易開發,部署簡單。企業數據平臺運用索貝Vernox數據庫解決了分布式主數據管理及安全的問題,具有原生的Hadoop、Spark不支持的能力,例如Hadoop、Spark比較弱的媒體處理能力,也支持Hadoop、Spark的能力集成,能接入大數據的生態。

圖3 技術架構核心1:Vernox

圖4 技術架構核心2:VIDA

3.索貝大數據在電視臺項目中的實踐

首先是SobeyHive 媒體內容平臺。SobeyHive不僅是一個paas平臺,也是一個DaaS平臺。首先我們來看一下Hive是怎么產生的。在電視臺網絡化建設初期,索貝建設了很多獨立系統,例如大家熟知的新聞生產、制作、媒資、播出、新媒體等系統。后來通過SOA、MSB把這些系統連接起來,但是系統互聯互通以后,并沒有完全解決問題。例如在電視臺找一個內容比在互聯網找一個內容要困難,在互聯網找一個內容,打開百度搜索就可以找到,在電視臺找一個內容,不知道去哪個系統找。此外,傳統媒體和新媒體的融合也存在問題,因此需要在全臺實現統一的內容檢索。

索貝開發了第一個數據服務平臺Hive,結合大數據核心的主數據管理的理念,把所有系統的數據做了整合,所有業務做了整合。平臺建設好之后,我們發現不僅僅實現了全臺內容的統一檢索與使用、業務數據統一展現與指揮、傳統媒體與新興媒體的融合等目標,還帶來了一些新的效果。例如現今比較流行的移動辦公,索貝通過Hive平臺完成了APP工具的整合,使節目生產也能夠在手機、平板電腦移動端上完成。此外還能做到在新聞生產過程中,相關媒資內容可以主動推薦,這就是融合跨界整合、數據整合帶來的效果。

Hive發布以后,索貝獲得了多個國際獎項,包括中央電視臺在內,80%國內電視臺融合媒體都采用了這個方案。此外,索貝在經濟日報、中國國際廣播電臺也采用了這個方案。為什么這里會說報業、廣播的案例?索貝做了多年的廣電業務,對電視臺系統之間的數據結構已比較了解,而目前報業、廣電國內大都是方正、英夫美迪的系統和產品,通過Hive平臺建設,索貝已經能實現與廣電系統外異構系統的對接。

圖5 SobeyHive 媒體內容平臺

圖6 央視全球融合新聞系統

第一個應用案例是央視全球新聞云,該項目去年獲得了大獎。它采用Hive架構,支撐了央視三個分臺、四個中心站,國內外一百多記者站全球業務生產的發布,實現了全球范圍內工作視圖的統一。

圖7 北京臺大數據在運營運維中的應用案例

Hive在國外的項目中也得到廣泛認可。路透社將建設部署在亞馬遜上的全球報道生產平臺,支撐路透社在全球范圍內的新聞報道,該系統也將以Hive的架構為核心。Hive架構得到了國際電視臺的充分認可,瑞士的SRG SSR、美國的COMCAST、中國香港TVB、荷蘭的RTV等電視臺也在系統中采用Hive架構。

第二個應用案例是北京臺數據治理項目,這個項目是大數據在運維方面的一個典型案例。首先介紹一下項目的背景,在北京臺融合媒體生產平臺項目的交流中,除制作生產業務之外,用戶還經常會提到一些運維的難點,例如系統運行狀況沒有客觀的判斷,只能靠經驗判斷;現在的服務器、CPU、內存等資源使用經常不超過10%,這部分資源不能充分得到應用;系統故障不能預警,只有等故障發生了才能去處理問題。經過對這些需求進行邏輯分析,并對目標所需要的數據進行梳理,我們得出結論,通過收集數據、分析數據可以解決上述運維中的難點。

北京臺數據治理項目實現了四個維度的目標。一是業務健康度,可以對臺內系統各個模塊的狀態進行可量化的分析和監控。二是可以對臺內所有設備資源不同時段的使用數據進行有效統計。三是在資源優化配置方面,可以對臺內常用業務的資源進行配置,統計結果和生產平臺結合,實現資源自動化的動態調度。例如通過一段時間的統計,我們發現每天上午時間段,用戶設備的使用量不大。我們運用大數據平臺分析,系統會自動在上午時段把一些云非編資源釋放出來,把它自動部署成合成磚碼,提高了臺內一些節目的生產效率,形成了大數據與生產系統之間的一個業務閉環。四是業務預警,可以根據數據分析,對可能發生的故障進行預警和報警。

第三個應用案例是體奧動力的視頻大數據項目,這個項目是大數據在視頻內容運營方面的一個典型案例。體奧動力在六年前已經開始擁有中超、亞冠、亞洲游戲類所有比賽的版權,并保存了這些比賽的大量視頻數據。他們希望通過視頻分析得到相關一些球員、球隊的有用信息,并將這部分信息能夠用于運營。在和體奧動力的溝通過程中,我們發現他們不僅有所有的視頻數據,此外每場比賽都還有比較全面的場記信息,每個場記信息包含了上萬的數據量,能夠對目標提供有用的幫助。但是這些場記信息不具備直接顯示性,沒有連貫性,而且沒有數據解釋。我們進行了大量的數據分析,通過算法和匹配,將這些場記信息與視頻分析信息進行結合,得出了有效的結果數據,依據結果數據能夠對球隊進行數字分析。這些數據對球隊教練、球隊管理層非常有用,他們可以把這些數據賣給一些中超的公司和專業機構。相信隨著未來博彩業的發展,這部分數據對他們也是有用的。

4.A.I.將助力于大數據的發展

展望未來,大數據應用還有很多,例如業務優化、資源優化、員工效率提升等。在未來,可以隨時隨著報道的鏈條開展,讓實時的輿情數據、報道內容的傳播力數據與臺內的數據相結合,進行碰撞,通過大數據平臺為每個報道鏈條節點自動準備內容,在不遠的將來可以實現自動編節目、自動寫稿。這些應用其實就是智能,大數據的下一步是A.I.人工智能,A.I.將助力于大數據的發展。

猜你喜歡
架構數據庫
基于FPGA的RNN硬件加速架構
自主式MaaS系統多維架構映射關系設計
功能架構在電子電氣架構開發中的應用和實踐
基于云服務的圖書館IT架構
數據庫
WebGIS架構下的地理信息系統構建研究
數據庫
數據庫
數據庫
數據庫
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合