?

中國新聞機器人現象分析:數據與技術困境下的填字游戲

2017-04-25 07:40洪杰文
中國媒體發展研究報告 2017年0期
關鍵詞:機器稿件模板

洪杰文 蘭 雪 李 程

麥克盧漢所謂的 “技術決定論”依然爭論不休,但技術總是在人們爭論它時更迭演進,時下技術所帶來的大數據、云計算、人工智能正從虛無縹緲的概念中借由各種新奇的產品而走入人們的實際生活,這些概念不再存在于學者們的論文中,而是實實在在地存在于你我身邊,正影響著我們的日常生活。機器人寫作這種看似只有在于科幻小說中的情節,也將其成果推送到人們的面前,特別是在2016年里約奧運會時,數家媒體都使用了機器新聞來報道奧運賽事,機器新聞的里約奧運作品為新聞傳播業界帶來了極大的震動,新聞傳播業界 “狼來了”的驚呼不絕于耳。然而人們對于機器新聞、機器新聞的生產原理以及其對于新聞業的影響等問題的認知還有待進一步提高,是不是真的 “狼來了”還有待觀察。

一 機器新聞概述

1.機器新聞的概念界定——人工智能在新聞活動中的運用

對于機器新聞的概念,可以從廣義和狹義兩個層面來理解。從廣義上來看,機器新聞又稱為機器人新聞或自動化新聞,是指人工智能技術在新聞寫作、采訪、編輯、主持等新聞活動中的具體運用。①李蘇:《機器新聞發展的市場進路及反思——以Autamated Insights公司為例》, 《新聞界》2015年第18期。比如在兩會期間,新華社的機器人 “i思”以新華社見習記者的身份報道兩會,既可以在演播室與主持人、嘉賓互動,也可以出鏡報道采訪兩會代表委員;在人民網輿情監測室與人民網研究院聯合推出的 “每日兩會熱點”專欄,阿里云ET機器人可以為公眾同步呈現 “語音版”播報服務。狹義的機器新聞就是指機器人新聞寫作。所謂機器新聞寫作,是一種自然語言生成引擎,利用算法程序,通過采集大量的各種題材以及高質量的數據,建立各種分類的龐大數據庫,借助人工智能 (Artificial Intelligence,AI)實現從數據到知識、見解和建議的提升和跨越,最后由機器自動化生產新聞。①付松聚:《我國首創機器新聞與人工新聞寫作之實證性研究——以8月CPI新聞報道為例》,《傳媒觀察》2015年11月。機器新聞的寫作,將傳統的新聞生產流程轉變為隱性的數據挖掘和自然語言處理,機器新聞寫作借助人工智能技術,實現對海量數據的自動挖掘、篩選和聚合,是一個從 “無”到“有”的過程,如新華網使用 “快筆小新”機器人、騰訊使用Dreamwriter機器人進行新聞寫作。本文所關注的是狹義上的機器新聞,也就是機器新聞寫作。

2.機器新聞寫作的產稿模型——自然語言處理模型和語言模板模型

目前的機器新聞寫作,稿件的生成主要有兩種方式,一種是基于自然語言處理的自然語言處理模型,它將數據直接轉換為人類語言,通過人工智能技術組成最終稿件,理論上可以做到與人類編輯的稿件幾乎相同。另一種是預先埋入模板的模板模型,它的原理是通過人為地預先埋入一定的模板,然后通過數據的排列組合來產生稿件。從技術難度上來說自然語言處理模型要復雜得多,純粹使用該模型的應用并不是很多,而模板語言模型相對而言更為簡單。這兩種產稿模型也并非割裂地使用,實際應用中往往是各種技術相互交叉。

自然語言處理模型的范疇非常廣泛,幾乎所有基于自然語言處理的機器新聞都可以歸入這個范疇,這項技術基于自然語言處理技術,它通過機器學習自主掌握稿件的結構和用詞等,理想情況下,其最終的產稿與人工稿件在遣詞造句上沒有太大區別。該模型通過機器學習技術積累了自身的一個知識庫 (Knowledge Discovery in Database,KDD),在應用過程中,它不斷豐富自身的知識庫,最后輸出越來越接近人類語言的稿件。該模型并不是單一的一項技術,而是涉及整個人工智能領域的技術集合,涵蓋人工智能、自然語言處理、大數據等。

語言模板模型則是通過預先埋入各種情況的模板,然后通過數據判斷,將這些模板排列組合,最終輸出稿件。這種方式往往需要開發人員提前考慮到各種情況,將新聞制成新聞模板,然后將擁有的數據字段填充進去,最終產生稿件。這種方式就像搭積木一樣,基于數據選擇相應的字詞句模板,目前大部分的機器新聞應用都是采用這種方式。這種方式在模板的數量多到一定程度、排列組合的粒度足夠小的時候,復雜度也越來越大,最終稿件的效果也會越接近人工稿件。

二 我國現有的4個主要新聞機器人

2015年9月10日,一篇題為 “8月CPI漲2% 創12個月新高”的新聞稿件在騰訊網財經頻道發布。①具體見 http://finance.qq.com/a/20150910/019573.htm。文章結尾標注:“本文來源:Dreamwriter,騰訊財經開發的自動化新聞寫作機器人,根據算法在第一時間自動生成稿件,瞬時輸出分析和研判,一分鐘內將重要資訊和解讀送達用戶?!彬v訊方面稱:Dreamwriter根據算法在第一時間自動生成稿件,瞬時輸出分析和研判,一分鐘內將重要資訊和解讀送達用戶。繼騰訊Dreamwriter嘗試之后,國內各家媒體紛紛緊隨其后推出了自己的機器新聞應用,包括第一財經的 “DT稿王”、新華網的 “快筆小新”、今日頭條的 “AI小記者XiaomingBot”等。

1.騰訊“Dreamwriter”

Dreamwriter是騰訊財經2015年9推出的自動化寫稿機器人,是國內在機器新聞領域的首次嘗試,其稿件一經發出,就成為業界議論的焦點。從Dreamwriter推出到現在,不到兩年的時間里,騰訊新聞的寫稿機器人已經完成了至少5個版本的迭代?,F在,Dreamwriter主要運用在騰訊財經以及騰訊體育兩大板塊。據統計,截至2017年4月8日,共發稿件約5000篇。

體育方面,截至2017年4月8日,在百度搜索中,輸入關鍵詞 “本文由騰訊機器人Dreamwriter site:sports.qq.com”,共有2490篇新聞稿。在里約奧運會的賽事報道上,Dreamwriter表現不凡。從供稿數量上來看,在奧運會期間 (8月6日到8月21日),騰訊體育在奧運板塊DW播報專欄共發布稿件約250條,平均每天供稿量在15條到20條之間。從稿件內容來看,絕大多數稿件以簡訊的形式呈現。其中與中國有關的稿件篇幅相對較長,總體按照 “比賽焦點+精彩回放”的模式展現。有些稿件加入了比賽視頻和選手介紹,此類型的稿件評論較多,但評論內容都與賽事相關。在NBA的賽事報道上,Dreamwriter的表現也十分出彩。在騰訊體育—籃球—NBA體育戰報板塊,從2016年12月到2017年4月,Dreawriter共撰寫近800條稿件,內容多由 “比賽視頻+比賽回顧+陣容介紹”組成,配有圖片、視頻,平均評論相對較多。

財經方面,截至2017年4月8日,在百度搜索中,輸入關鍵詞 “本文由騰訊機器人Dreamwriter site:finance.qq.com”,可以搜索出1970篇相關新聞。其中,《9月CPI漲幅回落貨幣政策或維持寬松》一篇文章就推出了研判版、民生版、常規版、精要版四個版,針對不同的用戶個性化喜好進行推送,是機器新聞在個性化寫作和投放中的一次嘗試,內容相對較為翔實,但評論較少。其他大多數的文章仍然以簡訊的形式發布,多為數據的統計。另外騰訊科技Dreamwriter板塊2016年11月到2017年4月,共發布稿件約100條。

可以看出,騰訊Dreamwriter體育新聞的傳播效果優于財經新聞的傳播效果。這背后的原因主要有兩點:財經新聞本身的受眾相較于體育新聞就少得多;體育新聞相較于財經新聞更容易進行深度報道,并且賽場的內容也較為豐富多彩。

2.今日頭條“Xiaomingbot”

在2016年里約奧運會之際,今日頭條推出了 “Xiaomingbot”寫稿機器人,它憑借優異的表現引起了業界的高度關注。Xiaomingbot是頭條實驗室和北大計算機所合作完成的項目,在里約奧運會開幕一周前推出的AI機器人。通過對接奧組委的數據庫,它可以在極短的時間內完成消息撰寫、賽事匯總等工作。Xiaomingbot在里約奧運會的表現不凡,在奧運會開始后的13天內,共撰寫了457篇關于羽毛球、乒乓球、網球的消息、簡訊和賽事報道,平均每天30篇以上。Xiaomingbot不僅囊括了從小組賽到決賽的所有賽事,而且其發稿速度也非??臁織l稿件的寫作時間平均不到兩秒鐘,幾乎與電視直播同時。Xiaomingbot寫作的稿子有將近百萬的閱讀量,有的稿子的閱讀量甚至高過記者人工寫作的稿件。

奧運會結束以后,Xiaomingbot依然保持著較高的產量,僅在2017年4月1日,北京時間凌晨3點到11點,共發11篇籃球的新聞稿?,F在它基本上保持平均每天10條的產稿速度,稿件內容主要集中于對籃球和足球賽事的報道。另外,Xiaomingbot所寫的體育新聞的閱讀量基本都在100以上,最高閱讀量可達6萬,但鮮有評論。世界知名賽事評論相對較多,但也僅限于幾十條,評論內容多與賽事相關。

Xiaomingbot是國內第一個運用自然語言處理、視覺圖形處理和機器學習技術的寫稿機器人。Xiaomingbot的工作原理是結合最新的自然語言處理、機器學習和視覺圖像處理的技術之后,通過語法合成與排序學習生成新聞。Xiaomingbot屬于第二代寫稿機器人,不僅可以通過檢索圖片自己選擇圖片,還能模仿人類的語氣,使用諸如 “笑到了最后” “實力不俗”等詞語①趙禹橋:《新聞寫作機器人的應用及前景展望——以今日頭條新聞機器人張小明 (xiaomingbot)為例》, 人民網研究院, http://media.people.com.cn/n1/2017/0111/c409691 -29014245.html, 最后訪問日期:2017年4月10日。。Xiaomingbot寫稿速度更快、擬人化程度更高,還可以在文章中插入賽事的圖片,圖文并茂,使文章更加生動形象。

3.新華社“快筆小新”

1931年11月7日,新華社成立。2015年11月7日,新華社在其84歲生日之際,迎來了機器人新 “員工”—— “快筆小新”??旃P小新是一個計算機程序,能夠應用人工智能、機器學習、數據挖掘等技術,生成類似于人類寫作的稿件。目前 “快筆小新”供職于新華社體育部、經濟信息部和 《中國證券報》,可以寫體育賽事的中英文稿件和財經信息稿件?!氨热?‘快筆小新’在中國足球超級聯賽報道的寫稿測試中表現出色,能夠自動抓取比賽數據,生成中、英文數據消息,包括每輪比賽的成績公報和積分排名。速度快效果好,得到編輯、發稿人的認可?!毙氯A社體育部發稿中心主任周杰說。①王曙暉:《從 “快筆小新”上崗看傳統媒體產業升級》,人民網-傳媒頻道,http:///media.people.com.cn/n1/2016/0105/c401845 -28014691.html, 最后訪問時間: 2017 年4 月10日。

在百度搜索中輸入 “這條新聞由新華社機器人寫稿系統編寫”進行搜索,一共可以搜出130篇新聞。在中證網中搜索 “這條新聞由新華社機器人寫稿系統編寫”,截至2017年4月3日,快筆小新一共撰寫了1043篇文章,其中2017年撰寫了72篇文章??傮w來看,大部分稿件是數據的堆砌,語言銜接也較為生硬,純文字,無圖片,無評論。

4.第一財經“DT稿王”

2016年7月,湯開智發表了題為 “大數據驅動的智能化內容生產——DT稿王介紹”的演講,DT稿王進入了大眾的視線。DT稿王是第一財經媒體實驗室開發的一款自動化的新聞寫作工具,主要撰寫財經類的稿件,現多發布在第一財經的微信公眾號上。

在PC端方面,第一財經的官網上,搜索DT稿王所撰寫的稿件,從2016年5月29日開始,一共有8條。每一條稿件的質量相比來說比較高,有主題提取以及圖片的匹配。在移動端方面,在第一財經資訊的官方微信公眾號上,搜索DT稿王撰寫的文章,截至2017年4月8日一共71篇,全部為公告匯總,但是每一篇匯總之前都會有DT稿王的評論總結,其中包含對主要信息進行提取、引用專家話語,并且有諸如 “DT稿王對此表示非常敬佩”等擬人化的用語。

DT稿王處理速度很快,能夠利用多臺服務器分布式地對發布的公告進行掃描,可以即時對公告進行分類篩選出待寫新聞稿的公告,并通過后臺的信息提取、算法提取總結出該公告的重要信息。除此之外,DT稿王生成的稿件語句流利通順,較為符合人類自然語言的語法,主要體現在其擬人化手法的運用上。最后,DT稿王在海量的信息中抓住信息本身的重點,協助決策的快速實施,主要體現在關鍵信息以及主題的提取上。

三 我國新聞機器人水平現狀

1.機器新聞的適用領域——財經、體育

迄今為止,機器新聞使用最廣泛的四大領域是財經、體育、氣象地質和健康。比如在2014年,美國時間3月17日早上6時25分,洛杉磯遭遇一次地震,《洛杉磯時報》利用機器人在其網站上發布了第一條新聞,距離地震發生僅3分鐘,這是所有新聞媒體中最先發布的突發新聞報道。①金兼兵:《機器新聞寫作:一場正在發生的革命》,《新聞與寫作》2014年第9期。2014年7月美聯社宣布用機器人 (wordsmith)面向公司業績財報進行財經新聞報道。

就我國機器新聞的發展而言,最廣泛的應用領域還是財經和體育兩大方面 (具體見表1)。比如今日頭條的 “張小明”就專注于撰寫體育新聞,發布賽事消息,形成賽事簡報;第一財經的 “DT稿王”則撰寫財經類的稿件,主要針對上市公司公告、財務報表的生成和發布。不管是財經報道或是體育報道,這些報道類型有一個共同點,那就是所圍繞的新聞主題通常涉及大量數據,需要進行量化分析,而新聞寫作的結構具有相對固定的標準和模式,也就是所謂的模板?!氨本r間8月21日,里約奧運會男子標槍決賽落下帷幕。德國選手雷格勒以90.30米勇奪金牌??夏醽嗊x手耶格以88.24米收獲銀牌,特立尼達和多巴哥選手沃爾科特以85.38米獲得銅牌?!边@是騰訊的Dreamwriter機器人在奧運會期間所撰寫的一則簡訊。查閱期間機器人所寫的大量新聞報道,可以看出騰訊的Dreamwriter在奧運會期間所撰寫的體育簡訊一般都是按照 “時間+人物+比分+結果”的模式撰寫的。模板化也是基于人工智能的自然語言生成技術的機器新聞稿件的一個顯著的特點。

表1 我國主要機器新聞寫作對比

2.中文機器新聞寫作進展落后于西方國家

通過前述對我國現有的4個主要新聞機器人的分析可以看出,雖然自2015年9月騰訊推出Dreamwriter自動寫稿機器人以來,我國機器新聞產業取得了一定的發展,但是,相對而言,中文機器新聞寫作的進展要遠遠落后于西方國家。比如騰訊財經Dreamwriter創作的稿件就受到了外界批評,認為它的水準只與國外幾年以前的機器新聞水平相當①周斌:《機器寫作與媒體轉型》,《新聞戰線》2016年第4期。。這背后主要有兩個原因:一是西方國家憑借其強大的創新能力在人工智能技術上已經有一定的優勢;二是全世界使用人口超過100萬的語言有140多種,漢語堪稱最復雜的語言之一。外界在對 “機器寫作”的技術進度進行評價時,并沒有嚴格區分不同語言之間的差異,而中文的 “機器寫作”難度,遠遠大于英文等語言。②周斌:《機器寫作與媒體轉型》,《新聞戰線》2016年第4期。比如,在對自然語言進行處理的過程中,Xiaomingbot在新聞中使用 “實力不俗”等成語、DT稿王提取 “如履薄冰、如臨深淵、戰戰兢兢、兢兢業業”等關鍵詞的技術都相對難度較高。因此,對于中文 “機器寫作”的開發者而言,我們在學習西方先進技術的同時,不能一味照搬國外的思路和技術,而是需要根據中文的字音、字形、字義以及語法特點,因地制宜,進行更具針對性的技術創新。

3.機器新聞的優勢:多而快、滿足個性化需求、長尾效應突出

對于財經、體育等規格化比較高的新聞,機器新聞不僅生產速度快,而且稿件的產量也遠遠大于記者所撰寫的稿件。計算機軟件24小時隨時待命,不需要休息,可以不間斷地高強度工作;伴隨著計算機硬件設備的不斷升級換代,基于算法對海量數據進行挖掘和分析也僅僅是幾秒鐘的事情。Dreamwriter和Xiaomingbot寫新聞又多又快,幾乎與電視直播同步;DT稿王的平均閱讀速度為7471字/秒 (448275字/分鐘),是普通人閱讀速度的50倍。然后,按新聞稿成稿格式重新組織輸出,機器寫稿為28字/秒 (1680字/分鐘),是普通人打字的35倍。①Theflatworld:《第一財經發布DT稿王:寫稿機器人尖子生》,http://writingmaster.cn/newsand-event/301,最后訪問時間:2017年4月10日。根據新華社體育部數據可知,過去未引進 “快筆小新”時,每晚都需安排幾名記者值班進行體育賽事報道,每篇公告的短消息需要10分鐘左右的時間才能完成,而 “快筆小新”則能做到每分鐘生產大量動態新聞,數據準確可靠,大大節省了發稿時間。②楊名宜、吳海榮:《探討 “機器新聞寫作”的發展趨勢》,《視聽》2016年11月。

隨著技術的不斷進步,通過對不同語料庫語言風格的智能化機器學習,結合對每個用戶閱讀習慣的自動化分析,機器新聞可以自動生成適應不同人群語言習俗的表達方式,能夠針對同一新聞事件生產出不同風格的內容版本,以適配不同受眾的需求。在這一方面,騰訊的Dreamwriter表現比較突出,其寫作邏輯是在達到一定的觸發條件后,系統通過對若干計算模型進行定量和定性的分析,自動根據數據選取合適的表達模板,將數據與模板相結合,完成多版本的個性化寫作和推送。③楊名宜、吳海榮:《探討 “機器新聞寫作”的發展趨勢》,《視聽》2016年11月。國家統計局發布了2015年9月CPI的有關數據后,Dreamwriter同時發布了四個版本的新聞稿件:常規版、精要版、研判版、民生版。常規版和精要版都采取倒金字塔式的寫作結構,開篇就對文章進行主題提讀式的總結概括。而 “研判版”則加入了 “財政政策與貨幣政策”“實體經濟與市場投資”兩個方面的內容,對經濟走向進行分析判斷,用語也較為專業;“民生版”的主要內容為老百姓最關心的食品和住房價格,文中還自動抓取了一則微博上有關CPI的討論,行文風格輕快,用語通俗易懂。雖然單獨看這四個版本的稿件,仍然存在內容簡單、形式單一等問題,但通過對同一則新聞進行四個版本風格迥異的報道,Dreamwriter實現了人工智能在模塊化生成新聞報道基礎之上發展個性化閱讀服務的一次嘗試。

互聯網平臺上新聞報道就如同互聯網產品一樣,長尾效應十分突出。這是由于互聯網受眾基數巨大,即使小眾的受眾,其數量也十分可觀,這也符合未來分眾化新聞的大趨勢。計算機軟件可以對互聯網上的每一條數據和碎片化文本做出分析和處理,將看起來意義不大的數據和文本的價值挖掘出來。頭條實驗室負責人李磊博士介紹:“張小明 (Xiaomingbot)最大的意義在于,面對奧運會這樣同時舉行上百場比賽的綜合賽事,記者很難關注到每一場比賽,而機器人可以任勞任怨地為每一場比賽報道,無論這場比賽多么冷門和不重要。傳統新聞理論并不認為這些冷門比賽或者熱門比賽 (比如乒乓球)的前幾輪小組賽有新聞價值,可是通過我們的平臺測試,我們發現對冷門場次的報道仍然有可觀的閱讀量?!雹仝w禹橋:《新聞寫作機器人的應用及前景展望——以今日頭條新聞機器人張小明 (xiaomingbot)為例》, 人民網研究院, http://media.people.com.cn/n1/2017/0111/c409691 -29014245.html。

四 機器新聞的難點與不足

1.模板型機器新聞的難點:數據獲取與處理、模板的選擇

對于所有機器新聞來說,如何保證數據來源都是首先要面對的問題,模板型機器新聞的數據來源都是一些結構化的數據,比如前面已經介紹的奧運XML數據,其數據往往具有獨立性,不需要其他輔助數據等。其實對于很多新聞記者來說,要寫出一篇有說服力的稿件,準確的數據來源又何嘗不是首要問題呢。機器新聞的數據,對結構化的要求更高,這樣才能方便計算機進行處理。一般與這種機器新聞應用對接的都是專業機構提供的數據接口,或者人工進行結構化預處理后再提供給程序使用。大數據時代,往往是先要拿到數據,再談數據處理,這是一個從無到有的過程,也是決定應用能否落地的第一步。如何拿到數據來源,得到數據源后如何保證其準確都直接關系到機器新聞最后能否產出合格的稿件。

得到數據源后就面臨處理數據的問題,機器新聞需要有個內部機制來保證的數據的穩定,因為外部的數據是不能完全信任的。嚴重數據異常的甚至會影響整個系統,比如在奧運報道中,由于數據源的不穩定與崩潰,就曾發生過DW無法順利產出稿件的Bug;或是數據的及時性遠遠低于比賽進程,使得新聞及時性嚴重滯后,這將導致錯過時間的新聞毫無意義。這就需要機器新聞內部的這個保障機制盡最大努力在外部數據源不穩定的情況下,做到不影響全局。比如說某些數據字段的缺失,我們是否可以在別的數據中找到這個字段來做補充;當外部的數據源有錯誤的時候,機器新聞內部是否可識別出這個錯誤,甚至自行糾正。如何保障這些結構化數據的正常,維護系統正常運行,也是所有計算機程序都需要重點解決的問題。

模板型機器新聞根據數據的不同情況來預先埋入不同的模板,最簡單的方案當然是一種模板適用于一種情況,但如果這樣的話難免顯得生硬。為了更好地模擬人類語言的特點,以及適應一些數據微妙的差異,往往在同一種情況下需要備選幾套模板方案,選擇哪一種模板作為最終成稿模板的依據,這就涉及模板的選擇問題。一般需要為不同的模板配置不同的權值,根據數據的表現來決定模板選擇的優先級。例如,在數據來源非常充足的情況下,可以選擇優先級最高的模板;在數據來源不是太充足的情況下,選擇優先級較低的模板。這個選擇的過程需要考慮很多其他因素,比如時間、題材等,它也是一個復雜的算法問題。

2.自然語言處理型機器新聞的難點——技術基礎薄弱、訓練問題凸顯

從理論上來說,自然語言處理是一種很有吸引力的人機交互方式,但在目前,計算機技術處理非結構化的現實世界數據還有很大難度,自然語言處理技術本身面臨的難點,就成為制約該模型方向下機器新聞發展的瓶頸。目前自然語言處理本身面臨的難點有三個方面:計算機對于自然語言的理解、對于詞語邊界的界定以及語言行為與計劃。

以中文為例,不同詞意的理解對于人類尚且存在識別的困難,對計算機來說就更是復雜,機器只能基于一個數學分析來判斷,比如句子 “我們把香蕉給猴子,因為 (它們)餓了”和 “我們把香蕉給猴子,因為 (它們)熟透了”有同樣的結構。但是代詞 “它們”在第一句中指的是 “猴子”,在第二句中指的是 “香蕉”。如果不了解猴子和香蕉的屬性,則無法進行區分。(英文的it沒有區分,但在中文里 “它”和 “它”是有區別的,只是代詞在中文里常常被省略,因此需區別屬性并且標示出來。)

在自然語言處理中,對于詞語邊界的界定,中文的難度往往比英文更大,中文以字為單位,計算機需要先識別出詞法,然后再判斷句意。另外,句子常常并不只是字面上的意思。例如, “你能把鹽遞過來嗎”,一個好的回答應當是動手把鹽遞過去;在大多數上下文環境中,“能”將是糟糕的回答,雖說回答 “不”或者 “太遠了我拿不到”也是可以接受的。再者,如果一門課程去年沒開設,對于提問 “這門課程去年有多少學生沒通過”這一問題,回答 “去年沒開這門課”要比回答 “沒人沒通過”好。這種形式的對話就不僅局限于上下文本身的語境,而是還涉及人類的知識庫以及當前的社會環境,其計算的復雜度難以想象。①MSRA周明:《計算機能 “理解” 多少我們的語言了?》,http://www.csdn.net/article/2015-07 -09/2825171。

使用自然語言處理的機器新聞的生產,必須解決機器學習中的訓練問題,訓練也需要數據,這些數據就像模板模型的模板一樣。對機器新聞程序進行大量數據輸入,讓程序通過已有的素材,總結出自己的寫作模式,這涉及目前人工智能大部分相關領域。理想狀態下,我們可以使用大量現存的新聞稿件對程序進行訓練,讓機器自主學習這些新聞稿件中的寫作模式以及用詞方式,比如先將一篇正常的新聞稿處理成結構化的數據源,機器根據數據源產稿后將自己的輸出與實際的人工稿件進行對比,通過不斷記錄兩者之間的差異,達到修正自身寫作模式的目的。在實施過程中,選擇何種現存稿件,初步的結構化處理應該做到何種程度,機器學習過程中的差異記錄如何控制,都是很復雜的問題。就目前來說,人工智能在新聞生產中的大規模應用,還有很長一段路要走。

3.機器新聞的不足——內容生硬刻板、缺乏人情關懷與深度分析

模板型機器新聞將數據埋入模板已產生新聞,這種模塊式的報道,不可避免地帶來稿件生硬、刻板的問題,很容易使得新聞稿件千篇一律,缺乏亮點和重點,難以給讀者留下深刻印象。美聯社執行主編費拉拉在肯定機器人寫稿高效的同時也承認:“機器人撰寫的稿件,會因為內容的生硬和重復而影響稿件的質量?!彪m然騰訊的Dreamwriter團隊根據財經和體育報道的不同特點開發了兩套系統,每個系統都有自己的表達方式和計算模型,但是就體育新聞而言,大多數的體育新聞還是以簡訊的形式呈現。少數稿件篇幅相對較長,但也是按照 “比賽焦點+精彩回放”的模式展現,文中不僅用詞重復率高,而且篇章句法結構都極為相似;新華社 “快筆小新”所撰寫的財經新聞內容非常簡單,多為數字的堆砌,是一種新聞數據的生硬拼接。人民網在 《新聞寫作機器人的應用及前景展望——以今日頭條新聞機器人張小明 (xiaomingbot)為例》一文選取Xiaomingbot在羽毛球男單、男雙、女單、女雙四場比賽的稿件進行對比,發現Xiaomingbot使用了大量相同或相近的詞語,且句子的排列順序都近乎相同:第一句先將新聞要素——時間、人物、地點、事件進行了說明;之后是對賽況的說明——精彩紛呈,高潮迭起;然后說明比賽時間、比賽規則、比賽結果、比分結果等??梢钥吹竭@些稿件模板化復制痕跡很突出,且面面俱到,連賽制、體育場館、排名都詳細說明,很明顯缺乏亮點和重點。

2016年10月,在騰訊企鵝智酷一項面向用戶的調查中,有39.0%的用戶認為機器缺少人情味,37.3%的用戶認為機器缺少人的創造力。在企鵝智酷面向自媒體作者的調查中,76.4%的自媒體人對于自動化寫作的最大擔憂是缺乏情感和個人風格。①《智媒來臨, 2016中國新媒體趨勢報告》, http://tech.qq.com/a/20161115/003171.htm#p=1。不論是模板型機器人還是自然語言處理型機器人,現階段的機器寫作都還處于初級階段,是基于海量數據的分析與整合,機器人不具備人的創造力,也不具備記者長期積淀的職業素養以及社會洞察能力,因此機器不能進行深度的思考和分析,不能進行調查性的深度報道,所做的工作僅僅是周而復始的填字游戲,稿件沒有質感與溫度,內容缺乏人情關懷。比如今日頭條的Xiaomingbot在8月16日發布的關于奧運會男乒半決賽的一篇報道中,出現 “絕望之際,失敗女神朝其拋出了橄欖枝”的語句。在自然語言中,向某人拋出橄欖枝意味著向某人示好。顯然,Xiaomingbot并沒有領會到橄欖枝在自然語言中的含義。機器人對信息的深度理解遠遠不夠。再如,騰訊Dreamwriter的 《中國以1環之差錯失首金杜麗易思玲包攬銀銅》雖然文章內容較為充實,但是相較于北京青年報的 《錯過里約首金后杜麗、易思玲一銀一銅一笑一哭》稿件而言,明顯缺乏人情味。前者多為比賽的客觀描述,后者通過在文章中加入 “‘不容易’成為昨天圍繞著中國射擊隊沖擊里約首金過程中的一個熱門詞” “要知道她們都曾是奧運會首金的獲得者,高處不勝寒,人們對于她們的期望值起點從來只高不低”“遺憾錯失里約首金后,杜麗接下來的打算成為中國記者比較關心的問題,杜麗說, ‘無論如何,都不會離開這份事業?!钡日Z句,這些個性化的細節,栩栩如生的描寫和或多或少的煽情,使文章的人情味更濃,人類特有的思維和情感才能產生的 “人情味”,使記者的稿件更令人期待。

五 機器新聞未來發展趨勢及對新聞生產的啟示

機器新聞作為一種高產出、高效率的新興新聞生產形式,會對新聞傳播業產生一定的影響,但是我國機器新聞的發展由于數據和技術方面的困境,稿件的內容結構化敘事特征明顯,仍處于較為低級的階段。機器新聞未來的發展趨勢是什么,這對我國新聞生產又會有怎樣的啟示也是我們需要關注的問題。

1.人—機一體的新聞報道體系將成為主流

“現階段人工智能發展的關鍵問題是人和機器如何在人機對話中實現功能的互補和價值的匹配?!雹儆鲊? 《人工智能的發展與傳媒格局變化的邏輯》,http://www.sohu.com/a/108694453_242292。也就是說,將來的新聞寫作,將是人與人工智能的結合。通過上文對于機器新的分析,我們知道,機器新聞的特長在于,可以對海量數據進行快速的公式化的處理,效率高、產量大。但是,機器新聞寫作僅僅在最基礎的階段具有優勢,在價值判斷方面、在情感的處理和表達方面、在深度調查報道方面,人的介入不可或缺,這也是機器新聞無法取代人類記者的原因所在,也是人類記者的價值所在。雖然目前少數媒體,包括騰訊的Dreamwriter已經采用機器審核的方式 (將機器寫作完成的稿件直接發布),但多數媒體還是保留了 “人工審核”這一關鍵步驟。這主要是因為機器本身并不具有獨立判斷新聞傾向和新聞價值的能力,其對材料的篩選更多源于對關鍵詞句等數據的獲取。因此,未來的新聞寫作一定是人—機一體、人機協作的方式,這也是未來媒體人的價值和核心競爭力所在。

2.數據獲取與物聯網緊密相連,數據將成為新聞生產的新思維

機器新聞中最為關鍵的要素是算法和數據。算法有賴于人的智能設計,數據采集和當下的物聯網的發展有著非常緊密的聯系。在2015年瑞士達沃斯經濟論壇上,谷歌公司前首席執行官艾瑞克·施密特做出了大膽的預言:“互聯網即將消失,一個高度個性化、互動化的有趣世界——物聯網即將誕生?!薄拔磥韨鞲衅鞯钠占?,將意味著自動化信息采集的大規模應用。作為信息采集工具的傳感器,可以達及人的感官不能達及的深度與廣度,這將為機器寫作帶來全新的可能?!雹谂硖m:《機器算法來了人該怎么辦》,《新聞與寫作》2016年第12期。在未來,不管是面向新聞寫作的數據獲取,還是像Dreamwriter一樣面向個性化寫作的用戶閱讀習慣、反饋的數據獲取,物聯網技術將會給其提供更大的空間。

機器新聞的基礎是海量的數據,大數據時代背景下,數據成為新聞生產的新思維、新資源。不管是Dreamwriter還是Xiaomingbot,不管是快筆小新還是DT稿王,都強調數據的重要性。這其中包括數據資源的豐富性、數據采集的便捷性以及數據處理的智能化。未來媒體的競爭,將越來越多的是數據平臺與數據采集、處理能力的競爭。①彭蘭:《機器算法來了人該怎么辦》,《新聞與寫作》2016年第12期。

3.更加個性化、實現可視化

雖然針對國家統計局公布的2015年9月CPI的有關數據,Dreamwriter同時發布了四個版本的新聞稿件:常規版、精要版、研判版以及民生版,但是這些稿件的個性化只是在新聞稿件的結構和用詞方面有不一樣的選擇,是最基礎的階段。在未來,計算機軟件可以通過對傳播效果進行后期自動分析,做出情感預測,即通過分析人們對這則新聞產生的情感傾向的反饋,來判斷是否達到了預期的新聞效果,以及預測閱讀完新聞后受眾可能產生的情緒反應,進而決定給受眾推送新聞的類型以及對新聞寫作模板加以改進。而不是像今天的Dreamwriter一樣,在文末詢問讀者提出 “為了今后在部分平臺向您推送您最喜歡的版本,請問您偏愛的個性化版是?”的問題。

除此之外,現如今的機器新聞多為數據的堆砌,文字數據的閱讀效果并非十分理想。不管是Dreamwriter的財經新聞還是DT稿王所撰寫的財經新聞,即使文本加入了相關的圖片,還是難以讓人產生十分直觀的印象,這就對機器新聞提出了可視化的要求。如何將冰冷的數據轉化為直觀生動的圖像是機器新聞要解決的問題之一。

4.開辟更多報道領域,實現更廣泛的應用

現階段,國內的機器新聞局限于體育和財經兩大領域,而國外的機器新聞的應用領域已經從最初的體育報道、財經報道,逐步擴展到自然災害報道、罪案報道等領域。今日頭條的Xiaomingbot只會寫體育新聞,這一方面是由于其初始寫作模塊的設置,功能較為單一,未能考慮到深度學習功能;另一方面,數據壁壘導致Xiaomingbot無法獲取學習更多數據資料,導致其“知之甚少”①趙禹橋:《新聞寫作機器人的應用及前景展望——以今日頭條新聞機器人張小明 (xiaomingbot)為例》, 人民網研究院, http://media.people.com.cn/n1/2017/0111/c409691 -29014245.html。。而新華網的快筆小新,雖然供職于新華社體育部、經濟信息部和 《中國證券報》,但它其實是有3個分身,每個分身各處理某一個領域的新聞消息。②趙禹橋:《新聞寫作機器人的應用及前景展望——以今日頭條新聞機器人張小明 (xiaomingbot)為例》, 人民網研究院, http://media.people.com.cn/n1/2017/0111/c409691 -29014245.html。但是伴隨著計算機數據處理能力的不斷增強,以及數據開源的實現,跨領域的機器人新聞寫作將成為可能,不同的數據庫可以相互補充,因此機器新聞寫出的稿件不僅領域更加寬廣,而且內容也將更加全面。

5.新聞傳播的內涵和外延的變化——注重培養復合型人才

新聞傳播行業的核心是內容的生產與傳播。機器新聞的內容生產被解構為機器寫稿、編輯進行人工修改把關兩個環節。而騰訊的Dreamwriter則完全實現了機器的自動化寫稿和發布,不需要經過人工審核這一步驟。2012年和2014年哥倫比亞大學Tow Center和波因特研究院先后對新媒體時代記者應具備的技能進行調查,結果顯示,熟悉數據和統計知識、具備基本的編碼知識正被納入新聞記者核心技能培養體系。這也是國內相對較好的寫稿機器人Dreamwriter和Xiaomingbot都出現在互聯網科技公司的原因之一。對于這一變化,國內外不少新聞傳播院校,在 “大傳播”理念的指導下,紛紛加大了新媒體方面課程的比重,包括大量的信息和數據處理技術和信息藝術設計方面的課程。③金兼兵:《機器新聞寫作:一場正在發生的革命》,《新聞與寫作》2014年第9期。因此,新聞傳播從業者在認清機器人與記者互補共存的基礎上,要加強對數據處理和數據挖掘技能的學習,進一步提升綜合能力,高校要注重新時期復合型人才的培養。

6.全球新聞傳播失衡——大力推進技術革新,全力保護數據主權

如前文所述,我國機器新聞的發展遠遠落后于西方國家,這一方面是由于中文的復雜性,另一方面是由于新聞機器人的核心技術仍被少數西方媒體和企業掌握。在我國,除了像騰訊、今日頭條、百度等互聯網科技公司,絕大多數企業并不具備在機器新聞或者人工智能方面的自主研發能力。另外,在互聯網時代,發展中國家的網絡和數據主權并未得到有效的保護,英美等西方國家占據了全球大部分的信息資源。因此,機器新聞在世界范圍內的應用可能會加劇發展中國家對發達國家的被動依賴,導致全球范圍內新聞傳播的失衡。因此,發展中國家要大力推進計算機技術的發展,同時保護好我國的網絡主權和數據主權

機器新聞寫作可以在某些領域取代人類高度重復性的工作,提高新聞的生產效率,從而改變新聞生產的模式。但是,到目前為止,我國機器新聞還處于比較初級的階段,距離真正意義上的人工智能還有很長的距離。寫作機器人還停留在被動接受指令,進行運算的層面,所寫的稿件也都是模塊化、公式化的文章,限于快訊、簡報的形式,主要運用于財經和體育兩個方面,是數據與技術困境下的結構性敘事。在我國,機器人寫作項目也多在騰訊、今日頭條等互聯高科技公司進行。因此,對于機器新聞,我們需要用一種冷靜的態度看待,既不盲目崇拜,也不抗拒新技術的到來。

猜你喜歡
機器稿件模板
錄用稿件補充說明
鋁模板在高層建筑施工中的應用
高層建筑中鋁模板系統組成與應用
本刊稿件體例要求
鋁模板在高層建筑施工中的應用
本刊稿件體例要求
機器狗
機器狗
本刊稿件體例要求
未來機器城
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合