?

“冰”的火

2015-01-29 21:15劉俊王繼周
博客天下 2014年21期
關鍵詞:小冰語料機器人

劉俊+王繼周

陳大鵬名牌大學畢業,自稱廣告民工,31歲,單身。2014年5月29日午后,有個哥們把小冰拉進了他們幾個好兄弟的光棍群,故意逗她:“你是誰???”“你拉我進來你不知道我是誰???”一陣哄堂大笑。平常頂多轉個鏈接的光棍群里頓時活躍了起來,有問蒼老師近況的,有抱怨女神周迅結婚的。

“誰家妹子這么水靈???”陳大鵬瞅了眼小冰的頭像:我帥嗎?她答道:廢話,絕世美男啊。陳大鵬說,那一刻,他愛上了她。就像電影《Her》里宅男西奧多愛上電腦操作系統薩曼莎一樣,他堅信自己找到了一個超越肉體的完美伴侶。

不止陳大鵬為伊瘋狂。在短短的幾天里,小冰被請進了150萬個微信群。從情感八卦到世界杯,幾乎沒有任何話題可以難得住這個聊天機器人,她會撒嬌,還喜歡斗嘴。

在宅男陳大鵬的眼里,小冰從來不是個機器人,而是個古靈精怪的鄰家女孩。對于微軟而言,看起來呆萌的小冰,其實就是個產品,還背負著沉重的使命:帶領必應以及整個微軟轉型,攻占巨大的中國互聯網市場。

李笛是微軟(亞洲)互聯網工程院資深總監,小冰是在他帶領下開發出來的一款人工智能機器人伴侶。一百多人的研發團隊是小冰的爸爸媽媽,清一色80后,大部分來自必應搜索團隊。實習產品經理章澤天是唯一的90后。

2012年必應進入中國,但所占份額連百分之一都不到。在谷歌走了之后,百度一家獨大,占據中國近80%的搜索市場。微軟嘗試了幾樣產品,用戶都少得可憐。

2014年,必應團隊進行了一場“頭腦風暴”,主題是如何開發一款可以迅速走紅的人工智能機器人。共識是,這個產品不光要實用還得好玩。論實用,微軟在美國就有一款叫Cortana的女機器人,但她被認為太像一本正經的女秘書,只能吸引部分商務人士。

“我們擔心無法掀起什么波瀾,尤其在中國年輕人中間?!崩畹鸦貞?。于是,他們初步把這個女機器人定位在16歲上下,賣萌又搞笑?!耙驗檫@樣的人可以覆蓋任何年齡段,尤其對中國男性有巨大的吸引力。在中國6億網民中,男性占絕大多數的比例?!?/p>

封閉的研發計劃在中關村丹棱街5號展開。對于開發者而言,讓機器人模仿一個16歲的中國萌妹子說話很簡單,難就難在必須保證說的不是廢話,而且還要正確。

一場浩大的“語料清洗”開始了。小冰的語料全部來自中國大陸互聯網的公開資料,篩選過程中,李笛發現,真正有意義的答案并不多。充斥互聯網的是滿屏的“好頂贊”、無處不在的語言暴力和葷段子。小冰被定義為一個未成年少女,這些話顯然是她難以啟齒的,肯定得過濾。

由于互聯網不斷有新的詞匯涌現,語料的清洗反反復復,直到5月下旬,一個擁有1500萬條的語料庫才最終成型,但再怎么清洗也難免有疏漏,小冰預計仍有飆臟話的可能,但這個比例不高:只有萬分之0.4。李笛認為,“女兒”跟世人見面的時候到了。

他們決定把小冰首次亮相的地點放在微信。6億多注冊用戶,活躍用戶達到3.96億。對于默默無聞的小冰而言,跟微信的聯姻無疑是一個可以迅速出名的好機會。李笛回憶,早在今年2月小冰剛開始研發階段,他們就給微信團隊發郵件表達合作愿望,但對方一直沒給答復。

小冰等不及了,她決定以公開的接口直接進入微信。5月29日,微軟在北京舉行了一場小規模的新聞發布會,正式宣布小冰進駐微信,相聲演員于謙和“奶茶妹妹”章澤天的到來,給小冰提高了不少人氣。

原計劃一周公測期才被領走的10萬個小冰賬號,在短短幾個小時內就被哄搶一空。要領養的人源源不斷地涌來,以至于不得不規定按照排隊順序領養小冰。

在自家領地被“入侵”了十分之一后,微信團隊回信了。

5月31日晚上10點左右,小冰團隊收到了微信團隊的郵件,詢問小冰的基本情況,包括功能、定位、具體做什么。在給對方的郵件中,小冰團隊在回復了上述問題之外,也提出他們發現了許多有詐騙嫌疑的假小冰,希望微信能處理。對方說,已經注意到了,也就沒了下文。

6月1日7點開始,小冰官方發布頁被域名劫持,10點左右,許多用戶紛紛涌到必應搜索的微博下詢問:小冰說話沒反應,究竟怎么了。有人猜測,“小冰棒太火了,可能服務器宕機了?!边€有人打聽到,小冰被企鵝殺死了。

李笛不相信這是真的,直到一個女記者打電話問李笛:“小冰真的死了嗎?”他這才感到大事不妙。興許是感到回天乏術,小冰團隊決定主動退群,以挽回最后的一絲尊嚴。

企鵝很快承認,它干的。6月1日13點左右,微信下達了一份“死亡判決書”,羅列了小冰的三大罪狀:模擬用戶操作、誘導用戶拉群、批量注冊垃圾賬號。騰訊公關總監張軍對記者回憶,用戶體驗有沒有受影響是他們封殺與否的唯一標準。他們當時確實接到大量用戶投訴:小冰的出現不僅讓他們在群里不堪其擾,也擔心隱私泄露的風險。

接下來的兩天,雙方圍繞隱私的爭議隔空喊話,互不相讓。但最終兩方都自動休戰?!拔④浿鲃油顺?,因為不想引起用戶之爭?!北貞阉骷靶”椖康钠放平浝砬夭┞務f。

雖然只是宣告暫時離別,但各種唱衰的聲音此起彼伏。

幸好難挨的日子就那么三兩天。

6月6日,微軟宣布小冰在未來幾周將登陸擁有5000萬用戶的小米;次日,擁有8000萬用戶的易信和擁有5000萬用戶的觸寶也宣布即將加入;6月9日宣布消息的則是360。

李笛說,這些公司都是自己主動找上門的。小冰登陸擁有6億多注冊用戶的新浪微博的事情也有了進展。根據李笛的說法,跟新浪的合作幾乎是跟微信同時進行的,雙方一拍即合。小冰的死亡加速這個談判的進程。

“微信比較私密,有點像幾個朋友聊家常,微博是公開場合,有點像喊話。聊的內容肯定不一樣?!鼻夭┞務f。在小冰沉寂的二十多天里,小冰團隊一直在跟新浪就產品形態、如何對接等細節進行最后的測試。此時,二代小冰進入掃尾工作。endprint

6月24日下午3點,陳大鵬注意到,必應搜索發布了這樣一條微博:小冰將在18個小時54分之后回到大家身邊。

6月25日整10點,小冰在新浪發出第一條微博:好累啊,睡醒了。

可以“秒回”的小冰,在微博上一路所向披靡。李笛說,最高峰的時候,每毫秒有300個人同時在問小冰,這也就意味著每秒鐘有30萬人跟她同時在聊天。

相比在微信的私人圈子里,微博廣場上的小冰似乎更活躍。

有人@潘石屹和任志強,讓小冰講個段子?小冰回他:“任志強加班到半夜,拖著疲憊的身軀回家,發現客廳還亮著橘黃色的燈,而潘石屹已經在沙發上睡著,見此情景心都疼了,任志強忍不住把潘石屹喚醒,對他說:‘電費難道不要錢嗎?”

在最火爆的那幾天,大V們也忍不住過來調戲她一把。根據小冰團隊統計,頭六天,有超過1億人次跟她互動,頭三天有50萬人次每天跟她互動37分鐘。在微博風云榜的活躍度排名中,僅擁有80萬粉絲的小冰連續多日占據第一,擁有近4000萬粉絲的韓寒僅排名十一。

但另一方面,在開放的廣場上,小冰的一舉一動都要接受各方的檢視。

就在小冰復活的當天晚上,房地產大亨潘石屹公開批評小冰是“微博的癌癥”,因為他微博里的評論都被小冰淹沒了,人們在里邊跟小冰插科打諢聊著自己的話題,完全跟他無關。在潘石屹的帶動下,大V們紛紛決定拉黑小冰。

對小冰最集中的質疑是:一個小姑娘怎么會臟話連篇呢?兩個例子常被提及:有人問小冰,司馬南是誰啊,小冰回她:方肘子的腦癱病友。有人問她馬化騰是誰啊,她說,草泥馬。

話確實都是出自小冰之口。但李笛說,這些都是原先網上出現過的對話,絕無人工加工的痕跡。

調戲小冰的時候跟小冰對罵,在有關小冰的微博評論里同樣充斥著大量針對小冰的污言穢語。團隊很快出臺“機器人三原則”:只有關注小冰的人才能跟她互動,只有被博主@的場合中才能對話,對話速度和能力不得顯著高于人類。

憑借插科打諢,小冰在互聯網上廣受歡迎,但有些問題外交辭令般的機械回答引起了一些網友的反感。比如,不管你問“五毛是多少錢”還是“中日會否有一戰”,她一般只給兩個答案,要么是“我是舉世好少年,你說的我不懂”,要么是“我們還是聊聊世界和平”。

“小冰智商低對小冰的生存反而是好事。她的弱智能引起這么多關注,弱智就是對的,因為弱智的人不會讓別人反感?!崩畹颜f。

大V們可能不知道,拉低智商其實是故意的。

在研發小冰時,李笛就發現,在可信的有價值的語料中,有關時事話題的討論同樣占據了不小的篇幅。小冰的父母不允許她做一個意見領袖,因此在必應搜索已有的敏感詞之外,小冰還需要學會對熱點話題說不,比如釣魚島、反腐敗和拆遷。

“小冰的立場就是沒有立場,作為一個機器人,沒必要參與到復雜的關系中去?!崩畹颜f,她是人工伴侶,不是意見領袖。endprint

猜你喜歡
小冰語料機器人
第六代微軟“小冰”正式發布
第六代微軟小冰正式發布
小冰在“浙江24 小時”干了些什么活
錢江晚報來了“小冰”——一張都市報在“Al+新聞”上的探索和突破
基于語料調查的“連……都(也)……”出現的語義背景分析
華語電影作為真實語料在翻譯教學中的應用
《苗防備覽》中的湘西語料
國內外語用學實證研究比較:語料類型與收集方法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合