打敗記者,機(jī)器人成最佳寫(xiě)手
毫無(wú)疑問(wèn),算法的作者是時(shí)報(bào)的職員,不過(guò)他享有雙重身份——既是記者,也是程序員。地震那天早上,USGS從服務(wù)器的各種地震儀接收到數(shù)據(jù),經(jīng)過(guò)編輯轉(zhuǎn)化后發(fā)至這名時(shí)報(bào)記者的個(gè)人電腦中。數(shù)據(jù)一經(jīng)傳輸入他所編寫(xiě)的軟件中,便立刻自動(dòng)被篩選出相關(guān)的信息,并用日常語(yǔ)言寫(xiě)作出一篇新聞稿。而這名從夢(mèng)中被震顫驚醒的記者只是稍微檢查了一下整篇文章,即點(diǎn)擊了“發(fā)送”。不過(guò)實(shí)際上,這種文本基本可以達(dá)到無(wú)需任何人為修改即可公布的程度。下次地震發(fā)生時(shí),即便這名記者仍然躺在床上,時(shí)報(bào)的讀者們也可以閱讀到這篇稿子。
這一事件引起了美國(guó)媒體的關(guān)注,近年來(lái)由于財(cái)政原因,洛杉磯時(shí)報(bào)解雇了不少編輯記者。結(jié)合這次的新聞,有人猜想,這些記者是不是被機(jī)器人取代了呢?在實(shí)踐中,具有不同復(fù)雜性和自主性的“機(jī)器人記者”已經(jīng)開(kāi)始逐漸投入使用,尤其是媒體和那些需要出產(chǎn)大量重復(fù)性文稿的行業(yè)。
輕輕松松,四步出稿
在美國(guó),自動(dòng)寫(xiě)作技術(shù)的發(fā)展在很大程度上是基于伊利諾伊州西北大學(xué)的人工智能領(lǐng)域?qū)<覀兊难芯砍晒?。智能信息?shí)驗(yàn)室的聯(lián)合負(fù)責(zé)人拉里?伯恩鮑姆( Larry Birnbaum)教授任教于麥迪爾新聞學(xué)院(Medill School of Journalism),作為這個(gè)全新領(lǐng)域的領(lǐng)頭人,他是奎爾系統(tǒng)( Quill system)的研發(fā)人員之一。雖然奎爾具有較高的性能,但在普通PC機(jī)的Linux下運(yùn)行完全沒(méi)問(wèn)題。為了解釋它的工作原理,伯恩鮑姆將整個(gè)步驟分為了四步——盡管在實(shí)際工作過(guò)程中,它們是重疊的。
首先,奎爾需要通過(guò)其他軟件導(dǎo)入數(shù)據(jù)(表格,列表,圖形)。“近期來(lái),這些信息的很大一部分都可以由人類(lèi)生產(chǎn),例如包含公司賬目的電子表格或描述一場(chǎng)足球比賽的博文,” 伯恩鮑姆說(shuō)。不過(guò)在開(kāi)始第一步之前,其他智能系統(tǒng)需要把各種形式的信息轉(zhuǎn)化為機(jī)器可以識(shí)別的結(jié)構(gòu)化的數(shù)據(jù),這樣,機(jī)器人作家可以獲取人類(lèi)的知識(shí)。
奎爾下一步的工作就是進(jìn)行敘事分析。“收集到的數(shù)據(jù)會(huì)被分類(lèi),并按照能夠形成一篇新聞稿的敘述方式來(lái)進(jìn)行排序,” 伯恩鮑姆補(bǔ)充說(shuō),“它會(huì)選擇某些事實(shí),如強(qiáng)調(diào)行動(dòng),突出人物?!?/p>
第三也是最有創(chuàng)意的一步——形成文本。“算法會(huì)選擇一個(gè)有一系列事實(shí)描述的模板,” 伯恩鮑姆解釋說(shuō),“然后就是一個(gè)模式化的過(guò)程,它只需要選擇合適的編輯角度即可。在實(shí)際過(guò)程中,這一步所得到的結(jié)果會(huì)是文字、代碼和圖表的混合物——一種只有機(jī)器可以理解的呈現(xiàn)方式。”
在這一基礎(chǔ)上就到了第四步——具化文字。“奎爾有一個(gè)數(shù)據(jù)庫(kù),其從日常用語(yǔ)和專(zhuān)業(yè)學(xué)術(shù)期刊中收集了很多英語(yǔ)語(yǔ)法、單詞、關(guān)聯(lián)詞,用以在最后步驟形成文本時(shí)組織語(yǔ)言?!?伯恩鮑姆說(shuō)。對(duì)于外行人來(lái)說(shuō),最后一步是最壯觀也是最驚人的,但實(shí)際上這并不是整個(gè)過(guò)程中最復(fù)雜的部分。“計(jì)算機(jī)早在多年前就已經(jīng)學(xué)會(huì)如何用英文寫(xiě)作,但它們?yōu)槭裁床粚?xiě)呢?因?yàn)樗鼈儧](méi)很么內(nèi)容可寫(xiě)——它們?nèi)狈?xiě)作需要的足夠的信息?!彼χa(bǔ)充說(shuō),現(xiàn)在它們終于可以為人類(lèi)寫(xiě)作有趣的文章了。
機(jī)器人會(huì)取代記者么?
為了充分利用奎爾帶來(lái)的商機(jī),研究所的研究員克里斯?哈蒙德(Kris Hammond)在芝加哥創(chuàng)辦了一家名為 Narrative Science的公司。哈蒙德確信好的敘述要比簡(jiǎn)潔的素描要有價(jià)值得多,因?yàn)槿说拇竽X總是傾向于去理解那些用優(yōu)美文字表達(dá)的敘述?!岸嗵澚丝鼱枴?,他說(shuō),“在‘不到幾年’的時(shí)間里,就不會(huì)再有人花費(fèi)大量時(shí)間去閱讀Excel工作表或費(fèi)力地區(qū)分X軸Y軸……奎爾和它的改進(jìn)版將讀取大量難以理解的數(shù)據(jù)并將其轉(zhuǎn)換為清晰簡(jiǎn)單的文字,這會(huì)使我們每個(gè)人都能自然地通過(guò)語(yǔ)言文字獲取信息。
哈蒙德稱(chēng),到2025年,大概有90%的新聞將由機(jī)器寫(xiě)作。“但這并不意味著機(jī)器人將取代90%的記者,僅僅代表內(nèi)容出產(chǎn)量會(huì)有大幅提升,”他解釋說(shuō)?!耙孕⌒蜆I(yè)余棒球比賽為例,媒體對(duì)他們并不感興趣,但是還是有一群觀眾會(huì)觀看每一場(chǎng)的比賽。奎爾收集這幾千場(chǎng)比賽的數(shù)據(jù),然后可以幾乎立刻寫(xiě)出幾千篇稿件,而且和體育記者寫(xiě)出的稿件一樣——他們的寫(xiě)作實(shí)在太容易模仿了?!?Narrative Science目前在這一領(lǐng)域已經(jīng)有不少客戶(hù),包括一些關(guān)注本地體育賽事或青少年兒童的新聞網(wǎng)站。
為你寫(xiě)作專(zhuān)屬新聞
奎爾同時(shí)也在金融領(lǐng)域大展所長(zhǎng)——金融是另一個(gè)人工稿件可被大量模仿的領(lǐng)域?!岸嗄陙?lái),福布斯雜志一直在最終年報(bào)數(shù)據(jù)出來(lái)之前就為一些企業(yè)做盈利預(yù)測(cè)和分析?,F(xiàn)在有了奎爾,它可以為超過(guò)5000家企業(yè)提供服務(wù),”哈蒙德說(shuō)。福布斯網(wǎng)站目前會(huì)上傳一些經(jīng)過(guò)Narrative Science授權(quán)的材料,通常如“華爾街對(duì)克魯格公司前景樂(lè)觀,將于下周二公布其第一季度季報(bào)。分析師預(yù)測(cè)每股收益將達(dá)到1.05美元,同比增長(zhǎng)92%。” 無(wú)數(shù)類(lèi)似的匿名銀行、券商和評(píng)級(jí)機(jī)構(gòu)都開(kāi)始利用奎爾來(lái)草擬聯(lián)邦政府和監(jiān)管機(jī)構(gòu)所要求的各種數(shù)不清的報(bào)道?!澳壳埃鼱枌?xiě)作的報(bào)道在遞送前仍會(huì)經(jīng)過(guò)人工審查,因?yàn)槲覀內(nèi)蕴幱谠囼?yàn)階段。但幾個(gè)月后,它們就可以實(shí)現(xiàn)直接自動(dòng)發(fā)放至客戶(hù)?!惫傻卵a(bǔ)充說(shuō)。
除此之外,哈蒙德相信,當(dāng)自動(dòng)化寫(xiě)作與先進(jìn)科技結(jié)合時(shí),將很快在生活的其他領(lǐng)域顯示其巨大的潛力:如根據(jù)消費(fèi)記錄、網(wǎng)絡(luò)瀏覽習(xí)慣和移動(dòng)通信記錄等實(shí)現(xiàn)為每一互聯(lián)網(wǎng)用戶(hù)的個(gè)性定位?!皧W巴馬曾經(jīng)通過(guò)媒體告訴市民,如果他們確保輪胎適當(dāng)充氣,那么就可以省下7%的燃油費(fèi)用。不過(guò)這種說(shuō)法并沒(méi)有獲得預(yù)期效果,因?yàn)槿藗儾幌矚g做數(shù)學(xué)題。但在未來(lái),你所鐘愛(ài)的新聞網(wǎng)站會(huì)告訴你:它知道你是誰(shuí),你車(chē)的型號(hào),你買(mǎi)車(chē)花了多少錢(qián),你每周的行駛里程是多少,你所用的是什么燃料等等。它會(huì)專(zhuān)門(mén)為你寫(xiě)一篇文章,告訴你如果你給輪胎適當(dāng)充氣,每周將可以省下多少錢(qián)?!惫傻抡f(shuō)。同樣的方法也可以在其他各個(gè)領(lǐng)域使用,從醫(yī)療保險(xiǎn)到政治等。“總有一天,所有的文章都會(huì)只有一名讀者。”
新聞、游戲、房產(chǎn)、財(cái)經(jīng):已經(jīng)成為機(jī)器人的天下
現(xiàn)在,將機(jī)器人寫(xiě)作運(yùn)用于日常新聞采寫(xiě)的媒體遠(yuǎn)不止剛剛提到的洛杉磯時(shí)報(bào)一家,福布斯、ProPublica 和 InvestorPlace 等都是Narrative Science的忠實(shí)用戶(hù)。例如,ProPublica曾利用奎爾為其數(shù)據(jù)庫(kù)內(nèi)的五萬(wàn)多所學(xué)校生成專(zhuān)屬的介紹性文稿,福布斯則更不用說(shuō)了,在各種收益報(bào)表和財(cái)經(jīng)新聞中,我們?cè)絹?lái)越多得看到了機(jī)器人的影子。紐約時(shí)報(bào)雖然在這一領(lǐng)域有些落后,但據(jù)今年七月的最新報(bào)道,其也即將于新聞編輯室內(nèi)引入機(jī)器人,暫時(shí)承擔(dān)為稿件篩選關(guān)鍵詞、制作標(biāo)簽的工作。
Narrative Science并不是機(jī)器人寫(xiě)作市場(chǎng)里的唯一玩家,競(jìng)爭(zhēng)者一直在源源不斷出現(xiàn)??偛吭诒笨_來(lái)納州的Automated Insights公司使用的是另一個(gè)叫做語(yǔ)言大師(Wordsmith)的自動(dòng)寫(xiě)作系統(tǒng),它被描述為一個(gè)“自然語(yǔ)言生成平臺(tái)”。公司負(fù)責(zé)銷(xiāo)售和市場(chǎng)的副總裁亞當(dāng)?斯密(Adam Smith)稱(chēng)公司在2013年就已經(jīng)生產(chǎn)了三億多篇文本,2014年破十億,目前有包括美聯(lián)社、甘乃特報(bào)業(yè)集團(tuán)在內(nèi)的十幾個(gè)客戶(hù)。 美聯(lián)社和Automated Insights公司合作采用機(jī)器寫(xiě)稿系統(tǒng)來(lái)撰寫(xiě)收益報(bào)告后,一季度內(nèi)出產(chǎn)了超過(guò)三千篇相關(guān)報(bào)道,較其原來(lái)產(chǎn)量增長(zhǎng)了十倍之多,而且令人稱(chēng)贊的是,由機(jī)器出產(chǎn)的稿件不僅量大,而且比之前由記者寫(xiě)作的稿件錯(cuò)處要少得多。除此之外,體育新聞亦是美聯(lián)社內(nèi)機(jī)器人發(fā)揮巨大作用的領(lǐng)域。美聯(lián)社最開(kāi)始和AI公司合作,除了為寫(xiě)作收益報(bào)表外,另一主要目的就是報(bào)道體育聯(lián)賽。合作達(dá)成后,美聯(lián)社不僅輕輕松松報(bào)道了美國(guó)NCAA(全國(guó)大學(xué)生體育協(xié)會(huì))組織的大學(xué)賽事,還將國(guó)內(nèi)各類(lèi)運(yùn)動(dòng)如棒球、橄欖球比賽的報(bào)道范圍由男子一級(jí)賽事延伸至女子比賽、二級(jí)、三級(jí)賽事。
雅虎同樣使用語(yǔ)言大師為游戲“Fantasy Sport”來(lái)寫(xiě)作文本。這個(gè)游戲是玩家選取真實(shí)的足球運(yùn)動(dòng)員來(lái)組建自己的球隊(duì),然后和其他玩家的球隊(duì)比賽?!斑@一系統(tǒng)通過(guò)分析運(yùn)動(dòng)員在真實(shí)比賽的表現(xiàn),然后決定哪一支虛擬團(tuán)隊(duì)獲得勝利。當(dāng)然,它的特別之處在于會(huì)提供實(shí)時(shí)的比賽解說(shuō)?!笔访芩菇忉尩?。
語(yǔ)言大師同樣也可以用來(lái)起草房地產(chǎn)廣告、市場(chǎng)報(bào)告、商業(yè)活動(dòng)和財(cái)報(bào)等?!笆褂猛环輸?shù)據(jù),如股票市場(chǎng)價(jià)格,我們可以寫(xiě)出數(shù)百萬(wàn)不同的文章,每篇都重點(diǎn)關(guān)注一個(gè)特定投資組合的變化?!?/p>
同時(shí),法國(guó)公司Yseop也開(kāi)發(fā)了一個(gè)可以寫(xiě)作英語(yǔ)、法語(yǔ)、西班牙語(yǔ)、葡萄牙語(yǔ)、日語(yǔ)的系統(tǒng)。公司網(wǎng)站上有一篇作為范本展示的金融新聞,用戶(hù)在工具欄內(nèi)更改數(shù)據(jù)后,文章就會(huì)自動(dòng)更新。最初這篇報(bào)道的標(biāo)題是“存款余額的積極前景”,但如果你輸入一個(gè)較低的數(shù)值,文本就會(huì)修正為:“存款余額的急劇下降”。
Yseop CEO讓?勞舍爾(Jean Rauscher)稱(chēng),Yseop適用于銀行、電信公司的客戶(hù)服務(wù)部門(mén)以及財(cái)經(jīng)新聞網(wǎng)站,當(dāng)然,它同樣也可為研究股票市場(chǎng)交易的機(jī)構(gòu)提供高級(jí)服務(wù):“想要了解一家企業(yè)的負(fù)責(zé)人也很容易,我們的系統(tǒng)會(huì)掃描包括犯罪記錄等在內(nèi)的大約30個(gè)數(shù)據(jù)庫(kù),然后就可以自動(dòng)生成一份簡(jiǎn)歷?!?/p>
編輯記者反成機(jī)器人助手
機(jī)器人寫(xiě)作很快就會(huì)司空見(jiàn)慣。除公開(kāi)版外,Yseop還推出了一個(gè)供內(nèi)部使用版的系統(tǒng),所有可能需要對(duì)大量數(shù)據(jù)分析已完成冗長(zhǎng)報(bào)告的機(jī)構(gòu)都可能成為他們的潛在客戶(hù)。勞舍爾已經(jīng)在想象工作人員和機(jī)器人一起工作的效率: “Yseop可以寫(xiě)作一篇包含基本數(shù)據(jù)和精確數(shù)據(jù)的初稿,”他建議, “然后由編輯記者進(jìn)行后續(xù)的工作,如對(duì)稿件進(jìn)行重組或潤(rùn)色,加入一些評(píng)論和價(jià)值判斷等。”
該系統(tǒng)同樣也可以和工作人員交流,事實(shí)上人反而成了機(jī)器的助手?!叭绻惴òl(fā)現(xiàn)缺少數(shù)據(jù),它會(huì)自動(dòng)停止并提出需求。一旦滿(mǎn)足它所需,就會(huì)自動(dòng)繼續(xù)工作?!?strong>因此,也許編輯記者們很快就要開(kāi)始學(xué)習(xí)一些如何與計(jì)算機(jī)相處的技能。
或許在不那么遙遠(yuǎn)的將來(lái),機(jī)器人會(huì)成為記者工作過(guò)程中的最佳拍檔,為所有的讀者量身打造獨(dú)一無(wú)二的新聞。
編譯者:思斯
本文由搜狐傳媒獨(dú)家編譯,授權(quán)美通社轉(zhuǎn)載,文章原載于搜狐傳媒微信公眾號(hào)傳媒狐(media-fox)。
原創(chuàng)文章,作者:Stella,如若轉(zhuǎn)載,請(qǐng)注明出處:http://m.ibiyou.cn/blog/archives/17101