科技巨頭收集人類聲音

簫雨譯2017-12-29

分享到 :

核心提示：人類要想自然地與設備進行對話，語音識別就必須得到大幅改進。

人類要想自然地與設備進行對話，語音識別就必須得到大幅改進。

谷歌語音操作

過去幾年，語音識別取得了很大進步，大部分要歸功于神經(jīng)網(wǎng)絡。然而，神經(jīng)網(wǎng)絡需要大量數(shù)據(jù)進行訓練。正因為此，谷歌、微軟、亞馬遜、百度等科技公司都在盡可能地收集各種語言、口音以及方言。另外，百度等公司也在開發(fā)更為高效的算法，不需要那么多數(shù)據(jù)就能提高語音識別準確率，這有利于數(shù)字助手學習使用較少的語言。

亞馬遜智能音箱Echo已經(jīng)兌現(xiàn)了讓千家萬戶都有一臺人工智能個人助手的承諾。Echo用戶容易被語音助手Alexa的“魅力”所征服，對于Alexa可以實現(xiàn)Uber打車、預訂披薩以及檢查10年級學生數(shù)學作業(yè)的能力贊賞有加。亞馬遜稱，每天有5000多人表達對于Alexa的喜愛之情。

語音識別的阻礙

另外一方面，Alexa的擁簇也知道，除非他們非常清晰、緩慢地與Alexa對話，否則她很可能會說：“抱歉，我無法回答這個問題”。

“我愛她，既愛又恨，”一位用戶在亞馬遜網(wǎng)站上寫道，但依舊給予Alexa五星評價，“你需要很快速地學習如何以一種她聽得懂的方式與她交流，就像和一個初學走路的小孩交流一樣?！?

過去幾年，語音識別已經(jīng)取得了很大進步，但是仍未好到足以廣泛用于日常生活中，引領人機交互的新時代，讓我們與汽車、洗衣機以及電視等所有設備進行對話。雖然語音識別取得了一定進展，但是多數(shù)人仍在觸摸、滑動以及點擊屏幕。在可預見的未來，這種局面或許仍會持續(xù)下去。

那么，是什么因素阻礙了語音識別的發(fā)展呢？在一定程度上講，語音識別背后的人工智能技術還有改進的空間。它還面臨嚴重的數(shù)據(jù)缺失問題，具體來說就是人類聲音的音頻、在喧雜的環(huán)境下往往會出現(xiàn)的多種語言、口音以及方言。這些因素都可能會導致語音助手無法準確識別人們的語音。

收集人類聲音

因此，亞馬遜、蘋果、微軟以及百度都已經(jīng)開始在全球范圍內(nèi)收集數(shù)以TB的人類語音數(shù)據(jù)。微軟已經(jīng)在全球各個城市建立了模擬公寓，錄制志愿者的本土口音。亞馬遜每個小時都會把用戶向Alexa提出的問題上傳到一個龐大的數(shù)字倉庫中。百度則忙于收集中國的每一種方言。隨后，他們就會利用這些數(shù)據(jù)教計算機如何分析、理解以及回應指令和問題。

科技公司在這一過程中面臨的挑戰(zhàn)是：找到一種方法捕捉到自然、真實的對話。百度加州人工智能實驗室負責人亞當·考特斯(Adam Coates)表示，即便是語音識別準確率達到95%，這仍不夠。“我們的目標是將錯誤率降至1%，”他表示，“只有達到這種水平，你才能真正相信設備理解了你所說的話，那將是一場變革?！?

就在不久前，語音識別技術還處于一個初級階段，給出的答案十分滑稽。2006年，微軟在分析師和投資者面前演示了Windows平臺早期版本的語音識別技術。然而，微軟語音識別技術把“媽媽”聽成了“阿姨”。當蘋果在5年前推出Siri時，該語音助手給出的答案也令人捧腹大笑，這也是因為它常常提供錯誤答案或者沒有準確識別問題。當被問及吉蓮·安德森(Gillian Anderson)是否是英國人時，Siri提供了一份英國餐館的清單。現(xiàn)在，微軟表示，其語音識別引擎的錯誤率達到了專業(yè)速記員的水平，甚至更低。Siri目前的錯誤率差強人意，Alexa則讓人對未來的語音識別技術充滿期待。

神經(jīng)網(wǎng)絡需要數(shù)據(jù)進行練習

語音識別技術取得的大部分進展都要歸功于神經(jīng)網(wǎng)絡的魔力，后者是一種人工智能形式，基于人腦架構。神經(jīng)網(wǎng)絡的學習不需要接受明確的程序化定制，但是一般需要龐大而且種類豐富的數(shù)據(jù)。在神經(jīng)網(wǎng)絡架構下，語音識別引擎處理的問題越多，它就能更好地理解不同的聲音，進一步接近在多種環(huán)境下，與多種語言自然對話的終極目標。

因此，全球科技公司都在爭相收集各種聲音?！拔覀冊谙到y(tǒng)中放入的數(shù)據(jù)越多，它的表現(xiàn)就越好，”百度首席科學家吳恩達表示，“這也是為什么語音識別是這么一種資本密集型技術的原因，并不是有太多機構擁有這么多的數(shù)據(jù)?！?

盡管科技行業(yè)在上世紀90年代就開始認真地研究語音識別技術，但是微軟等公司依靠的語言數(shù)據(jù)聯(lián)盟(Linguistic Data Consortium)等研究所的公開可用數(shù)據(jù)。語言數(shù)據(jù)聯(lián)盟是一個語音和文本數(shù)據(jù)倉庫，創(chuàng)建于1992年，獲得了美國政府的支持，屬于賓夕法尼亞大學。隨后，科技公司開始收集他們的自主語音數(shù)據(jù)，部分來自志愿者。這些志愿者讀出自己的聲音，然后由科技公司錄制?，F(xiàn)在，語音控制軟件開始走俏，它收集的大部分數(shù)據(jù)來自公司的自主產(chǎn)品和服務。

當你使用語音指令在手機上搜索一些東西，播放歌曲或者導航時，科技公司可能就在錄制你的聲音。蘋果、谷歌、微軟以及亞馬遜強調(diào)，他們對用戶數(shù)據(jù)進行匿名化處理，以保護用戶的隱私。當你向Alexa詢問天氣或者足球比賽比分時，它就會利用你的問題改進對自然語言的理解?！敖柚@一設計，你使用的越多，Alexa就變得越智能，”Alexa項目資深首席科學家尼克·斯特羅姆(Nikko Strom)表示。

面臨的挑戰(zhàn)

其中一個重大挑戰(zhàn)就是如何讓技術熟悉多種語言、口音以及方言。相比之下，這一問題在中國顯得更為重要。為了收集全國各地的方言，百度今年初在新年期間推出了一項營銷活動。百度將這項活動稱之為“方言保護行動”，該公司表示，如果人們愿意使用方言與百度交流，就是在協(xié)助引領一個未來。在兩周時間內(nèi)，百度使用電腦錄制了超過1000個小時的語音。許多人甘愿免費提供他們的方言，因為他們對于自己的家鄉(xiāng)方言感到自豪。四川的一位高中老師對于這一活動感到十分興奮，他讓一個班的學生使用四川話錄制了1000多篇古代詩歌。

另一個挑戰(zhàn)則是：如何在嘈雜的環(huán)境下教會語音識別技術準確接收指令，例如在嘈雜的酒吧、喧鬧的體育場等。微軟已經(jīng)部署了一款名為Voice Studio的Xbox應用，在用戶觀看電影等活動時收集對話。微軟還為愿意提供游戲聊天語音的玩家準備了數(shù)字裝備等獎勵。這一項目在巴西取得了不錯效果，微軟子公司在其主要Xbox頁面上大力推廣這一項目。微軟把收集來的數(shù)據(jù)用于開發(fā)葡萄牙語版的“小娜”，該版本語音助手已在今年早些時候發(fā)布。

科技公司還在專門為具體環(huán)境設計語音識別系統(tǒng)。微軟正在測試一項技術，它能夠在不受到機場廣播干擾的情況下回答旅客的問題。微軟的這項技術還被用于麥當勞得來速汽車餐廳的自動訂購系統(tǒng)。亞馬遜還在汽車中測試Alexa，讓其在道路噪音和車窗打開的情況下提高語音識別準確度。

即便科技公司在滿世界尋找數(shù)據(jù)，但是他們也在設法找出不需要那么多數(shù)據(jù)就可以提高語音識別準確度的方法。微軟首席語音科學家黃學東表示，正在麥當勞汽車餐廳測試的技術，就要比使用了更多數(shù)據(jù)的其它系統(tǒng)更為準確。黃學東在微軟開發(fā)語音識別技術已有20多年時間。“即便在不使用這么多數(shù)據(jù)的情況下，你依舊可以取得突破，”他表示。

谷歌一般奉行“少即多”的理念，使用零碎，無法理解的聲音串連成話語和短句。對于自主語音識別系統(tǒng)，谷歌希望只通過一處改變就能解決多個問題。在數(shù)據(jù)集問題上，谷歌把數(shù)萬個一般在兩秒至五秒長的音頻片段串連在一起。谷歌研究人員弗朗西斯·比烏福斯(Fran?oise Beaufays)表示，這一過程需要的計算性能更少，更容易進行測試和作出調(diào)整。就其本身而言，百度正在開發(fā)更為高效的算法。在學習一種語言后，它就能更為容易地學習另外12種語言。吳恩達稱，這對于一種只有數(shù)萬人而不是數(shù)百萬人會說的語言來說尤其重要，因為它沒有大量可用的語音數(shù)據(jù)。

當吳恩達等研究人員被問及數(shù)字助手可能會在何時能夠與人類展開自然對話時，他們都沒有給出答案。沒有人真正知道這一問題的答案。即便是對于最為了解神經(jīng)網(wǎng)絡的人來說，神經(jīng)網(wǎng)絡依舊是一項神秘技術。目前的大部分工作都是試驗性的，出了錯后進行調(diào)整。你無法肯定地說數(shù)字助手的自然語言對話將在何時實現(xiàn)。根據(jù)當前的技術和方法推測，自然對話可能需要花費數(shù)年時間。但是吳恩達、黃學東、比烏福斯以及其他科學家表示，你永遠不知道語音識別將在何時取得突破，推動研究大幅前進，把Alexa和Siri轉化成真正的對話者。

(編輯：李月)

返回315記者攝影家首頁>>

免責聲明：

1、本網(wǎng)內(nèi)容凡注明"來源：315記者攝影家網(wǎng)"的所有文字、圖片和音視頻資料，版權均屬315記者攝影家網(wǎng)所有，轉載、下載須通知本網(wǎng)授權，不得商用，在轉載時必須注明"稿件來源：315記者攝影家網(wǎng)"，違者本網(wǎng)將依法追究責任。
2、本文系本網(wǎng)編輯轉載，轉載出于研究學習之目的，為北京正念正心國學文化研究院藝術學研究、宗教學研究、教育學研究、文學研究、新聞學與傳播學研究、考古學研究的研究員研究學習，并不代表本網(wǎng)贊同其觀點和對其真實性負責。
3、如涉及作品、圖片等內(nèi)容、版權和其它問題，請作者看到后一周內(nèi)來電或來函聯(lián)系刪除。