圖片、文字、語(yǔ)音都能理解 這個(gè)AI平臺(tái)是“全能”選手

  來(lái)源:科技日?qǐng)?bào)2021-07-12
打印本文
核心提示:“小初,請(qǐng)以天宮為主題作首詩(shī)吧?”“天宮生殿開(kāi)成,萬(wàn)花垂露照初。稠云不掩國(guó)志,飛天當(dāng)觸明霞?!薄澳隳芸炊@個(gè)視頻嗎?”“視頻中,火箭正在發(fā)射。”“小初,圖片中航

“小初,請(qǐng)以天宮為主題作首詩(shī)吧?”


  “天宮生殿開(kāi)成,萬(wàn)花垂露照初。稠云不掩國(guó)志,飛天當(dāng)觸明霞?!?

  “你能看懂這個(gè)視頻嗎?”

  “視頻中,火箭正在發(fā)射。”

  “小初,圖片中航天員正在干什么?”

  “航天員正穿著航天服站在機(jī)械臂上遨游太空?!?

  ……

  7月9日,在2021世界人工智能大會(huì)(WAIC2021)上,中國(guó)科學(xué)院自動(dòng)化研究所所長(zhǎng)徐波發(fā)布了自動(dòng)化所研發(fā)的跨模態(tài)通用人工智能平臺(tái)——“紫東太初”。基于“紫東太初”平臺(tái)打造的虛擬人“小初”在大會(huì)現(xiàn)場(chǎng)賺足了眼球。它不僅能讀懂圖片、看懂視頻、中文續(xù)寫、雙語(yǔ)翻譯,而且能吟詩(shī)作賦,生動(dòng)證明了通過(guò)圖片、文字、語(yǔ)音三種模態(tài)的關(guān)聯(lián)與協(xié)同,可以有效地提升機(jī)器的理解和生成能力,讓AI接近人類想象力。

  “紫東太初”平臺(tái)是跨模態(tài)通用人工智能平臺(tái),以多模態(tài)大模型為核心,基于全棧國(guó)產(chǎn)化基礎(chǔ)軟硬件平臺(tái),可支撐全場(chǎng)景AI應(yīng)用?!八^跨模態(tài)是指它可以理解語(yǔ)音、文字和圖片等多種模態(tài)信息;所謂全棧國(guó)產(chǎn)化是指這個(gè)平臺(tái)的底層算力、模型、框架等都是自主研發(fā)的?!毙觳ń忉尩?。

  多種模態(tài)預(yù)訓(xùn)練模型被廣泛認(rèn)為是從限定領(lǐng)域的弱人工智能邁向通用人工智能路徑的探索。依托面向超大規(guī)模的高效分布式訓(xùn)練框架,自動(dòng)化所構(gòu)建了具有業(yè)界領(lǐng)先性能的中文預(yù)訓(xùn)練模型、語(yǔ)音預(yù)訓(xùn)練模型、視覺(jué)預(yù)訓(xùn)練模型,并開(kāi)拓性地通過(guò)跨模態(tài)語(yǔ)義關(guān)聯(lián)實(shí)現(xiàn)了視覺(jué)、文本、語(yǔ)音三種模態(tài)統(tǒng)一表示,構(gòu)建了三模態(tài)預(yù)訓(xùn)練大模型,賦予跨模態(tài)通用人工智能平臺(tái)多種核心能力。

  徐波介紹,“紫東太初”兼具跨模態(tài)理解和生成能力。與單模態(tài)和圖片、文字兩種模態(tài)相比,“紫東太初”采用一個(gè)大模型就可以靈活支撐圖片、文字以及語(yǔ)音的全場(chǎng)景AI應(yīng)用,具有了在無(wú)監(jiān)督情況下多任務(wù)聯(lián)合學(xué)習(xí)、并快速遷移到不同領(lǐng)域數(shù)據(jù)的強(qiáng)大能力。

  “引入語(yǔ)音模態(tài)后的多模態(tài)預(yù)訓(xùn)練模型,可實(shí)現(xiàn)共性圖片、語(yǔ)音和文字的空間表征和利用,并突破性地直接實(shí)現(xiàn)三模態(tài)的統(tǒng)一表示。”徐波說(shuō),特別值得強(qiáng)調(diào)的是,該平臺(tái)首次讓“以圖生音”和“以音生圖”成為現(xiàn)實(shí),對(duì)更廣泛、更多樣的下游任務(wù)提供模型基礎(chǔ)支撐,讓AI能夠在視頻配音、語(yǔ)音播報(bào)、標(biāo)題摘要、海報(bào)創(chuàng)作等更多場(chǎng)景實(shí)現(xiàn)應(yīng)用。

  同時(shí),研發(fā)團(tuán)隊(duì)還提出了弱關(guān)聯(lián)三模態(tài)數(shù)據(jù)的語(yǔ)義統(tǒng)一表達(dá),可同時(shí)支持三種或任兩種模態(tài)弱關(guān)聯(lián)數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,有效降低了多模態(tài)數(shù)據(jù)收集與清洗成本。

  “‘紫東太初’跨模態(tài)通用人工智能平臺(tái)包括三大關(guān)鍵技術(shù)和六大核心能力?!毙觳ㄕf(shuō),三大關(guān)鍵技術(shù)分別是多模態(tài)理解與生成多任務(wù)統(tǒng)一建模、面向國(guó)產(chǎn)化軟硬件的高效訓(xùn)練與部署、多模態(tài)預(yù)訓(xùn)練模型架構(gòu)設(shè)計(jì)與優(yōu)化。六大核心能力則體現(xiàn)為多模態(tài)統(tǒng)一表示與語(yǔ)義關(guān)聯(lián)、跨模態(tài)內(nèi)容轉(zhuǎn)化與生成、預(yù)訓(xùn)練模型網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)、標(biāo)注受限自監(jiān)督模型學(xué)習(xí)、模型適配與分布式訓(xùn)練、模型輕量化與推理加速。

  徐波表示,“大數(shù)據(jù)+大模型+多模態(tài)”將改變當(dāng)前單一模型對(duì)應(yīng)單一任務(wù)的人工智能研發(fā)范式,多模態(tài)大模型將成為不同領(lǐng)域的共性平臺(tái)技術(shù),是邁向通用人工智能路徑的探索,具有廣闊的應(yīng)用前景。

  同時(shí),全棧國(guó)產(chǎn)化通用人工智能平臺(tái)的實(shí)踐將使人工智能研發(fā)的規(guī)則發(fā)生重大變革并逐漸形成壁壘,對(duì)我國(guó)實(shí)現(xiàn)AI領(lǐng)域科技創(chuàng)新、占領(lǐng)核心技術(shù)高地具有重要的戰(zhàn)略意義。

(編輯:映雪)



圖片、文字、語(yǔ)音都能理解 這個(gè)AI平臺(tái)是“全能”選手



 

免責(zé)聲明:

1、本網(wǎng)內(nèi)容凡注明"來(lái)源:315記者攝影家網(wǎng)"的所有文字、圖片和音視頻資料,版權(quán)均屬315記者攝影家網(wǎng)所有,轉(zhuǎn)載、下載須通知本網(wǎng)授權(quán),不得商用,在轉(zhuǎn)載時(shí)必須注明"稿件來(lái)源:315記者攝影家網(wǎng)",違者本網(wǎng)將依法追究責(zé)任。
2、本文系本網(wǎng)編輯轉(zhuǎn)載,轉(zhuǎn)載出于研究學(xué)習(xí)之目的,為北京正念正心國(guó)學(xué)文化研究院藝術(shù)學(xué)研究、宗教學(xué)研究、教育學(xué)研究、文學(xué)研究、新聞學(xué)與傳播學(xué)研究、考古學(xué)研究的研究員研究學(xué)習(xí),并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。
3、如涉及作品、圖片等內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)作者看到后一周內(nèi)來(lái)電或來(lái)函聯(lián)系刪除。