自然語言處理與視覺處理,都重在對不同模態(tài)數(shù)據(jù)所包含的語義信息進(jìn)行識別和理解,但是兩種數(shù)據(jù)的語義表現(xiàn)形式和處理方法不同,導(dǎo)致存在所謂的“語義壁壘”,現(xiàn)在這種壁壘正在被AI打破。
1月初,美國人工智能公司OpenAI推出兩個跨越文本與圖像次元的模型:DALL·E和CLIP,前者可以基于文本生成圖像,后者則可以基于文本對圖片進(jìn)行分類。這個突破說明通過文字語言來操縱視覺概念現(xiàn)在已經(jīng)觸手可及。自然語言處理和視覺處理的邊界已經(jīng)被打破,多模態(tài)AI系統(tǒng)正在逐步建立。
“數(shù)據(jù)的來源或者形式是多種多樣的,每一種都可以稱為一種模態(tài)。例如圖像、視頻、聲音、文字、紅外、深度等都是不同模態(tài)的數(shù)據(jù)。單模態(tài)AI系統(tǒng)只能處理單個模態(tài)的數(shù)據(jù)。例如對于人臉識別系統(tǒng)或者語音識別系統(tǒng)來說,它們各自只能處理圖像和聲音數(shù)據(jù)?!敝袊茖W(xué)院自動化研究所副研究員黃巖在接受科技日報記者采訪時表示。
相對而言,多模態(tài)AI系統(tǒng)可以同時處理不止一種模態(tài)的數(shù)據(jù),而且能夠結(jié)合多種模態(tài)數(shù)據(jù)進(jìn)行綜合分析。“例如服務(wù)機(jī)器人系統(tǒng)或者無人駕駛系統(tǒng)就是典型的多模態(tài)系統(tǒng),它們在導(dǎo)航的過程中會實(shí)時采集視頻、深度、紅外等多種模態(tài)的數(shù)據(jù),進(jìn)行綜合分析后選擇合適的行駛路線?!秉S巖說。
不同層次任務(wù)強(qiáng)行關(guān)聯(lián)會產(chǎn)生“壁壘”
就像人類有視覺、嗅覺、聽覺一樣,AI也有自己的“眼鼻嘴”,而為了研究的針對性和深入,科學(xué)家們通常會將其分為計算機(jī)視覺、自然語言處理、語音識別等研究領(lǐng)域,分門別類地解決不同的實(shí)際問題。
自然語言處理與視覺處理分別是怎樣的過程,二者之間為什么會有壁壘?
語義是指文字、圖像或符號之間的構(gòu)成關(guān)系及意義。“自然語言處理與視覺處理,都重在對不同模態(tài)數(shù)據(jù)所包含的語義信息進(jìn)行識別和理解,但是兩種數(shù)據(jù)的語義表現(xiàn)形式和處理方法不同,導(dǎo)致存在所謂的‘語義壁壘’?!秉S巖說。
視覺處理中最常見的數(shù)據(jù)就是圖像,每個圖像是由不同像素點(diǎn)排列而成的二維結(jié)構(gòu)。像素點(diǎn)本身不具有任何語義類別信息,即無法僅憑一個像素點(diǎn)將其定義為圖像數(shù)據(jù),因?yàn)橄袼攸c(diǎn)本身只包含0到255之間的一個像素值。
“例如對于一張人臉圖像來說,如果我們只看其中某些像素點(diǎn)是無法識別人臉圖像這一語義類別信息的。因此,目前計算機(jī)視覺領(lǐng)域的研究人員更多研究的是如何讓人工智能整合像素點(diǎn)數(shù)據(jù),判斷這個數(shù)據(jù)集合的語義類別?!秉S巖說。
“語言數(shù)據(jù)最常見的就是句子,是由不同的詞語序列化構(gòu)成的一維結(jié)構(gòu)。不同于圖像像素,文本中每個詞語已經(jīng)包含了非常明確的語義類別信息。而自然語言處理則是在詞語的基礎(chǔ)上,進(jìn)行更加高級的語義理解?!秉S巖說,例如相同詞語排列的順序不同將產(chǎn)生不同的語義、多個句子聯(lián)合形成段落則可以推理出隱含語義信息。
可以說,自然語言處理主要研究實(shí)現(xiàn)人與計算機(jī)直接用自然語言進(jìn)行有效信息交流,這個過程包括自然語言理解和自然語言生成。自然語言理解是指計算機(jī)能夠理解人類語言的意義,讀懂人類語言的潛在含義;自然語言生成則是指計算機(jī)能以自然語言文本來表達(dá)它想要達(dá)到的意圖。
由此可以看出,自然語言處理要解決的問題的層次深度超過了計算機(jī)視覺,自然語言處理是以理解人類的世界為目標(biāo),而計算機(jī)視覺所完成的就是所見即所得。這是兩個不同層次的任務(wù)。目前來說,自然語言處理在語義分析層面來說要高于視覺處理,二者是不對等的。如果強(qiáng)行將兩者進(jìn)行語義關(guān)聯(lián)的話,則會產(chǎn)生“語義壁壘”。
AI打破自然語言處理和視覺處理的邊界
此前,OpenAI斥巨資打造的自然語言處理模型GPT-3,擁有1750億超大參數(shù)量,是自然語言處理領(lǐng)域最強(qiáng)AI模型。人們發(fā)現(xiàn)GPT-3不僅能夠答題、寫文章、做翻譯,還能生成代碼、做數(shù)學(xué)推理、數(shù)據(jù)分析、畫圖表、制作簡歷。自2020年5月首次推出以來,GPT-3憑借驚人的文本生成能力受到廣泛關(guān)注。
與GPT-3一樣,DALL·E也是一個具有120億參數(shù)的基于Transformer架構(gòu)的語言模型,不同的是,GPT-3生成的是文本,DALL·E生成的是圖像。
在互聯(lián)網(wǎng)上,OpenAI大秀了一把DALL·E的“超強(qiáng)想象力”,隨意輸入一句話,DALL·E就能生成相應(yīng)圖片,這個圖片內(nèi)容可能是現(xiàn)實(shí)世界已經(jīng)存在的,也可能是根據(jù)自己的理解創(chuàng)造出來的。
此前,關(guān)于視覺領(lǐng)域的深度學(xué)習(xí)方法一直存在三大挑戰(zhàn)——訓(xùn)練所需大量數(shù)據(jù)集的采集和標(biāo)注,會導(dǎo)致成本攀升;訓(xùn)練好的視覺模型一般只擅長一類任務(wù),遷移到其他任務(wù)需要花費(fèi)巨大成本;即使在基準(zhǔn)測試中表現(xiàn)良好,在實(shí)際應(yīng)用中可能也不如人意。
對此,OpenAI聯(lián)合創(chuàng)始人曾發(fā)文聲稱,語言模型或是一種解決方案,可以嘗試通過文本來修改和生成圖像?;谶@一愿景,CLIP應(yīng)運(yùn)而生。只需要提供圖像類別的文本描述,CLIP就能將圖像進(jìn)行分類。
至此,AI已經(jīng)打破了自然語言處理和視覺處理的邊界。“這主要得益于計算機(jī)視覺領(lǐng)域中語義類別分析方面的飛速發(fā)展,使得AI已經(jīng)能夠進(jìn)一步進(jìn)行更高層次的視覺語義理解?!秉S巖說。
具體來說,隨著深度學(xué)習(xí)的興起,計算機(jī)視覺領(lǐng)域從2012年至今已經(jīng)接連攻克一般自然場景下的目標(biāo)識別、檢測、分割等語義類別分析任務(wù)。2015年至今,越來越多的視覺研究者們開始提出和研究更加高層的語義理解任務(wù),包括基于圖像生成語言描述、用語言搜索圖片、面向圖像的語言問答等。
“這些語義理解任務(wù)通常都需要聯(lián)合視覺模型和語言模型才能夠解決,因此出現(xiàn)了第一批橫跨視覺領(lǐng)域和語言領(lǐng)域的研究者?!秉S巖說,在他們推動下,兩個領(lǐng)域開始相互借鑒優(yōu)秀模型和解決問題的思路,并進(jìn)一步影響到更多傳統(tǒng)視覺和語言處理任務(wù)。
多模態(tài)交互方式會帶來全新的應(yīng)用
隨著人工智能技術(shù)發(fā)展,科學(xué)家也正在不斷突破不同研究領(lǐng)域之間的界限,自然語言處理和視覺處理的交叉融合并不是個例。
“語音識別事實(shí)上已經(jīng)加入其中,最近業(yè)內(nèi)出現(xiàn)很多研究視覺+語音的新任務(wù),例如基于一段語音生成人臉圖像或者跳舞視頻?!秉S巖說,但是要注意到,語音其實(shí)與語言本身在內(nèi)容上可能具有較大的重合性。在現(xiàn)在語音識別技術(shù)非常成熟的前提下,完全可以先對語音進(jìn)行識別將其轉(zhuǎn)換為語言,進(jìn)而把任務(wù)轉(zhuǎn)換為語言與圖像交互的常規(guī)問題。
無論是DALL·E還是CLIP,都采用不同的方法在多模態(tài)學(xué)習(xí)領(lǐng)域跨出了令人驚喜的一步。今后,文本和圖像的界限是否會被進(jìn)一步打破,能否順暢地用文字“控制”圖像的分類和生成,將會給現(xiàn)實(shí)生活帶來怎樣的改變,都值得期待。
對于多模態(tài)交互方式可能會帶來哪些全新應(yīng)用?黃巖舉了兩個具有代表性的例子。
第一個是手機(jī)的多模態(tài)語音助手。該技術(shù)可以豐富目前手機(jī)語音智能助手的功能和應(yīng)用范圍。目前的手機(jī)助手只能進(jìn)行語音單模態(tài)交互,未來可以結(jié)合手機(jī)相冊等視覺數(shù)據(jù)、以及網(wǎng)絡(luò)空間中的語言數(shù)據(jù)來進(jìn)行更加多樣化的推薦、查詢、問答等操作。
第二個是機(jī)器人的多模態(tài)導(dǎo)航。該技術(shù)可以提升服務(wù)機(jī)器人與人在視覺和語音(或語言)方面的交互能力,例如未來可以告訴機(jī)器人“去會議室看看有沒有電腦”,機(jī)器人在理解語言指令的情況下,就能夠結(jié)合視覺、深度等信息進(jìn)行導(dǎo)航和查找。