日前,優(yōu)必選對(duì)外宣布與百度達(dá)成合作,將其人形機(jī)器人Walker S接入百度文心大模型,共探“AI大模型+人形機(jī)器人”創(chuàng)新應(yīng)用,這也是國(guó)內(nèi)首款接入大模型的人形機(jī)器人。在此之前Figure公司與OpenAI合作,發(fā)布了首個(gè)接入了OpenAI大模型的機(jī)器人demo——Figure 01,作為Figure和OpenAI合作的首批成果在業(yè)內(nèi)引起不小的轟動(dòng),AI大模型+人形機(jī)器人正掀起下一波技術(shù)熱潮。
那么,從技術(shù)角度來(lái)看,AI大模型和人形機(jī)器人在技術(shù)層面的結(jié)合到底有些可能性呢?
1.自然語(yǔ)言交互:
利用Transformer等注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)架構(gòu),訓(xùn)練海量文本數(shù)據(jù),構(gòu)建強(qiáng)大的語(yǔ)言理解與生成模型。采用Seq2Seq、BERT、GPT等模型結(jié)構(gòu),實(shí)現(xiàn)高質(zhì)量的語(yǔ)音識(shí)別(ASR)、自然語(yǔ)言理解(NLU)和自然語(yǔ)言生成(NLG)。在交互中引入Grounding技術(shù),讓機(jī)器人能根據(jù)實(shí)物環(huán)境信息更準(zhǔn)確地理解用戶(hù)意圖。代表案例:Alexa、Siri等智能語(yǔ)音助手已廣泛應(yīng)用自然語(yǔ)言處理技術(shù),能與用戶(hù)進(jìn)行流暢對(duì)話(huà);Xiaomi CyberOne等人形機(jī)器人搭載大語(yǔ)言模型,實(shí)現(xiàn)高自然度語(yǔ)音交互。
2.知識(shí)庫(kù)與推理:
通過(guò)Knowledge Embedding將結(jié)構(gòu)化知識(shí)庫(kù)如Freebase映射到連續(xù)向量空間,再利用Graph Neural Network等技術(shù)學(xué)習(xí)知識(shí)圖譜表示,增強(qiáng)大模型的知識(shí)性和邏輯推理能力。在預(yù)訓(xùn)練階段引入知識(shí)蒸餾和對(duì)比學(xué)習(xí),讓模型更好地吸收結(jié)構(gòu)化知識(shí)。利用歸納邏輯編程(ILP)、Markov邏輯網(wǎng)等技術(shù)進(jìn)行邏輯推理。代表案例:IBM Watson利用知識(shí)庫(kù)實(shí)現(xiàn)強(qiáng)大的問(wèn)答和邏輯推理能力;DeepMind的AlphaGo以知識(shí)驅(qū)動(dòng)的方式掌握圍棋知識(shí),并用于對(duì)弈推理。
DeepMind的AlphaGo以知識(shí)驅(qū)動(dòng)的方式掌握圍棋知識(shí)
3.多模態(tài)感知與決策:
通過(guò)Multimodal Transformer、Cross-attention等技術(shù)融合視覺(jué)、語(yǔ)音、文本等多模態(tài)信息。利用主動(dòng)學(xué)習(xí)讓機(jī)器人主動(dòng)詢(xún)問(wèn)未知環(huán)境信息,減少感知不確定性。將計(jì)算機(jī)視覺(jué)技術(shù)如目標(biāo)檢測(cè)、圖像分割等與大模型相結(jié)合,實(shí)現(xiàn)場(chǎng)景理解。在決策中引入因果推理,增強(qiáng)機(jī)器人應(yīng)對(duì)復(fù)雜環(huán)境的魯棒性。代表案例:Elon Musk的Optimus機(jī)器人將深度學(xué)習(xí)應(yīng)用于視覺(jué)感知,實(shí)現(xiàn)精準(zhǔn)的目標(biāo)識(shí)別與抓取;Robotic Vision公司將視覺(jué)信息融入語(yǔ)言模型,實(shí)現(xiàn)更全面的場(chǎng)景理解。
將視覺(jué)信息融入語(yǔ)言模型
4.運(yùn)動(dòng)規(guī)劃:
采用深度強(qiáng)化學(xué)習(xí)(DRL)訓(xùn)練運(yùn)動(dòng)規(guī)劃模型,如DDPG、SAC等,讓機(jī)器人通過(guò)trial and error學(xué)習(xí)最優(yōu)運(yùn)動(dòng)軌跡。將運(yùn)動(dòng)規(guī)劃與Imitation Learning相結(jié)合,通過(guò)模仿人類(lèi)動(dòng)作,實(shí)現(xiàn)更自然的運(yùn)動(dòng)。利用Sim2Real技術(shù)彌合仿真與真實(shí)環(huán)境的差距。將運(yùn)動(dòng)規(guī)劃與反饋控制結(jié)合,實(shí)現(xiàn)更穩(wěn)定、實(shí)時(shí)的運(yùn)動(dòng)控制。代表案例:Boston Dynamics的Atlas機(jī)器人采用模仿學(xué)習(xí)與強(qiáng)化學(xué)習(xí)相結(jié)合,實(shí)現(xiàn)了高難度體操動(dòng)作;Robotic AI公司利用深度強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)機(jī)器人精準(zhǔn)控制。
Robotic AI公司利用深度強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)機(jī)器人精準(zhǔn)控制
5.任務(wù)規(guī)劃與執(zhí)行:
通過(guò)Hierarchical Task Network等技術(shù)將復(fù)雜任務(wù)分解為多層次可執(zhí)行子任務(wù)。利用Monte-Carlo Tree Search(MCTS)等算法在任務(wù)規(guī)劃中進(jìn)行全局優(yōu)化搜索。在執(zhí)行中采用Behavior Tree或有限狀態(tài)機(jī)(FSM)等技術(shù)編排子任務(wù),處理不同場(chǎng)景下的狀態(tài)轉(zhuǎn)移。同時(shí)引入錯(cuò)誤監(jiān)控和問(wèn)題診斷技術(shù),增強(qiáng)任務(wù)執(zhí)行的容錯(cuò)性。代表案例:通用汽車(chē)(GM)的Dreamcatcher系統(tǒng)利用MCTS進(jìn)行智能裝配任務(wù)規(guī)劃;NASA的Robonaut 2利用分層控制結(jié)構(gòu),自主執(zhí)行空間站維修等任務(wù)。
Robonaut 2自主執(zhí)行空間站維修等任務(wù)
6.情感交互:
利用多模態(tài)情感識(shí)別模型,融合面部表情、語(yǔ)音語(yǔ)調(diào)、身體動(dòng)作等信息,實(shí)現(xiàn)用戶(hù)情緒的準(zhǔn)確理解。在情感生成中,采用GAN等生成式模型合成表情、動(dòng)作。利用Seq2Seq模型生成情感回復(fù)。在對(duì)話(huà)中融入幽默、同理心等社交策略,讓交互更具人性化。代表案例:Hanson Robotics的Sophia機(jī)器人通過(guò)面部表情合成和聲音合成,實(shí)現(xiàn)了豐富的情感表達(dá);Emoshape公司的情感芯片賦予機(jī)器人表達(dá)同理心的能力。
Emoshape公司的情感芯片賦予機(jī)器人表達(dá)同理心的能力
7.持續(xù)學(xué)習(xí):
采用元學(xué)習(xí)(Meta-learning)讓機(jī)器人學(xué)會(huì)如何學(xué)習(xí),實(shí)現(xiàn)快速適應(yīng)新任務(wù)、新環(huán)境的能力。通過(guò)Continual Few-Shot Learning、Incremental Learning等技術(shù)在少量新數(shù)據(jù)上進(jìn)行增量學(xué)習(xí),克服災(zāi)難性遺忘問(wèn)題。引入主動(dòng)學(xué)習(xí),讓機(jī)器人主動(dòng)向用戶(hù)詢(xún)問(wèn)未知知識(shí),加速學(xué)習(xí)進(jìn)程。代表案例:Cogitai公司利用增量學(xué)習(xí)技術(shù),讓智能體在連續(xù)學(xué)習(xí)中不斷進(jìn)化;Dactyl項(xiàng)目利用元學(xué)習(xí),讓機(jī)器人掌握多種物體操縱技能。
Dactyl項(xiàng)目利用元學(xué)習(xí)讓機(jī)器人掌握多種物體操縱技能
以上技術(shù)的融合有望全面提升人形機(jī)器人在感知、認(rèn)知、決策、規(guī)劃、控制、交互、學(xué)習(xí)等方面的能力,最終實(shí)現(xiàn)更加智能化、人性化的人形機(jī)器人。但目前這一領(lǐng)域仍處于探索階段,在算法、硬件、系統(tǒng)集成等方面仍面臨不少挑戰(zhàn),離大規(guī)模商業(yè)化應(yīng)用還有一定距離。