英偉達(dá)CEO黃仁勛(Jensen Huang)曾預(yù)言:“AI 的下一個浪潮將是具身智能(Embodied AI)。”
繼AI聊天機(jī)器人、大語言模型之后,具身智能作為AI領(lǐng)域的一個新的發(fā)展方向正受到越來越多的關(guān)注。
“具身智能是一種知行合一的AI,也就是在‘知’的層面上,智能體要具有感知、推理、決策的能力。在‘行’的層面,智能體可以通過身體的動作和表情,與環(huán)境以及其他智能體進(jìn)行交互。這是一種既要有大腦,還要有軀體的智能體。”上海人形機(jī)器人制造業(yè)創(chuàng)新中心首席科學(xué)家江磊表示。
江磊強(qiáng)調(diào),“具身智能的最佳物理形態(tài)就是人形機(jī)器人。”
近期舉行的2024全球開發(fā)者先鋒大會多場分論壇上,數(shù)位專家、學(xué)者和先鋒開發(fā)者分享了對具身智能以及人形機(jī)器人產(chǎn)業(yè)創(chuàng)新的思考。
人形機(jī)器人是“具身智能”的承載形態(tài)
所謂“具身智能”,就是指機(jī)器人或智能系統(tǒng)能夠通過感知器和執(zhí)行器與其所處的環(huán)境進(jìn)行實(shí)時互動,通常具備感知、認(rèn)知、決策和行動的能力,能夠根據(jù)環(huán)境的變化做出相應(yīng)的調(diào)整。
與傳統(tǒng)機(jī)器人相比,具身智能對環(huán)境的感知和響應(yīng)能力相對更出色。而且,具身智能不僅能接收外部信息,還能理解這些信息,并作出適當(dāng)?shù)姆磻?yīng)。
在此之前,華人計(jì)算機(jī)科學(xué)家、斯坦福大學(xué)教授李飛飛,上海交通大學(xué)教授盧策吾等人都曾提出“具身智能”這一概念技術(shù)。
隨著2022年底發(fā)布的ChatGPT風(fēng)靡全球,在 ITF World 2023 半導(dǎo)體大會上,黃仁勛表示,AI 的下一個浪潮將是“具身智能”,即能理解、推理、并與物理世界互動的智能系統(tǒng),引發(fā)全球關(guān)注。
在全球科技競賽的新賽道上,人形機(jī)器人正成為各國競相布局的焦點(diǎn)。借助政策驅(qū)動和資本助力,這一領(lǐng)域的創(chuàng)新和突破正在加速。2024年以來,人形機(jī)器人的商用化應(yīng)用示范也正成為行業(yè)發(fā)展重點(diǎn),然而商用化進(jìn)程中仍面臨挑戰(zhàn),這既是考驗(yàn),也是激發(fā)創(chuàng)新潛能的契機(jī)。
“人形機(jī)器人是具身智能最完美、最佳的承載形態(tài),可能也是通用機(jī)器人的終極形態(tài)。”清華大學(xué)交叉信息研究院助理教授、星動紀(jì)元創(chuàng)始人兼CEO陳建宇表示。
陳建宇稱,“不管是工業(yè)場景還是我們的生活場景,目前大部分的事情還是由人來做。所以我們急需這樣一個更通用的機(jī)器人來幫助我們完成很多的任務(wù)。”
在陳建宇看來,人形機(jī)器人有三大優(yōu)勢:
-
一是能最大限度地適配人類環(huán)境。整個人類的基礎(chǔ)設(shè)施、外界環(huán)境就是完全為人類建造的,這是不能改變的,因?yàn)槿耸冀K要生活在這個環(huán)境里。“如果我們要做一個機(jī)器人,它要通用的在人類的生活環(huán)境里面生活,那它一定只有以人的形態(tài)才能去最大限度地適應(yīng)。”陳建宇說。
-
第二,從技術(shù)的角度來講,未來人形機(jī)器人這樣的具身智能肯定是以數(shù)據(jù)驅(qū)動,數(shù)據(jù)是很重要的一個環(huán)節(jié)。對于人形機(jī)器人來說它的數(shù)據(jù)可得性更高,因?yàn)樗懈祟惛咏男螒B(tài),可以更加方便地從人的行為中來獲取數(shù)據(jù)。
-
第三,人形機(jī)器人也更能滿足人類情感與審美的要求,因?yàn)樗懈烁嗨频男螒B(tài)。
江磊也同樣認(rèn)為,人形機(jī)器人就是具身智能的最佳物理形態(tài)。
據(jù)公開數(shù)據(jù)顯示,目前國內(nèi)人形機(jī)器人的產(chǎn)業(yè)規(guī)模已經(jīng)達(dá)到200億,遠(yuǎn)遠(yuǎn)超過所有人的預(yù)想。
2023年以來,很多原本做人形機(jī)器人的公司也在增加具身智能的新概念。“我們給了它一個新的名詞叫通用人形機(jī)器人。目前在中國通用人形機(jī)器人整機(jī)的商業(yè)公司已經(jīng)超過了25家。這個數(shù)字每天還在增長,可以說我國已經(jīng)成為全球人形機(jī)器人產(chǎn)業(yè)的一個熱門聚集地。”江磊表示。
為何具身智能在AI領(lǐng)域越來越受到關(guān)注?上海人工智能實(shí)驗(yàn)室研究員龐江淼表示,之前大家更關(guān)注計(jì)算機(jī)視覺、自然語言處理,現(xiàn)在具身智能突然受到了很大關(guān)注,是因?yàn)樗牡讓用恳粋€模塊的技術(shù)都已經(jīng)趨近成熟了。“ 在這樣的情況下,我們能夠基于強(qiáng)化學(xué)習(xí)的方式去解決一些傳統(tǒng)NPC解決不了的控制問題。智能機(jī)器人是一個系統(tǒng)工程,那當(dāng)這個系統(tǒng)工程的每個子模塊的技術(shù)都有了躍進(jìn),那它本身就會成為下一個時代的目標(biāo)。”龐江淼說。
復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院研究員葉廣楠指出,目前大模型的發(fā)展是機(jī)器人領(lǐng)域發(fā)展的一個核心原動力。因?yàn)榇竽P陀写罅康臄?shù)據(jù),有強(qiáng)大的并行計(jì)算的能力,大模型實(shí)際上給機(jī)器人的核心內(nèi)部注入了真實(shí)需要的“靈魂”。大模型會對機(jī)器人各個階段的發(fā)展起到很大的促進(jìn)的作用。
人形機(jī)器人進(jìn)化要素在于數(shù)據(jù)、算法和本體
談及未來人形機(jī)器人創(chuàng)新發(fā)展的技術(shù)關(guān)鍵,陳建宇指出,對于大語言模型發(fā)展主要的進(jìn)化要素是數(shù)據(jù)、算法,而對于機(jī)器人來說有一些不同,除了數(shù)據(jù)和算法都需要從機(jī)器人的角度有一定的改進(jìn)以外,還要加上本體。
本體和數(shù)據(jù)、算法的關(guān)系非常緊密。陳建宇認(rèn)為,對于機(jī)器人的數(shù)據(jù)來說,它一定是需要從本體上面產(chǎn)生的,不管是現(xiàn)實(shí)世界的本體還是虛擬世界的本體。同時,算法在目前也跟本體有一定的耦合性,現(xiàn)在還不能說完全能解耦開去做這件事情,所以是三位一體聯(lián)合去迭代的過程。
“人形機(jī)器人本體部分的關(guān)鍵技術(shù)點(diǎn)在于關(guān)節(jié)和靈巧手,比如腿部的關(guān)節(jié)和需求怎么做,靈巧手要有多少自由度,觸覺怎么做,怎么樣平衡精度等等。此外還有一個很有意思的問題,就是人形機(jī)器人的手腿協(xié)同。我們發(fā)現(xiàn)如果還沿用原來的四足架構(gòu)的話,當(dāng)我們想讓(機(jī)器人的)手做一些訓(xùn)練集沒有做過的事情,就會非常影響腿部的穩(wěn)定性。所以我們提出了‘去中心化’的訓(xùn)練架構(gòu),使得手和腿在必要的時候進(jìn)行一定程度的解耦,但是需要的時候它又可以做到比較好的耦合。”陳建宇說。
江磊則從硬件、智能和場景三個方面來分析人形機(jī)器人在未來如何落地。
江磊坦言,“首先是硬件,硬件還是集中在一定要打造一款低成本的硬件,才能指望它進(jìn)入千家萬戶,思路和以往也不同,這一輪低成本硬件我們更希望通過新制造、新傳感、新材料,使得機(jī)器人所有的復(fù)雜基建系統(tǒng),尤其減速器、驅(qū)動器、電機(jī)、傳感器和芯片真正進(jìn)入智能階段;其次是如何實(shí)現(xiàn)智能,‘具身智能’給了我們一個答案,具身智能+核心零部件會成為這個新賽道的新方向,比如特斯拉擎天柱Optimus人形機(jī)器人,僅使用視覺和關(guān)鍵位置編碼器,就可以在空間精準(zhǔn)定位自己的肢體,這可以減少對高性能傳感器和減速器的依賴,有利于降本。(人形機(jī)器人)通過臂、手、眼的協(xié)同實(shí)現(xiàn)操作,從而降低成本。這也是我們希望核心零部件廠商關(guān)注的一個方向;最后是場景,未來具身智能應(yīng)該是通過場景去打造一個規(guī)模化的數(shù)據(jù)集,然后把這個規(guī)模化數(shù)據(jù)集整理以后發(fā)給具身大模型。”
在江磊看來,具身智能未來可大致分為三種實(shí)現(xiàn)路徑:一是非端到端的路徑,采用語言大模型、視覺大模型,加載機(jī)器人就可以實(shí)現(xiàn)控制;二是半端到端,類似谷歌DeepMind發(fā)布的機(jī)器人大模型RT-2;三是完全端到端,江磊更看好完全端到端的路徑,
“(因?yàn)椋┻@是一種理想的技術(shù)途徑,而且只有完全端到端能把軟件和硬件進(jìn)行解耦,讓穩(wěn)定應(yīng)用成為可能。”江磊稱。