機(jī)器人行業(yè),也在期待自己的「ChatGPT 時(shí)刻」。
作者|周永亮
編輯|靖宇
3 月 7 日晚,智元機(jī)器人聯(lián)合創(chuàng)始人「稚暉君」(彭志輝)在微博上扔下了一顆「預(yù)告炸彈」——「下周有好東西發(fā)布」。短短一句話,迅速引爆全網(wǎng),閱讀量飆升至 10 萬(wàn)+。
結(jié)果,3 月 10 日上午,智元機(jī)器人就揭曉了謎底——Genie Operator-1(GO-1),智元首個(gè)通用具身基座大模型亮相。視頻中,機(jī)器人可以烤吐司、煮咖啡、送早餐到你的手上,完全不成問(wèn)題。官方宣稱, GO-1 不僅具備強(qiáng)大的泛化能力,還能在極少數(shù)據(jù)甚至零樣本的情況下,迅速適應(yīng)新場(chǎng)景和新任務(wù)。
早在 2024 年底,智元就推出了 AgiBot World,一個(gè)包含超過(guò) 100 萬(wàn)條軌跡、涵蓋 217 個(gè)任務(wù)、涉及五大場(chǎng)景的大規(guī)模高質(zhì)量數(shù)據(jù)集。正是基于這一龐大的「數(shù)據(jù)金礦」,GO-1 才能在短時(shí)間內(nèi)實(shí)現(xiàn)高效訓(xùn)練和廣泛泛化??梢哉f(shuō),AgiBot World 是 GO-1 背后的「隱形英雄」。
那么,GO-1 這個(gè)機(jī)器人基座大模型的實(shí)際表現(xiàn)究竟如何?它對(duì)機(jī)器人行業(yè)又意味什么?
01
機(jī)器人大模型,來(lái)了!
按照官方說(shuō)法, GO-1 除了拓展機(jī)器人的運(yùn)動(dòng)能力,更重要的是加強(qiáng)了其AI能力,從而大大增加了機(jī)器人的實(shí)用價(jià)值。
通過(guò)學(xué)習(xí)人類視頻,GO-1 具備了強(qiáng)大的物體跟蹤能力 | 圖片智元機(jī)器人官網(wǎng)截圖
在智元發(fā)布的演示視頻中,GO-1 展現(xiàn)了很強(qiáng)的學(xué)習(xí)能力:通過(guò)觀看人類操作視頻,它就能快速掌握新技能,并高效應(yīng)用到實(shí)際任務(wù)中。比如,視頻中展示了 GO-1 強(qiáng)大的物體跟蹤能力:即使水杯被隨意移動(dòng),它依然能精準(zhǔn)完成倒水動(dòng)作。
其次,GO-1 展現(xiàn)了非常強(qiáng)的泛化能力。與傳統(tǒng)模型需要海量數(shù)據(jù)訓(xùn)練不同, GO-1 僅需百條級(jí)數(shù)據(jù),就能實(shí)現(xiàn)快速泛化。例如,在演示中,GO-1 在完成倒水任務(wù)后,無(wú)需額外訓(xùn)練,便能無(wú)縫切換到烤面包并抹果醬的新任務(wù)。這種能力不僅展現(xiàn)了 GO-1 對(duì)多樣化任務(wù)的適應(yīng)性,更體現(xiàn)了其極簡(jiǎn)學(xué)習(xí)的核心優(yōu)勢(shì)。
GO-1 可以支持不同形態(tài)機(jī)器人能力遷移,既可以接待嘉賓,也可以制作咖啡 | 圖片智元機(jī)器人官網(wǎng)截圖
同時(shí),GO-1 的跨本體能力,為多機(jī)器人協(xié)作提供了強(qiáng)大的技術(shù)支持。在智元發(fā)布的視頻中,展示了兩個(gè)機(jī)器人協(xié)同完成復(fù)雜任務(wù)的場(chǎng)景:一個(gè)機(jī)器人在前臺(tái)接待嘉賓,另一個(gè)機(jī)器人專注于制作咖啡。這種協(xié)作體現(xiàn)了 GO-1 的高效性和適應(yīng)性。
傳統(tǒng)具身模型通常針對(duì)單一機(jī)器人本體(Hardware Embodiment)進(jìn)行設(shè)計(jì),導(dǎo)致兩大問(wèn)題:數(shù)據(jù)利用率低和部署受限。但 GO-1可以賦能多種本體,在不同機(jī)器人形態(tài)之間快速遷移,顯著提升了數(shù)據(jù)的利用效率,降低了部署成本。
值得一提的是,GO-1 大模型還可以搭配智元一整套數(shù)據(jù)回流系統(tǒng),可以從實(shí)際執(zhí)行遇到的問(wèn)題數(shù)據(jù)中持續(xù)進(jìn)化學(xué)習(xí)。這套系統(tǒng)能夠從實(shí)際執(zhí)行過(guò)程中捕捉問(wèn)題數(shù)據(jù),尤其是執(zhí)行失誤或異常情況,并通過(guò)人工審核和模型優(yōu)化,持續(xù)提升 GO-1 的性能。例如,在演示場(chǎng)景中,機(jī)器人在放置咖啡杯時(shí)出現(xiàn)失誤,系統(tǒng)會(huì)立即將相關(guān)數(shù)據(jù)回流,并針對(duì)性地優(yōu)化模型,確保下一次操作更加精準(zhǔn)。
同時(shí),GO-1 大模型還為機(jī)器人增加了新的語(yǔ)音交互方式,這極利了用戶在現(xiàn)實(shí)場(chǎng)景中自由表達(dá)需求。
02
大模型不重要,數(shù)據(jù)集才重要
GO-1 神乎其神的背后,來(lái)自其不同的模型架構(gòu)。
GO-1 采用了 Vision-Language-Latent-Action(ViLLA)架構(gòu),這一架構(gòu)結(jié)合了多模態(tài)大模型(VLM)和混合專家系統(tǒng)(MoE),分為三個(gè)協(xié)同工作的模塊:
VLM(多模態(tài)大模型):基于 InternVL-2B,處理多視角視覺(jué)、力覺(jué)信號(hào)和語(yǔ)言輸入,實(shí)現(xiàn)場(chǎng)景感知和指令理解。
Latent Planner(隱式規(guī)劃器):通過(guò)預(yù)測(cè) Latent Action Tokens(隱式動(dòng)作標(biāo)記),將互聯(lián)網(wǎng)異構(gòu)數(shù)據(jù)中的動(dòng)作知識(shí)遷移到機(jī)器人任務(wù)中,解決高質(zhì)量真機(jī)數(shù)據(jù)不足的問(wèn)題。
Action Expert(動(dòng)作專家):基于 Diffusion Model 生成高頻率、靈活的動(dòng)作序列,確保精細(xì)執(zhí)行。
業(yè)內(nèi)人士認(rèn)為, 其實(shí)GO-1的這個(gè)模型架構(gòu)很簡(jiǎn)單,創(chuàng)新之處并不多,主要是對(duì)已有工作、數(shù)據(jù)和訓(xùn)練方式做了大幅整合。
相比之前的模型,唯一新增的是一層 Latent Planner(隱式規(guī)劃器),但它也就幾層 Transformer,并不復(fù)雜。
相比基座大模型,更重要的是數(shù)據(jù)集 | 圖片智元機(jī)器人官網(wǎng)截圖
地瓜機(jī)器人技術(shù)副總裁隋偉表示,智元的工作直指行業(yè)痛點(diǎn)——數(shù)據(jù)問(wèn)題,對(duì)具身智能行業(yè)有非常好的促進(jìn)作用。不過(guò), 相比大模型,這里面最有價(jià)值的是數(shù)據(jù)集。
據(jù)介紹,GO-1 的底層支撐則是一個(gè)名為 AgiBot World 的超大規(guī)模機(jī)器人數(shù)據(jù)集。據(jù)了解,AgiBot World 數(shù)據(jù)集包含超過(guò) 100 萬(wàn)條軌跡,由 100 個(gè)真實(shí)機(jī)器人收集,涵蓋 100 多個(gè)真實(shí)世界場(chǎng)景和 217 個(gè)具體任務(wù)。
該數(shù)據(jù)集基于 AgiBot G1 硬件平臺(tái)構(gòu)建,由 100 多臺(tái)同構(gòu)機(jī)器人共同收集,提供高質(zhì)量的開(kāi)源機(jī)器人操作數(shù)據(jù),支持解決多種現(xiàn)實(shí)生活場(chǎng)景中的挑戰(zhàn)性任務(wù)。最新版本的 AgiBot World 數(shù)據(jù)集,包含 100 萬(wàn)條軌跡,總時(shí)長(zhǎng)達(dá) 2976.4 小時(shí),覆蓋 87 項(xiàng)技能和 106 個(gè)場(chǎng)景。
同時(shí),AgiBot World 超越了實(shí)驗(yàn)室環(huán)境中的基本桌面任務(wù)(如抓取和放置),專注于涉及雙臂操作、靈巧手和協(xié)作任務(wù)的現(xiàn)實(shí)場(chǎng)景。
與行業(yè)內(nèi)現(xiàn)有的數(shù)據(jù)集(Open X-Embodiment)相比,智元的數(shù)據(jù)在數(shù)量上更為龐大,且數(shù)據(jù)質(zhì)量、規(guī)范性和一致性更好。Open X-Embodiment 數(shù)據(jù)集包含很多不同形態(tài)的本體,數(shù)據(jù)的形態(tài)差異性較大,會(huì)給模型的訓(xùn)練帶來(lái)極大地干擾。
GO-1 成功率大幅領(lǐng)先,平均成功率提高了 32%,但仍未引發(fā)能力的質(zhì)變 | 圖片智元機(jī)器人官網(wǎng)截圖
不過(guò),雖然智元的數(shù)據(jù)集已經(jīng)有一定規(guī)模,仍只是一小步的起點(diǎn),并未帶動(dòng)機(jī)器人能力的顯著提升。
測(cè)試結(jié)果顯示,GO-1 的表現(xiàn)比之前模型已經(jīng)提高了很多,但在倒水(Pour Water)、清理桌面(Table Bussing)和補(bǔ)充飲料(Restock Beverage)的成功率最高仍不到 80%。
隋偉表示, 目前階段,模型并不是機(jī)器人行業(yè)的核心瓶頸。真正的挑戰(zhàn)在于兩個(gè)方面:首先是硬件的收斂問(wèn)題,例如夾爪、靈巧手、觸覺(jué)傳感器等仿生設(shè)計(jì)尚未形成標(biāo)準(zhǔn)化;其次是因?yàn)楸倔w無(wú)法大規(guī)模推廣,導(dǎo)致數(shù)據(jù)量始終存在不足。
目前,在數(shù)據(jù)采集方面,機(jī)器人業(yè)內(nèi)主要依賴遙操作技術(shù),包括虛擬現(xiàn)實(shí)(VR)設(shè)備、同構(gòu)背帶式設(shè)備以及運(yùn)動(dòng)捕捉設(shè)備等。然而, 機(jī)器人行業(yè)的數(shù)據(jù)采集成本較高,且缺乏明確的商業(yè)價(jià)值支撐,這導(dǎo)致數(shù)據(jù)閉環(huán)的飛輪難以快速運(yùn)轉(zhuǎn)。
相比之下,自動(dòng)駕駛行業(yè)的數(shù)據(jù)采集成本幾乎可以忽略不計(jì),其通過(guò)車載感知系統(tǒng)能夠源源不斷地回傳數(shù)據(jù),形成了高效的數(shù)據(jù)閉環(huán)。
在 GO-1 發(fā)布視頻的最后,大家發(fā)現(xiàn)了一個(gè)彩蛋——智元機(jī)器人預(yù)告了下一個(gè)具身智能機(jī)器人產(chǎn)品,盡管具體時(shí)間尚未公布。然而,緊接著稚暉君在微博上發(fā)文稱,「明天還有驚喜」,這一消息瞬間讓業(yè)界再次充滿了期待感。
大模型的興起,讓 AI 行業(yè)獲得了爆發(fā)式進(jìn)化。大模型對(duì)于機(jī)器人和具身智能行業(yè),到底能有這樣的促進(jìn)作用,也讓人們格外好奇。智元和創(chuàng)始人稚暉君的 GO-1,看起來(lái)是個(gè)很好的起點(diǎn),顯然具身 AI 很難由一家公司獨(dú)立完成,只有開(kāi)源合作,才有可能真正實(shí)現(xiàn)機(jī)器人行業(yè)的快速進(jìn)化。
頭圖智元機(jī)器人官網(wǎng)截圖
Copyright 2025 //m.ahlmtdl.com/ 版權(quán)所有 豫ICP備2021037741號(hào)-1 網(wǎng)站地圖