虎嗅科技組作者|余楊編輯|苗正卿頭圖|視覺中國6月28日消息,在谷歌的最新播客中,機器人在Gemini人工智能技術的加持下,未經教授就完成了一次“扣籃”動作,展現出迅速適應新場景的能力。兩天前的洛杉磯,運行著GeminiRoboticsOn-Device模型的機器人還在RSS2025(機器人軟件與系統大會)上完成了全球首個互動式現場展示。
硅谷AI觀察人士TedXiao表示,“它仿佛是對未來的神奇一瞥——只需與你的機器人對話,它就會做出適當的回應,并嘗試執行一些合理的操作。
新的物體、新的命令、新的技能?!惫雀鐶eminiRoboticsOn-Device模型發布于6月24日,AI被引入了機器人,在整個過程中不需要持續的互聯網連接,機器人實現了脫機工作。
谷歌在X上表示,這是自己首個“視覺-語言-動作”模型,旨在能夠幫助機器人更快、更高效地適應新任務和新環境。如果我們稍加回憶,今年2月底,Figure發布的“歷史上最重大的人工智能更新”——Helix也是一款用于通用人形機器人控制的“視覺-語言-動作”(VLA)模型。不同的是,由于谷歌家的這款模型獨立于數據網絡運行,它對延遲敏感的應用程序很有幫助,并確保了間歇性或零連接環境中的穩健性。事實上,早在今年3月,谷歌就推出了第一代VLA(視覺語言動作)模型GeminiRobotics,將Gemini2.0的多模態推理和現實世界理解帶入物理世界。而作為雙臂機器人的基礎模型的新選手GeminiRoboticsOn-Device,除了最大限度減少計算資源需求之外,主要解決3個問題:靈巧操作、新任務的微調和適應、基于本地運行的低延遲快速推理。
官方演示視頻中,這一對靈巧手不僅可以拿起一支筆,還可以相互配合拔掉筆蓋。在接下來的測試中,這一對靈巧手完成了“放置藍色的磚塊”、“拉開中間的抽屜”和“歸位‘梨’模型”的任務,顯示出強大的視覺、語義和行為泛化能力,并且僅僅依賴自然語言指令——“Canyouclosethemiddledrawer”?演示之外,基礎跑分數據上,GeminiRoboticsOn-Device也有不俗的表現。
首先是泛化能力,谷歌直接拉出了“當家花旦”——旗艦GeminiRobotics模型和PreviousBestOn-Device模型進行比拼。結果上,GeminiRoboticsOn-Device雖然略低于旗艦產品的表現,但也超出之前最好的離線模型一大截。而在分布式任務和復雜的多步驟指令方面,GeminiRoboticsOn-Device模型的表現也優于其他設備端替代方案。
早在2月Figure的相關文章中就曾提到,“與受控的工業環境不同,家里堆滿了無數的物品——精致的玻璃器皿、皺巴巴的衣服、散落的玩具——每件物品都有不可預測的形狀、大小、顏色和紋理。為了讓機器人在家庭中發揮作用,它們需要能夠按需產生智能的新行為,尤其是對它們從未見過的物體。”機器人技術上的一大難題在于,舉一反一簡單,舉一反三并不容易。如何處理在訓練樣本中從未見過的任務,直接反映了機器人對新任務的適應能力。
Figure家的Helix給出的解法是使用一組神經網絡權重來學習所有行為,建立了兩個可以通信的“系統1、系統2”來分別完成“想”和“干”,而無需任何針對特定任務的微調。而GeminiRoboticsOn-Device給開發者提供了微調的選擇,通過50到100次演示即可快速適應新任務。
微調任務的跑分如下:在喂了GeminiRoboticsOn-Device100個以內的示例之后,它展現出了如上圖所示的適應能力。
谷歌還公布了這一性能的演示,并將其進一步調整到了雙臂FrankaFR3機器人和Apptronik的Apollo人形機器人中。在雙臂Franka上,該模型執行通用指令,可以處理以前未見過的物體和場景、完成折疊衣服等靈巧的任務,包括需要精確度和靈巧性的工業皮帶組裝任務。在阿波羅人形機器人上同樣如此,通用模型可以遵循自然語言指令,以通用的方式操控不同的物體,包括之前從未見過的物體。
對此,有網友認為,谷歌的脫機AI機器人存在改變游戲規則的可能性。當然,也有網友并不買賬。
提問這和特斯拉機器人的設計有什么不同,又和ylecun在Meta所做的工作有什么不一樣。在機器人/具身智能這個賽道,各家大模型正在“八仙過?!?,技術向度展現出了多樣性和豐富性,但最終指向了同一個命題——如何讓AI在三維物理世界建立真正的因果認知。
或許正如谷歌在技術白皮書中所寫:“機器人不應是人類的模仿者,而應成為物理世界的解讀者”。本內容為作者獨立觀點,不代表虎嗅立場。未經允許不得轉載,授權事宜請聯系hezuo@huxiu.com本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4517311.html?f=wyxwapp