- 人形機器人“練級”:現在已是什么段位?如何突破“GPT時刻”
- 2025年08月12日來源:中國網
提要:陳建宇也同樣認為,強化學習是一條可行路徑。同時,他對記者表示,不同的機器人,自由度、模型的輸出維度、傳感的類型可能都不一樣,在預訓練中盡量去使用與具體本體無關的數據,比如說人的通用數據,再到真機上進行調整,在形態相對比較接近的本體上可以達到較好的遷移水平。
在2025世界機器人大會上,一幕幕生動的場景正在上演:工作人員一聲指令“跟著前面這位穿白衣服背著包的人”,人形機器人便穩健穿行于人群,精準跟隨;輪式人形機器人絲滑“漂移”搬運箱子,甚至“一心二用”同時取送兩瓶飲料;兼具迎賓講解、調酒、分裝爆米花、端盤子等多面手能力;工業人形機器人集群通過網絡協同,實現物料入庫搬運到智能分揀的全流程作業……
伴隨著VLA(Vision Language Action,視覺語言動作)模型與端到端技術的快速成熟,人形機器人技能庫日益齊備。在這場工作技能的“練級”之旅中,人形機器人現在已經達到了什么段位?未來又將達到什么水平?如何突破自己的“ChatGPT”時刻?
“干活”到了哪一層?
當格斗或舞蹈機器人偶發倒地時,觀眾不再嘲笑,轉而關注其迅速起身的類人動作。行業焦點已從去年的“能干活”躍升至今年的“干好活”——追求成功率與效率。
擎朗智能具身智能實驗室負責人鄧強文對澎湃新聞記者表示,在相對少泛化的一些場景中,人形機器人目前完成簡單的任務是沒問題的,“比如預掃描出一個家庭的房間,標好哪里是廚房,哪里是客廳,哪里是房間,我們和它說渴了,它就知道要去廚房拿一瓶水”,但如果在一個相對開放的環境中,讓機器人自己去看、去理解認知,目前難度還是很高的。
鄧強文介紹稱,擎朗智能把每個機器人的“崗位”都進行精準細化,把每個崗位的SOP(標準作業程序)和驗收標準都進行規范,從基礎的抓、捏、按壓等技能開始訓練,再將其組合起來,實現了在不同的機器人之間的相互轉化。
此次大會期間,擎朗智能的具身服務機器人XMAN入駐了全球首家具身智能機器人4S店Robot Mall及全球首家機器人餐廳“機器人焰究所”,可根據客戶的選擇,提供不同風味的小零食服務,以擬人化的動作流暢完成零食鏟出、分裝等一系列操作。
銀河通用的具身大模型機器人Galbot也在本次大會迎來“升級”。銀河通用攜手英偉達聯合首發了搭載Jetson AGX THOR芯片的機器人應用,Galbot也成為全球首臺體內部署Thor芯片的機器人,并完成了工業場景的應用。從序廳的端到端具身大模型技術實景演示,到自主展位覆蓋商業、工業及城市服務的全場景應用,再到會客廳的真實商業售賣,機器人全程無遙操、高效運行。
從實際落地應用情況來看,銀河通用已在數十家約40平方米的門店內部署人形機器人并常態化運營,單“人”管理超5000種藥品和6000個貨道。同時,銀河通用也已與多家汽車制造商展開合作,在多個生產線進行分揀、搬運等環節的人形機器人實際落地測試。
穹徹智能聯合創始人、上海交通大學人工智能學院副院長盧策吾在接受澎湃新聞等媒體采訪時指出,大眾要感覺機器人“有用”,就是要有一批技能相對成熟,能夠解決實際場景的問題。
盧策吾也透露:“可能大家今天能看到的主要還是抓取類的,但其實像食材處理,比如串關東煮、做冰淇淋這類技能,其實技術上是可以實現,能夠馬上進入生活的”。
硬件已經基本達到人的水平
優必選在此次大會把工廠流水線給搬了過來,展示了多臺、多類機器人,從物料入庫搬運到智能分揀的全流程協同作業,以及工業人形機器人集群的復雜動態隨機分揀。
在人滿為患的展臺的二樓,優必選首席品牌官譚旻向澎湃新聞記者闡述了對于公司工業人形機器人的發展規劃:兩年后能達到人類80%的工作效率,加之自主換電能夠實現24小時工作,帶來更大的生產力提升,“明年再來肯定不同”。
目前,優必選已與多家車企、富士康、順豐等企業合作,在汽車制造、精密制造、智慧物流三大場景完成了工業人形機器人的部署。譚旻透露,優必選今年還將在汽車制造領域交付500臺工業人形機器人,并將在教育科研領域交付超300臺天工行者人形機器人,今年將努力完成1000臺左右的交付,“隨著機器人能力的逐步實現,會有更多的訂單”。
對于人形機器人的“工作”能力,星動紀元創始人陳建宇更為樂觀。陳建宇在接受澎湃新聞等媒體采訪時表示,人形機器人已在部分的真實工業場景達到了大約人類70%的效率,2026年或將能達到90%,“實際上硬件已經能基本完全達到人的水平了,現在處在軟件和硬件的打磨階段。假以時日,我相信是能達到人類的水平,甚至有可能超人類的水平”。
長遠來看,譚旻認為,未來進入家庭的服務機器人,一定是“All in One”的,是個既能補習又會下廚,還能按摩打掃的通用機器人。
宇樹科技創始人、CEO王興興有更清晰的藍圖,他表示,“如果哪一天我們帶一個人形機器人到會場,而且它沒有見過這個會場。我隨便和它說一句話幫忙把這瓶水帶給某個觀眾,它可以比較順暢地自己走過去,流暢地把這個事情干了,就達到了機器人的ChatGPT時刻”。
他表示,這一時刻未來1-2年或2-3年很有可能實現,慢的話估計3-5年能實現。
瓶頸:軟硬件皆困于泛化
“泛化能力不足”是規模化應用的核心瓶頸。
王興興指出,目前機器人最大的問題在于模型的泛化還不夠,硬件其實完全夠用。在大語言模型領域,有足夠多的數據,尤其有足夠多好的數據時,就能把模型訓練得越來越好,但在具身智能和機器人領域,反而會發現,哪怕采集了大量的數據,把機器人的數據訓練出來并部署到實物機器上,發現二者并沒有辦法很好的對齊。
陳建宇也指出,泛化能力更重要是在“大腦”上,但運動控制也需要更好的泛化,運動控制是保證所有的動作都能精準柔順達到的底層支撐。相對而言,“大腦”的泛化難度會更高一些。
譚旻也指出,在機器本體沒有收攏標準化的前提下,仿真數據訓練也無法真正復用和泛化。
智平方創始人兼CEO郭彥東同樣認為,過去買一個機器人可能需要幾百萬元,現在只需要一萬元就可以得到一個最基本的人形機器人型號,硬件成本變得越來越低。“我們需要又可靠同時又便宜的硬件,可以讓這些硬件放在真實世界里,越快部署越好,同時,硬件必須要有一致性,比如生產100萬臺機器人,邏輯就完全不一樣了”。
國家地方共建人形機器人創新中心首席科學家江磊一言道出,目前人形機器人的現狀是“大腦模型不夠大,小腦模型不夠小”,存在感知局限、決策斷層、泛化瓶頸三大問題,“如果一個具身智能沒有思考跟進化能力,它還是具身智能嗎?”
如何破局?
針對上述難題,行業正積極探索突破路徑。
王興興分享了幾條可能路徑,他認為,VLA模型加上RL(強化學習)訓練是其中之一,但目前嘗試下來還是不夠,模型架構還是得升級優化;或是讓視頻生成模型先生成一個機器人動作的視頻,再控制機器人去做,“這條路線可能比VLA模型更快收斂,概率更大”。
他認為,未來2-5年,最大的方向會集中在端到端具身智能模型、更低成本更高壽命的硬件以及更低成本更大規模的算力三方面。
陳建宇也同樣認為,強化學習是一條可行路徑。同時,他對記者表示,不同的機器人,自由度、模型的輸出維度、傳感的類型可能都不一樣,在預訓練中盡量去使用與具體本體無關的數據,比如說人的通用數據,再到真機上進行調整,在形態相對比較接近的本體上可以達到較好的遷移水平。
陳建宇還表示,星動紀元此前曾完成的全球首個世界模型和生成式模型的融合,接下來可能將會成為業內的新共識。
盧策吾更為通俗地向記者進行了解釋,所謂泛化性,就是消除不確定性,“每消掉一個不確定性,它發展能力就會提高,整個‘大腦’就能像解方程一樣,把變量定住”。現在的VLA不確定性還特別大,有點像“大海撈針”,我們要一步一步加上各種技術,使到它變成“甕中捉鱉”,“我們現在抓一個東西,范圍很大,我們不停地加上限制的話,它的捕捉空間就會縮小,縮小到最后就能把東西抓住。其實都是逐漸去收窄VLA的不確定性,改到最后大家是不是叫VLA也不重要了”。
穹徹智能一直堅持“以力為中心”。
江磊表示:“大家總感覺3D模型不‘解渴’,VLA似乎不能代表未來,但是就是有了VLA,就像我們行業的貢獻者和引路者,促進整個行業往前發展……軟硬一體化的AI是我們真正需要的,機器人本體一定是大腦、小腦與肢體一體的,要打造感知、認知、決策、執行的閉環。”
他進一步提出,具身智能不是現在“大腦+小腦”的方向,要打造未來的方向,比如通過生物仿生來提出具身智能的基礎模型。
人形機器人正從功能演示邁向高效執行,潛力在工業與家庭場景中也日益顯現。軟硬件融合的閉環系統,或將是解鎖機器人“通用”的鑰匙,讓機器人能從“干好活”進化到“無處不在的助手”。
版權及免責聲明:
1. 任何單位或個人認為南方企業新聞網的內容可能涉嫌侵犯其合法權益,應及時向南方企業新聞網書面反饋,并提供相關證明材料和理由,本網站在收到上述文件并審核后,會采取相應處理措施。
2. 南方企業新聞網對于任何包含、經由鏈接、下載或其它途徑所獲得的有關本網站的任何內容、信息或廣告,不聲明或保證其正確性或可靠性。用戶自行承擔使用本網站的風險。
3. 如因版權和其它問題需要同本網聯系的,請在文章刊發后30日內進行。聯系電話:01083834755 郵箱:news@senn.com.cn