正在加載數據...
        1. 高端制造|生態環保|汽車|房地產|家居建材|家電|服裝|時尚前沿|健康|醫藥|教育培訓|能源化工|文旅

          航旅交運|食品飲品|科技|互聯網|手機通信|電子|商業|金融保險|證券|安防|人工智能|鄉村振興|綜合

        2. 當前位置:南方企業新聞網>要聞> 經營參考>正文內容
          • 數據“燃料”催化具身智能:訓練工廠涌現 行業加速破局
          • 2025年06月28日來源:中國證券報

          提要:記者先后探訪了兩家具身智能數據采集工廠,了解其技術手段以及數據賦能產業的方式。行業專家表示,具身智能數據采集工廠的建設剛剛起步,未來需要與產業需求結合,同時具身智能數據采集的統一與規范是加速行業發展的基礎。

          數據被稱為具身智能產業發展的“燃料”。近日,帕西尼具身智能超級數據工廠(Super EID Factory)在天津空天數字產業園投用。帕西尼感知科技創始人兼CEO許晉誠告訴記者,數據的短缺是目前具身智能發展面臨的瓶頸,目前具身智能產業可用的數據量僅為大語言模型可用數據量的幾百分之一。

          目前,國內多地建立具身智能數據采集工廠,有帕西尼在天津的工廠、智元機器人在上海的工廠,以及北京具身智能機器人創新中心的工廠。記者先后探訪了兩家具身智能數據采集工廠,了解其技術手段以及數據賦能產業的方式。行業專家表示,具身智能數據采集工廠的建設剛剛起步,未來需要與產業需求結合,同時具身智能數據采集的統一與規范是加速行業發展的基礎。

          生產數據的“超級工廠”

          在天津空天數字產業園,帕西尼極具現代感的銀灰色建筑格外顯眼。在這座12000平方米的工廠內,生產的核心產品不是實體,而是“數據”。

          數據被稱為具身智能產業發展的“燃料”。“從數據中進行模仿學習是具身智能模型進化的最具潛力途徑之一。”許晉誠對記者表示,相比今年實現突破性進展的DeepSeek等大語言模型,具身智能目前能使用的數據量僅為大語言模型的幾百分之一。

          “現在的大語言模型使用的數據規模達到十萬億級,具身智能大模型的數據規模差不多在百萬量級。數據的短缺是目前具身智能發展面臨的瓶頸。”許晉誠說。

          在帕西尼天津數據工廠的大廳,覆蓋了一整面墻的大屏幕上顯示著工廠的數據采集情況。屏幕上顯示的數據每三秒刷新一次,當天屏幕顯示,工廠的數據合格率達到92%以上。許晉誠表示,目前帕西尼天津數據工廠每天最多可采集55萬條數據,預計工廠每年可生產高質量數據2億條。

          高工機器人產業研究所所長盧瀚宸告訴記者,訓練具身智能大模型的數據主要分為仿真合成數據和真實數據兩大類,還有一些廠商采用低成本的互聯網數據用于機器學習。“真實數據采集的成本最高、采集難度最大,但質量最好,是目前具身智能產業發展最需要的資源。”

          在上海浦東,占地3000平方米的智元數據采集中心已于2024年9月啟動。記者近期實地探訪看到,百臺機器人在不同場景中忙碌作業,有的機器人上下揮舞機器手臂在滾動的傳送帶上熟練分揀物品,有的機器人擺動著機械雙手在數據采集員的動作指導下靈活折疊衣物,還有的機器人化身收銀員,站在商場柜臺后對商品進行掃碼結算。

          智元機器人合伙人姚卯青介紹,智元數據采集中心已累計采集超百萬條高質量數據,覆蓋家居、餐飲、工業、商超和辦公五大類真實場景。

          盧瀚宸認為,不同于大語言模型的訓練已經出現階段性突破,具身智能領域尚無人能證明通過大規模的數據訓練“復現”大語言模型的成功。但要讓具身智能機器人更“智能”,可應用于更多場景,必須通過大量數據采集和大模型的訓練。同時,具身智能的數據采集必須與產業需求結合,方能實現數據采集的閉環,讓數據采集有“用武之地”。

          數據采集方式各異

          廠商對真實數據的采集方式也有不同。

          在帕西尼天津數據工廠,數據采集員們正在進行各類原動作的采集,比如超市商品掃碼、清理枕頭、擺放餐具等。一名采集員穿戴數據采集設備PMEC,一邊進行著擺放瓷盤、瓷筷的動作,一邊查看數據生成情況。

          這種由采集員直接穿戴硬件設備采集數據的方式稱為“人類數據采集”。許晉誠認為,人類數據采集的方法具備獨特優勢,包括更高的效率和經濟性,以及能直接采集稀缺的人類觸覺模態數據。

          帕西尼基于在多維度陣列式觸覺感知領域的技術積累和量產經驗,自主研發了PMEC超采技術。數據采集員雙手穿戴具有手部全運動自由度和全觸覺信號覆蓋采集功能的硬件設備,獲取操作動作所涉及的多視角視覺、觸覺、接觸點位姿等信息。這些原始信息經過帕西尼TacFlow Engine工具進行后處理,最后用于VTLA具身智能大模型或HyperCosmos世界模型的預訓練。

          “目前機器人普遍掌握的動作是抓取、擺放。要應用到更多場景,我們需要把場景中的長程任務拆分成更加細化的工序,甚至是原子動作,目前,機器人執行任務的原子動作庫還遠遠不夠。”許晉誠表示。

          數據采集間內的訓練就是要增加機器人所掌握的原子級技能,從而實現更多精細復雜的任務,如擰螺絲、折疊、熨燙、舀取、切割等。“我們把這些動作進行采集,訓練成技能,變成模型,最終給到機器人使用。”許晉誠告訴記者,目前帕西尼天津數據工廠已完成上百種任務的采集,千種任務預計一年內可采集完成。

          智元機器人主要采用了機器人遙操作采集方法。在一家飲品店的訓練場景下,數據采集員操作著機械臂重復著抓取飲品杯、放入托盤、裝入打包袋、打包吸管等動作。姚卯青介紹,為采集一條有效數據,每次物品擺放位置都需調整,每完成10次操作還要更換包裝袋和飲品杯樣式,每天重復采集約200條數據,直到機器人學會這項工作。每個場景采集上百遍數據,可以提升機器人執行任務的魯棒性。

          此外,智元機器人于今年3月發布了通用具身基座模型——智元啟元大模型(GO-1),加速了數據訓練的效率,借助大模型的泛化推理能力,大幅減少機器人學習一項任務所需的數據采集量。

          數據采集規范仍是痛點

          如何讓具身智能產業可用數據規模快速擴充,盡快推動產業發展,帕西尼和智元機器人都選擇構建開放生態。帕西尼天津數據工廠的具身智能訓練數據,可應用于多模態、跨本體、跨任務、跨場景的具身智能擴散模型之中。

          2024年12月,智元機器人開源了行業首個基于全域真實場景、全能硬件平臺、全程質量把控的百萬真機數據集AgiBot World。截至目前,AgiBot World已被全球多家科技企業用于最新具身模型的開發當中。

          但具身智能數據的標準化問題仍是行業痛點。埃夫特董事長游瑋對記者表示,由于缺乏數據采集規范,當前采集的一些機器人訓練數據難以被遷移和復用。游瑋表示,只有提升數據采集規范,使高質量數據可以復用,構建起足夠規模和質量的數據資源庫,才能形成合力,推動機器人產業持續進階,更廣泛地落地應用。

          盧瀚宸認為,數據標準化和質量提升是具身智能產業發展的關鍵,但這一過程并不容易實現,數據歸屬、復用、定價等問題仍未解決。

          為推動具身智能數據采集的高效利用,許晉誠表示,帕西尼目前正在參與訂立數據采集方面的標準,并將于近期發布。



          版權及免責聲明:
          1. 任何單位或個人認為南方企業新聞網的內容可能涉嫌侵犯其合法權益,應及時向南方企業新聞網書面反饋,并提供相關證明材料和理由,本網站在收到上述文件并審核后,會采取相應處理措施。
          2. 南方企業新聞網對于任何包含、經由鏈接、下載或其它途徑所獲得的有關本網站的任何內容、信息或廣告,不聲明或保證其正確性或可靠性。用戶自行承擔使用本網站的風險。
          3. 如因版權和其它問題需要同本網聯系的,請在文章刊發后30日內進行。聯系電話:01083834755 郵箱:news@senn.com.cn

          責任編輯:周峰菊
          相關新聞更多
            沒有關鍵字相關信息!
          文章排行榜
          官方微博