目前的人形機器人,如波士頓動力的Atlas和擎天柱等,只能處理單點任務,缺乏自主判斷下一個任務的能力。這主要是因為高質量數據的稀缺,導致機器人在完成一個任務後無法有效泛化到其他任務。
採集真實數據需要大量時間和資金。例如,Agility旗下的Digit機器人雖然在亞馬遜工廠有豐富的場景數據,但其首席技術官Pras Velagapudi仍表示數據稀缺性和多變性是關鍵挑戰。
機器人學習新技能的效率低,每次學習新任務都需要大量重新訓練。例如,機器人學會拿蘋果後,再學習取盤子又需要重新訓練。
數據採集方式的局限性:
機器人通過自己的感測器與物理世界直接交互,但大多數機器人受限於運動技術水準,只能在實驗室環境中操作,難以通過規模化方式高效完成數據採集。
通過人類操作讓機器人與物理世界接觸並記錄,但這種方式成本高昂。例如,炒菜機器人Aloha採用兩個機械臂互相鏡像的方式收集數據,每個機械臂成本約5000美元,至少需要4個機械臂,成本高達2萬美金。
英偉達Cosmos的突破
Nvda 的Cosmos平臺:Cosmos通過文本、圖像或視頻的提示生成高度仿真的虛擬世界,基於2000萬小時的視頻進行訓練,分為自回歸模型和擴散模型兩類。
理解物理世界:Cosmos能夠理解幾何空間、摩擦力和重力,壓縮虛擬與現實之間的差距,幫助人形機器人解決高質量數據稀缺的問題,創建逼真的環境和感知物體。
與Omniverse平臺聯合使用:
開發者可以基於Omniverse創建虛擬的三維場景,再疊加使用Cosmos生成與真實世界高度相似的場景,用於模型訓練。
Cosmos以最低的成本縮小虛擬數據與物理世界數據的誤差,幫助人形機器人在更短的時間內獲得更多的高質量數據。
合成數據與真實數據的互補:
儘管合成數據在許多場景中被廣泛使用,但過度依賴合成數據可能導致模型品質和多樣性下降。
合成數據與真實數據各有優勢,是一種互補關係。黃仁勳表示,自動駕駛應盡可能使用真實數據,同時讚賞特斯拉汽車工廠擁有大量行駛數據。
結論
英偉達的Cosmos平臺通過生成高質量的合成數據,幫助人形機器人解決了數據採集中的高成本和低效率問題,為人形機器人的泛化能力提供了重要支持。