高盛預計到2027年全球人形機器人出貨量將達到7.6萬臺,到2035年將飆升至138萬臺。大家聚焦於人形機器人浪潮下的一個關鍵領域,視覺感知系統純RGB攝像頭的方案對演算法的要求更高,而ToF相機或鐳射雷達的使用,則能實現更精確、穩定和可靠的感知。
純視覺派(特斯拉Optimus)
硬體配置:採用3組RGB攝像頭(200萬像素/60FPS),依賴純視覺深度學習神經網路實現物體識別與姿態估計。
演算法優勢:通過BEV(鳥瞰圖)+佔用網路(Occupancy Network)構建三維語義場,大幅降低對鐳射雷達的依賴,單套方案成本控制在50美元以內。
局限性:在低光、雨霧等複雜環境中識別率下降30%,需依賴Dojo超算持續優化(2024年算力達100 Exa-FLOPS)。
多模態融合派(波士頓動力)
感測器組合:ToF(±1mm精度)+固態鐳射雷達(如禾賽AT512,探測距離30m)+熱成像(FLIR Boson 640解析度),適用於工業檢測(華為方案故障檢出率99.97%)和夜間安防場景。
成本痛點:單機感測器成本超5000美元,但精度優勢顯著。
短期爆發點:禾賽科技(鐳射雷達)、奧比中光(ToF模組)受益於感測器滲透率從0到1的提升。
特斯拉憑藉Dojo超算和FSD演算法形成閉環,Optimus視覺系統複用率達70%。