深圳新聞網(wǎng)2026年1月21日訊(記者 王睿)近日,星塵智能與清華、港大、MIT聯(lián)合提出基于對比學習的隱空間動作預訓練(Contrastive Latent Action Pretraining, CLAP)框架。這個框架能夠?qū)⒁曨l中提純的運動空間與機器人的動作空間進行對齊,也就是說,機器人能夠直接從視頻中學習技能。相關研究論文已上線arXiv。
長期以來,機器人學習面臨著一個令人頭疼的“數(shù)據(jù)饑荒”難題:互聯(lián)網(wǎng)上有著數(shù)以億計的人類行為視頻,但專門用于訓練機器人的數(shù)據(jù)卻寥寥無幾。這種數(shù)據(jù)不對稱現(xiàn)象的根源在于,收集機器人操作數(shù)據(jù)需要昂貴的硬件設備、專業(yè)的操作環(huán)境,以及大量的人工標注工作,成本高昂且效率低下。相比之下,人類行為視頻數(shù)據(jù)雖然豐富,但由于視覺表征與機器人動作空間之間存在巨大的語義鴻溝,傳統(tǒng)方法難以有效利用這些資源。
現(xiàn)有的潛在動作模型(Latent Action Models)試圖利用視頻數(shù)據(jù),但往往會遭遇“視覺糾纏”(visual entanglement)問題——模型學到的更多是與實際操控無關的視覺噪聲,而非真實的操控技能。
CLAP框架的核心創(chuàng)新正是解決了這一長期困擾業(yè)界的技術(shù)瓶頸。該框架能夠?qū)⒁曨l中提純的運動空間與機器人的動作空間進行對齊,有效避免了以往潛在動作模型中普遍存在的"視覺糾纏"問題。通過對比學習,CLAP 將視頻中的狀態(tài)轉(zhuǎn)移映射到一個量化的、物理上可執(zhí)行的動作碼本上。
研究團隊基于兩種VLA建模范式進行訓練:其一是 CLAP-NTP,一種自回歸模型,在指令跟隨與對象泛化方面表現(xiàn)突出;其二是 CLAP-RF,一種基于 Rectified Flow 的策略,面向高頻率、精細化的操控。
這一技術(shù)突破的實際意義體現(xiàn)在多個層面。首先,從數(shù)據(jù)利用效率來看,CLAP框架使得機器人能夠從YouTube、抖音等平臺上的海量視頻中學習技能,極大擴展了可用訓練數(shù)據(jù)的規(guī)模。其次,從成本效益角度分析,這種“看視頻學技能”的方式顯著降低了機器人技能獲取的門檻。
此外,該框架還解決了機器人學習中的一個關鍵技術(shù)挑戰(zhàn)——知識遷移問題。通過知識匹配(Knowledge Matching, KM)正則化策略,CLAP有效緩解了模型微調(diào)過程中的災難性遺忘現(xiàn)象,確保機器人在學習新技能的同時不會丟失已掌握的能力。大量實驗表明,CLAP 顯著優(yōu)于強基線方法,使得從人類視頻中學習到的技能能夠有效遷移到機器人執(zhí)行中。
從產(chǎn)業(yè)應用前景來看,CLAP框架的長期價值不僅在于技術(shù)創(chuàng)新,更在于其對機器人產(chǎn)業(yè)化進程的推動作用。當機器人能夠通過觀看視頻快速掌握新技能時,企業(yè)部署機器人的成本和周期將大幅降低,這有望加速機器人在服務業(yè)、制造業(yè)等領域的規(guī)?;瘧?。
論文標題:CLAP: Contrastive Latent Action Pretraining for Learning Vision-Language-Action Models from Human Videos
論文地址:https://arxiv.org/abs/2601.04061
項目地址:https://lin-shan.com/CLAP/#