上海交大人工智能学院卢策吾团队:让数据采集从”专业工具”走向”全民参与”
2026/01/17
在人工智能快速发展的今天,具身智能正成为下一个重要突破口。学院卢策吾教授团队长期深耕具身智能领域,联合穹彻研发RoboPocket,用创新思维重新定义具身智能数据采集的范式。这套可搭载手机的数采终端及其配套应用程序,让每个普通人都能上手,边采边筛,只投喂机器人“爱吃的”,采出来的数据“不脏也不废”,已经在实际模型训练中跑出了效果。
一部手机,加一个“夹爪”,就能随时随地完成具身智能数据采集!
采出来的数据不脏也不废,已经在实际模型训练中跑出了效果!
模型需求前置到采集一线,让你随时接入模型的训练闭环!
具身数据一天比一天多了,结果训练效率出现不升反降情况,怎么破?
如果模型训练最终还是要根据数据结构做判断与筛选,那么为什么这件事不能在数据采集阶段就发生?
问:当前具身模型在规模化升级过程中,数据环节主要面临哪些困境?数采厂和现有UMI方案都没能很好解决问题的核心原因是什么?
卢策吾团队:具身模型规模化卡在数据采集的“真实性与质量平衡”难题,数采厂和传统UMI各有局限且无法突破核心困境。
具体来看,在具身智能领域,高质量、多样化数据的重要性已成共识,但数据采集长期面临困境。2023年起,各团队大规模建设数采厂以实现数据规模化生产,却出现数据量攀升而模型能力未稳定提升的问题。因数采厂依赖预设场景和标准化流程,难以覆盖真实世界中非标准、非重复的操作情境,导致数据高度相似、训练收益边际递减,甚至出现训练效率不升反降的情况。在此背景下,轻量便携的UMI应运而生,突破了固定场地限制,能采集贴近现实分布的数据,弥补了数采厂与真实世界的差距,但大规模应用后又面临质量控制难题,大量低价值数据需在后处理阶段才能甄别,推高成本并拉长训练周期,形成采集质量、使用便捷性与后处理压力的“不可能三角”。
问:针对现有UMI方案“采得的数据能不能用”的核心痛点,团队是从什么角度找到突破方向的?RoboPocket的核心设想是什么?
卢策吾团队:突破方向从第一性原理出发将数据筛选前置,核心设想落地为RoboPocket,破解“采得即用”难题。
现有UMI方案未能解决“采得的数据能不能用”这一核心问题,为此我们团队从第一性原理出发重新探索,提出关键设想:既然模型训练最终需依据数据结构判断筛选,为何不将这一环节前置到数据采集阶段?这一问题此前未被行业直面解决,因解决它需全面调整采集逻辑、平台架构等诸多层面。而RoboPocket的出现,首次将这一设想转化为现实,为破解具身智能数据采集困境提供了新路径。
问:RoboPocket内置的“数据价值中枢系统”是核心亮点,能否具体介绍一下这个系统的作用?它与传统UMI的采集逻辑有何本质区别?
卢策吾团队:核心优势是内置“数据价值中枢系统”,颠覆传统采后筛选逻辑,从根源把控高价值数据。
相较于传统UMI默认“记录人类操作行为”的采集目标,RoboPocket的核心改变是将采集目标转向模型能力缺口,聚焦模型未掌握的高价值数据。依托我们团队对具身模型训练与数据闭环的深厚积累,其内置实时“数据价值中枢系统”,打破传统数据采后筛选模式,在采集当下即可完成判断,从根源规避重复、低价值数据问题,这一能力依赖对模型的长期理解,难以复制。采集过程中,系统同步实现实时评估、即时引导、动态调度三大动作,精准把控数据质量、纠正操作偏差,并结合模型表现分发高优先级任务,如同24小时待命的数据采集主理人。
问:基于RoboPocket采集的数据进行训练,模型能获得哪些具体提升?在实际任务中的表现如何?
卢策吾团队:训练优势显著,可推动模型在复杂非理想环境中稳定可靠完成任务,提升数据系统运行效率。
RoboPocket采集的数据在训练中优势显著,尤其在开放复杂环境多步骤任务中,模型执行稳定性更强,能精准识别上下文意图,在光照、背景变化等干扰下仍保持清晰目标推进逻辑,双臂协同与长序列操作能力卓越,零食分拣、毛巾折叠等任务可稳定高效完成,复杂场景下成功率与一致性较高。这推动模型从“粗糙完成任务”向“非理想条件下可靠完成任务”演进,更让数据采集成为面向模型能力补齐的闭环行为,通过与训练联动显著提升整个数据系统的运行效率。
问:从行业发展视角来看,RoboPocket的出现对具身智能数据采集领域意味着什么?它推动行业迎来了怎样的范式转变?
卢策吾团队:其意义在于推动具身数据采集从“专业体系”迈向“社会化网络”,实现关键范式转变。
从长期视角看,RoboPocket并非孤立的产品更新,机器人学习的发展本质是数据采集方式持续演进的历史。早期机器人数据依赖少数研究者在实验室封闭环境录制;随具身智能发展,数据走向规模化采集场,团队发布的RH20T实现中国机器人操作数据系统性规模化采集,但仍依赖预设场景。UMI让设备轻量化,采集转向“自然发生”;穹彻CoMiner系统推动机器人走出采集场进入真实世界。这一过程中,具身数据逐步脱离搭建场景,愈发贴近现实,RoboPocket的出现,彻底将采集从特定场所与专业系统推向社会,以手机为节点让普通人参与,实现从“专业体系”到“社会化网络”的范式转变。
问:RoboPocket实现了数据的社会化采集,如何确保普通人的采集行为能精准匹配模型需求?这对行业未来竞争格局会产生哪些影响?
卢策吾团队:核心保障是双重角色+实时调度,可推动行业竞争升级,助力具身智能实现规模化能力涌现。
当然,采什么、怎么采、优先级如何,这些都不是由人随意决定的。RoboPocket并非放任采集,而是承担数据入口与调度中枢的双重角色,前端连接真实世界的分散场景,后端联动任务库、模型训练与评估系统,凭借这套持续在线的判断与调度机制,为数据社会化采集提供了前提条件。这样一来,采集员可以是每一个普通人,但采集行为始终由数据中枢系统根据模型需求统一牵引调度。长远来看,这会推动具身数据从工具竞争迈向体系竞争,谁的数据采集流程更早接入模型反馈、谁的任务设计天然适配训练目标,谁就能更快积累泛化能力与落地鲁棒性。当前行业普遍认为具身智能还在上半场,大家也都期待这个领域能像大模型一样,凭借规模化优势带来能力涌现。
文章来源上海交大,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。
-
2026年6月优质国际学术会议推荐 7
-
2026年第17届机械与航空航天工程 193
-
2026年先进航空航天技术与卫星应用 324
-
2026资源、化学化工与应用材料国际 1808
-
2026年图像处理与数字创意设计国际 1632
-
2026年机械工程,新能源与电气技术 6095
-
2026年材料科学、低碳技术与动力工 1819
-
2026年艺术、文化产业与数字媒体国 04-29
-
2026年智慧教育、教育研究与文化交 04-29
-
2026年数字社会、公共管理与经济学 04-29
-
2026 政务服务、数字治理与智慧城 04-28
-
2026 制冷技术、暖通设备与环境调 04-28
-
2026 轻工材料、绿色制造与循环利 04-28
-
2026 多语言智能、翻译技术与国际 04-28
-
2026 生物育种、生态种植与现代农 04-28
-
中国科协发布2025年《重要学术12
-
2026年新锐分区(原中科院期刊2595
-
2025年两院院士增选有效候选人4402
-
2025最新JCR分区及影响因子12342
-
好学术:科研网址导航|学术头条分5673
-
2025年国际期刊预警名单发布!5837
-
2025年中科院期刊分区表重磅发20812
-
吉林大学校长张希:学术会议中的提6954
-
二维超导迈斯纳效应探测研究获进展04-29
-
研究发现笼目超导体中多重范霍夫奇04-29
-
二氧化碳加氢制高碳烯烃与航煤馏分04-29
-
靶向特定蛋白互作界面抑制乙肝病毒04-29
-
研究揭示内源信使调控膜损伤与细胞04-29
-
科学家绘制大脑星形胶质细胞转录因04-29
-
上海交大Bio-X研究院石毅与合04-29
-
富懋展览(上海)有限公司 8226

-
亚太科学工程学会 23554

-
云南大学 18426

-
世界汉语教学学会 18472

-
杭州宝盛水博园大酒店有限公司 2309

-
北京艾尚国际展览有限公司 24334

-
河北撒学五四路 23193

-
贵州大学绿色农药与农业生物工程国 21413

-
武汉雅森传媒有限公司 8666

-
中国高科技产业化研究会 21450

-
杭州译风会展服务有限公司 18301

-
北京金疆正德国际文化传播有限公司 18443

-
河海大学水利水电学院水工结构研究 21420

-
尚阳盈通北京 18316

-
小儿推拿网 24415

-
Terrapinn Singap 21294

-
APISE 23293

-
西安理工大学 18667

-
沈阳航空工业学院 23423

-
宜昌致尚会务会展有限公司 24275




















190








































