将来将呈现专业的具身数据办事机构,提供 场景定制收罗+数据管理+模子练习撑持 的一体化办事。
文|钱丽娜
ID | BMR2004
于人工智能技能飞速成长的今天,数据作为焦点出产要素,其管理程度直接决议着年夜模子的机能与财产落地的深度。 北京智源人工智能研究院副院长兼总工程师林咏华于2025世界人工智能年夜会暨人工智能全世界管理高级别集会(简称WAIC 2025)时期,接管《商学院》杂志专访时暗示。
作为海内人工智能范畴的领军机构,智源研究院于数据管理范畴深耕多年,构建了一套涵盖审查尺度、治理规范、立异运用的完备系统。从开源数据的质量管控到具身智能的非凡数据管理,从多元数据利用模式到将来贸易模式摸索,智源的实践为行业提供了名贵的参考样本,也深刻展现了数据管理于智能时代的焦点价值。
开源数据因质量乱七八糟、收罗基准缺掉等问题广受诟病,成立科学的数据审查尺度成为行业亟待解决的难题。
智源研究院从隐私掩护、质量过滤、安全管控三个维度,构建了全流程的数据审查系统,为高质量数据运用奠基了基础。
于隐私掩护方面,智源对于所有收罗的数据实施 两重筛查 机制。对于在互助方提供的数据集,起首区别其利用权限 哪些可用在模子练习但不成开源,哪些可部门开源,哪些彻底禁止对于外披露。例如,某企业提供的用户举动数据,颠末脱敏处置惩罚后可用在模子练习,但原始数据因触及小我私家隐私被严酷限定于内部利用。这类分类处置惩罚既保障了数据的使用价值,又守住了隐私掩护的红线。
数据质量过滤则依托技能手腕实现尺度化。2023年头,智源研究院负担国度级高质量语料库设置装备摆设与开源使命时,便意想到人工审核存于尺度不同一、效率低下的问题。为此,研究院练习出质量过滤模子,构建起完美的算法库,经由过程呆板审核实现数据质量的同一把控。当碰到新的数据质量问题时,算法库会迅速迭代更新,将新法则纳入模子练习中。例如,于处置惩罚文本数据时,模子能主动辨认并过滤失反复内容、低信息密度文本以和涉黄、涉毒等背规信息,确保入库数据的纯净度。
安全管控贯串数据审查的全流程。除了了常见的内容安全筛查,智源还有针对于差别数据类型制订了专项审查尺度。对于在多模态数据中的图象、视频,增长了对于敏感场景、标识信息的辨认;对于在工业场景收罗的数据,重点排查是否触及企业贸易秘要。这类全方位的审查机制,为数据的安全合规利用提供了坚实保障。
林咏华同时也暗示: 现实上咱们于利用数据时,许多时辰咱们发明会聚数据轻易,但利用数据却酿成整个财产的问题。
智源研究院于2024年结合财产机构推出三种数据利用模式,经由过程开源同享、共建同享、数算一体的多元模式,破解数据畅通与掩护的难题。详细来看:
开源数据模式聚焦科研与财产普惠。智源将可开放的数据打包发布,撑持学术界及财产界免费下载利用。
共建同享模式以积分制引发数据畅通活气。针对于不肯开源希望意于可托机构间互换数据的企业,智源设计了一套基在数据质量及数目的积分系统 企业孝敬的数据经质量评估后转化为积分,积分可用在兑换其他企业的同享数据。这类模式既掩护了数据所有权,又打破了 数据壁垒 。
数算一体模式则为版官僚求高的数据提供安全利用方案,数据及算力放于一路。对于在来自影视作品的高质量的视频及音频数据,智源构建了 数据与算力绑定 的安全域,特定团队可于安全域内利用数据练习模子,但数据自己不成带出,练习结果(模子)则可自立带走。这类模式于掩护版权的同时,也实现了数据的高效使用。
三种模式的协同推进,形成为了 分层分类、安全可控 的数据治理生态。这类生态既满意了差别类型数据的利用需求,又经由过程规范的流程设计,降低了数据泄露、滥用的危害,为数据要素的市场化配置提供了主要支撑。
跟着具身智能的鼓起,数据管理进入更为繁杂的新阶段。与传统年夜模子比拟,具身智能的数据具备多模态、高维度、场景敏感等特色,智源研究院于继续传统管理经验的基础上,立异出一套适配具身智能的数据管理要领,为该范畴的技能冲破扫清了障碍。
林咏华指出,具身智能的数据多样性远超平凡多模态模子。以机械臂数据为例,除了了摄像头收罗的视频信息,还有触及机械臂的运动轨迹、多自由度(XYZ轴)数据、加快度数据等传感器信息。除了了上述的单机数据收罗,工程师还有要跨呆板人本体收罗数据,增长了装备数据的收罗,同时为了于真实场景中收罗数据,公司还有于试验室里搭建仿真场景。可以说,具身智能的数据维度增长,格局各别,传统的分类要领难以应答。
场景敏感性是具身智能数据管理的另外一年夜挑战。于工业场景收罗数据时,部门企业因担忧流水线功课流程泄露,对于数据收罗持守旧立场。智源经由过程 物理场景分级 计谋解决这一问题。
智源为此成立了 行业+场景+操作繁杂度 的三维分类系统:按行业划分为工业、家庭办事、医疗等范畴;按场景细分为厨房操作、流水线功课等详细场景;按操作繁杂度分为原子操作(如几秒以内的一个抓取动作)、长程操作(如叠衣服,触及多个步调)、繁杂组合操作(如收拾房间的指令中触及到叠衣服、收拾被子、扫地等差别的操作)。
数据收罗效率是制约具身智能成长的要害瓶颈。具身数据的收罗依靠硬件装备,差别构型的机械臂(单臂、双臂、轮式等)、差别类型的结尾履行器(夹爪、灵巧手等),都需要针对于性的收罗方案。此外,遥操历程中的视角差异、装备校准偏差,进一步降低了收罗效率。今朝有一些解决方案,包括开发VR映照校准体系等。
具身智能的数据管理立异,不仅解决了该范畴的技能痛点,更拓展了数据管理的界限。这类立异证实,数据管理必需与详细技能场景深度交融,才能真正阐扬支撑作用。
仿真合成数据的价值与局限,是行业争辩的核心。智源研究院于实践中形成为了以 真机数据为焦点、仿真数据为增补 的管理思绪,经由过程两者的有机交融,既包管了数据的真实性,又晋升了数据的笼罩规模,为模子练习提供了更富厚的 养料 。
真机收罗很难组织所有的场景,以是这就是为何各人感觉仿真数据很主要。可是仿真数据也有仿真不了的场景,例如真什物体的重量、磨擦力、质感等物理特征。 林咏华说。
仿真数据的价值于在 场景泛化 。经由过程数据加强技能,智源将单一真机数据扩大出多种场景变体:转变光芒强度、替代配景颜色、调解物体摆放角度等。这类处置惩罚使患上一条原始数据可天生多条有用练习数据,年夜幅晋升了数据的使用效率。
真机数据与仿真数据的交融是管理的要害。智源摸索出 物理属性保真+场景矫捷替代 的交融计谋:保留真机数据中的物理参数(如气力、速率),经由过程仿真技能替代场景配景、物体外不雅等非要害信息。这类要领既包管了数据的物理真实性,又拓展了场景笼罩规模。
数据管理的最终方针是开释数据价值。智源研究院于夯实管理基础的同时,踊跃摸索具身数据办事的贸易模式,鞭策大众平台设置装备摆设,为数据要素的范围化运用描绘了清楚的路径。
-必一官方网站