光轮智能致力于成为以技术驱动AI在物理世界的落地的数据基础设施服务商,从自动驾驶、具身智能等空间智能场景切入,向客户提供全栈式的 Data for AI 解决方案,通过合成数据放大人类对物理世界的认知和示范。
2025年3月13日,在第三届具身智能机器人产业发展论坛上,光轮智能技术生态负责人甘宇飞坦言,AI 2.0时代,端到端已成为明确的行业共识。端到端架构避免了传统机器学习中手动设计中间过程的复杂性,极大简化了模型的设计,提升了效果和效率,使Scaling Law在大模型迭代上成为可能。
端到端的算法架构之下,模型算法设计已相对成熟,数据取代模型成为新一代AI性能提升新突破口。而Self-play RL有可能成为模型提升新途径。新范式下,高质量数据仍是关键。与传统监督学习依赖大量标注数据不同,Self-Play RL会通过智能体与环境的交互生成数据,这些数据的质量和多样性直接影响模型的性能和泛化能力。具身模型训练数据极度短缺的情况下,合成数据是实现Scaling Law的重要突破。
以下为演讲内容整理:
当今时代,数据在人工智能开发流程中的核心地位已毋庸置疑,每次技术革新都为数据领域带来了前所未有的机遇。实际上,数据并非自变量,而是因变量。无论是机器人还是智驾驶,都受到下游具体方案以及应用载体的整体影响。
我们常接收到的一类需求是,A客户在其甲款车型上已实现了卓越效果,但当年计划推出乙款车型时,数据便需重新采集。在合成数据技术的助力下,这一问题变得迎刃而解。同样的情况也适用于机器人领域,当机器人的形态或应用场景稍有变动,往往伴随着数据的重大调整需求,而合成数据技术则能有效应对此类挑战。原因在于,数据本身与算法方案及其载体紧密关联,而合成数据则相当于构建了一个灵活的场景解决方案,以应对这些变化。我们观察到,相较于以往方案,端到端方案对数据的需求发生了显著变化,进而催生了诸多新的需求。

图源:演讲嘉宾素材
在过去的职业生涯中,我深刻体会到,尽管大部分时间原本可能投入在模型训练与问题解决上,但当方案进入量产阶段时,处理各类边界情况成为关键,此时,大量的工作转向了数据本身的设计与处理。数据的采集、标注、清洗,以及如何让模型高效地从数据中汲取知识,成为我们的日常重心。
通过服务不同客户所积累的认知,我们发现当前对数据需求较大的领域主要集中在大语言模型、智能驾驶及具身智能方面。尽管当前多模态数据多源自互联网,并辅以人工标注,但其整体数据量极为庞大。自动驾驶领域则侧重于感知数据与轨迹数据,同样拥有巨大的数据量,这得益于自动驾驶技术十多年的发展,其间各类车厂与采集设备积累了丰富的数据资源。
然而,我们观察到具身智能领域的一个显著特点是,目前尚未有大规模量产的机器人能够采集到足够的数据,因此该领域的数据缺口巨大,这为数据领域带来了巨大的机遇。从数据维度来看,大语言模型可能利用互联网上丰富的文字、图片、视频等数据,这些数据几乎涵盖了互联网自诞生以来的所有积累。同样,智能驾驶领域也能利用多年发展所采集的各类传感器数据。但具身智能则有所不同,它要求与真实世界进行交互,仅仅依赖视觉信息是不够的。例如,机器人需要执行如打开门、从柜子中取出盘子等任务,这不仅需要视觉信息,还需要物理参数的支持,如摩擦力、阻尼系数等。而这些数据在当前已有的数据存量中恰好是缺失的。
另外是数据适配的问题。许多人已经意识到智能驾驶可以被视为一种特殊的具身智能,其目标是从A点移动到B点,过程中需遵守交通规则、确保乘客舒适及避免碰撞,而与外界环境的交互相对有限。然而,具身智能则截然不同,它需要与不同的物体和资产进行交互。
值得注意的是,这两者的设备成本也存在显著差异。智能驾驶主要关注于适配不同的车型,相比之下,大语言模型则几乎不涉及设备成本,因为其使用不依赖于特定硬件,仅通过多模态输入与输出实现功能,无需与外界实体交互。然而,具身智能的适配成本则显著较高,因为每种不同的机器人都需要进行专门的数据适配,这导致了数据需求的较大变化。
此外,具身智能在预训练数据方面尤为匮乏。相比之下,智能驾驶与大语言模型已历经长时间的发展,无论是预训练、后训练还是评测,都拥有完善的数据集可供使用。因此,我们认为具身智能为数据行业带来了巨大的机遇。

图源:演讲嘉宾素材
在提及合成数据时,常有人持怀疑态度,部分大模型的论文曾指出,仅依赖合成数据可能导致模型性能下降,或学习到不良特征,长期而言可能出现退化。我们对此进行了深入思考,并认为这些观点背后存在一个隐含条件,即大模型所使用的合成数据需由模型自身生成并用于训练。
在当今讨论合成数据的语境下,我们往往持有一种观念,即认为是百分之百的合成数据。但实际上,真正使用的数据很少是完全由合成数据构成的,而是通常包含了一定比例的合成数据与真实数据的混合。以具身智能中的遥控操作为例,当在仿真环境中进行遥控操作时,这些数据究竟应归类为合成数据还是真实数据呢?
虽然其环境是合成的,但遥控操作的轨迹数据是由人控制的,因此,在我们看来,它处于一种中间状态。这也是光轮智能在合成数据领域的一个重要理念,我们强调“人在环中的合成数据”。我们并非利用模型从零开始创造数据,而是依赖于人的示范、指导和在每个环节中的参与,以确保数据的准确性和实用性。
在搭建仿真场景的过程中,我们首先会由专业人员手动创建各类资产,并手动配置相应的物理参数。此外,我们还通过人在环的方式验证这些参数是否与真实物理世界保持一致,以确保仿真环境的真实性。例如,对于微波炉门的开启,我们需模拟其磁吸效果,确保开门初期需较大力量,随后力气可逐渐减小,这些物理细节均需经过人在环的设计与验证。
完成场景构建后,我们利用遥控操作方式控制机器人本体在仿真环境中执行特定任务。随后,采用合成数据技术对这些数据进行泛化处理,以提升数据的多样性和实用性。这些数据的特点在于,既保证了人在环的质量控制,与真实世界高度对齐,又充分利用了仿真的优势,实现了数据的充分泛化和真实性。最终,我们将这些高质量、高真实度的合成数据提供给客户,以满足其实际需求。
我们当前已具备一些能力,涵盖3D仿真资产与场景的构建、遥控操作数据的采集,以及自动驾驶合成数据的生成。我们的服务流程严谨而高效,首先,我们依据特定需求重建仿真场景,这包括基于真实场景的3D重建与资产扫描,同时也涵盖在无数据可依的复杂场景下,通过人工方式在仿真环境中进行创作。场景构建完毕后,运用泛化技术批量生成多样化场景。
随后,针对不同具身本体的要求,我们会对根基进行定制化重建,并将其置于仿真环境中,通过遥控操作方式采集数据。在此过程中,我们尤为注重数据的真实性与多样性。最后,采用先进的泛化方法,对遥控操作数据进行进一步的处理与扩展,以满足客户的多样化需求。
对于商业化公司而言,数据验证环节至关重要。客户常会质疑合成数据的有效性,尤其是与真实数据的对比效果。在智能驾驶领域,这类问题尤为突出,因为存在明确的对比基准。然而,在具身智能领域,此类问题相对较少,因为具身智能的应用场景更为复杂多变,难以简单地进行直接对比。
因此,我们内部建立了一套真实性验证体系,以评估合成数据的质量。这一体系主要基于两个维度:一是数据的视觉真实性,二是数据的效用性。
首先,视觉真实性类似于商品的外观吸引力,是客户对数据的初步印象。如果数据在视觉上或物理参数上与真实世界存在显著偏差,那么客户可能对其失去兴趣。为此,我们研发了一系列自研方法,用于评测生成数据在视觉和物理参数上的真实性,确保其与人类感知的世界保持一致。
其次,在合成数据的场景下,效用意味着数据能否有效提升算法团队在特定任务上的表现,如抓取任务的完成度或智能驾驶程序的性能。为了验证这一点,我们搭建了一套与下游客户产线相似的测试环境,使用合成数据训练模型,并在特定的测试集上评估其性能提升情况。只有当数据在测试中表现出显著提升时,我们才会将其提供给下游客户。
当前之所以能够开展这项工作,主要得益于两年前GPT等生成式AI技术的涌现,这些技术为生成高度真实的数据提供了可能,奠定了坚实的基础。其次,仿真技术经过多年的发展,已经积累了深厚的底蕴。特别是结合了LLM驱动的智能体仿真与泛化技术,进一步提升了仿真环境的真实感和数据的多样性。此外,真实性验证环节至关重要。它确保了合成数据的价值,使得数据的应用不再是盲目的尝试,而是基于可靠验证的决策。通过这一环节,我们能够避免将数据“喂入”系统后效果未知的尴尬局面,从而确保数据的有效性。
我们拥有一个丰富的资产库,其中包含软体仿真技术,能够模拟动态的阻尼和摩擦力等物理特性。此外,我们还设计了各种铰链资产,以满足不同的应用需求。为了支持客户的多样化需求,我们还提供不同维度的标注服务,包括语义标注、分割标注以及深度标注等。
基于资产所搭建的场景,我们进一步根据具体机器人的需求采集数据,构建了一个遥控操作环境。当前,国内外存在众多仿真环境,而我们则致力于打造一个中间标准,以满足客户在不同平台上的需求。