AYX爱游戏- 爱游戏体育官网- APP下载营收暴增 50 倍一季度赚一年的钱今年最火生意是它

2026-06-11

  AYX爱游戏,爱游戏体育,爱游戏体育官网,爱游戏APP下载大家极度渴求千万小时以上的数据集一小时 200 块钱,一千万小时就是 20 亿元。 基元智航创始人高少龙告诉铅笔道,为了获得高质量数据,即使掏出一部分家底,头部具身智能公司也在所不惜。

  现在一家公司没有百万小时数据,都不好意思说自己干具身智能。 竹马创新创始人张吉说,百万小时听上去很多,实际上只能满足具身智能真实需求极小一部分。

  问题是,账上有几十亿也经常买不到高质量真实世界数据不够。

  工厂里的装配动作、咖啡店里的服务流程、家庭里的收纳整理、养老院里的照护场景这些发生在现实世界中的行为,既无法像互联网文本一样爬取,也无法像图片一样批量下载,它们必须被人一小时一小时地采集出来。

  今年,它石智航超 4.5 亿美金融资,创下中国具身智能行业单轮融资纪录;数据传感器初创企业渊澈太初创办 5 个月,融资超 5 亿元;真实世界 AI 数据采集企业弈人科技,今年 Q1 具身智能数据订单已经过亿。

  一场围绕数据的新淘金热,正在悄悄上演。铅笔道对话了多位数据采集行业从业者、投资人。

  基元智航是一家专注于具身智能数据基础设施领域的创新企业,已完成天使轮融资。

  如果你去问国内头部具身智能公司,他们今天真正希望采购的数据规模,最少都是百万小时起步。

  如果按照比较普通的数据采集标准计算,一小时五六十元,仅仅百万小时就意味着五六千万元投入。

  由于质量不够高,数据规模不够大,今天绝大部分模型不是通用模型,而是针对某一个特定场景优化出来的模型。

  具身智能行业缺数据不是一两天了,因为真机数据根本不通用我们几乎把国内主要机器人厂商都拜访了一遍。无论是大厂还是小厂,最终得到的答案高度一致:真机数据只能训练自己的机器人,无法直接用于别人的机器人。

  况且,具身智能想要真正像 DeepSeek 一样智能涌现,大概需要 20 亿小时的数据量级。这在人类工程史上是一项不可能完成的任务。

  后来越来越多论文开始证明,无(机器人)本体数据是有效的。行业最终必须寻找新的路径:回归到真实人类行为,人类行为数据将成为未来最大的具身智能数据资产。

  任何一家机构花 100 万元买了一份数据,理论上它都有动力把数据复制出来。复制二十份,每份卖 5 万元,成本立刻收回。对于原始采集公司来说,这是最痛苦的事情,也就没有动力去采集高质量数据。

  后来我们研究自动驾驶行业时发现,地平线等公司已经找到一种新的方式:DaaS(数据即服务)。数据不离开服务器,客户带着模型进来,模型训练完把参数带走,数据留在原地。数据可以复用,且不必担心被复制。这可能才是具身智能数据行业真正的商业模式。

  过去 100 元成本的数据,只能卖一次。未来 100 元成本的数据,可以服务 1000 家公司。那平均下来,每家公司只需要承担一毛钱成本。数据就会像自来水一样,价格极低,随取随用。整个行业的数据供给会突然爆发。

  目前业内主流(具身智能)模型公司年数据采购量最少也都是百万小时级别。不同深度的数据,价格差异非常大。

  最便宜的是普通生活场景数据。比如叠被子、摆桌子、整理物品。这些动作不需要特别专业的人,找几个劳务外包人员就能完成。这种数据目前大概在五六十元一小时。

  一旦进入真实服务场景,比如咖啡厅,成本马上就变了,因为你得出钱让老板停工配合你。这类服务场景数据的成本通常会超过 200 元一小时。

  再往下一层,就是工业场景。很多人以为工业场景贵,是因为采集难。其实不完全是,真正昂贵的是沟通成本,你钱给少了,人不理你。就算给得多,大厂还不见得让你采,涉及知识产权、商业秘密。工业数据最终价格至少两三百元一小时。现在很多激进一点的模型公司,对这类数据特别感兴趣,哪怕价格更贵,也愿意购买,因为离真实生产场景更近。

  最难采集的,是家庭场景。涉及隐私、财产、安全。这些问题处理起来,远比工厂里复杂。直到今天,行业在家庭数据采集上依然非常保守。

  第一类客户,几乎什么数据都要,他们不挑场景,瞄准通用具身智能基础模型,希望自己的模型见过足够丰富的世界。未来再针对某个行业做微调的时候,成本会低很多。目前国内少数头部团队正在这么做。

  但第二类企业占绝大多数。他们从第一天开始就把自己定义成垂类应用。他们采购数据就盯着未来最有机会落地的场景。

  当下需求最大的仍然是服务业数据。这也是为什么我们会采大量咖啡厅、餐厅相关数据。

  我要强调一点:服务业并不是具身智能最有价值的方向。之所以大家都在做服务业,是因为服务业数据最容易获得。

  工业装配数据、医疗场景数据、深度制造数据,以前大家根本不知道怎么低成本获取。

  既然拿不到数据,模型厂自然不会往那个方向投入,于是市场上形成一种错觉:仿佛服务业就是具身智能最重要的方向。

  如果未来有人能大规模提供制造业数据、医疗数据、工业装配数据、养老照护数据,整个行业的方向都会改变。数据公司真正的价值不是卖数据,而是创造供给,帮助行业发现新的可能性。

  第一是广度,大家极度渴求千万小时以上的数据集,必须让模型见过足够丰富的世界。

  第二是价格,哪怕一小时 200 块钱,一千万小时就是 20 亿元。如果数据价格降不下来,模型始终无法形成商业闭环。

  第三是深度。具身智能公司今天必须开始回答一个问题:投资人给你那么多钱,你的机器人到底在哪个场景里能够创造价值?因为只有深度场景数据,才有可能帮助模型进入真实生产和服务环境,最终形成商业闭环。

  举个例子。如果只是普通动作数据,可能找众包人员就能标。但如果是烹饪数据呢?里面会涉及大量专业动作、专业术语、专业流程,你需要懂烹饪的人来标,甚至需要专业厨师来标。厨师的一小时成本,显然和普通众包不是一个价格。

  随着未来越来越多制造业数据、医疗数据、工业数据进入市场,这个问题会更加明显。

  垂类场景的 AI 自动标注,是未来非常值得关注的方向。未来很多垂类数据集,可能不是靠人标出来的,而是靠 AI 完成第一轮标注,再由专家复核,这会极大降低行业成本。

  今年年初,全行业所有具身智能数据加起来,大概只有 50 万小时。但如果想训练出真正优秀的模型,行业需要的数据量级大约是千亿小时。

  这就是行业今天的现实。不过,数据并不是简单按小时计价去卖,我们一直反对把数据简单理解成商品。

  我们将具身数据从 L1 到 L5 进行了严谨分级,还建立了数据 SLA(服务等级协议)体系,全世界第一次对数据质量进行了量化管理。

  目前市场需求最大的,是 L5 级数据。为什么 L5 稀缺?因为要求极高。L5 数据必须经过详细标注和任务切片,必须具备完整的任务描述、场景描述和物体描述,分辨率通常要达到 1280 以上,定位精度要求达到亚毫米级。

  我一直认为,具身数据行业不能停留在 我有数据,你来买 的阶段。卖水果还有品种区分,卖石油还有等级区分,更何况是训练大模型所需要的数据。而有些企业本身并不真正理解数据,只是在做二手数据倒卖。灵生不仅提供高质量多模态数据,还会帮助客户优化数据管线和底层 Infra 基础设施。

  今年我观察到的最大变化,是 Ego 数据(真人第一视角数据)需求出现指数级增长。对比遥操作数据,Ego 的数据需求增长非常明显。通过这些数据显著提升了模型效果,同时采集效率比遥操作高出五倍以上,成本却更低。

  早在去年下半年,海外已经明显开始向 Ego 数据和以人为中心的数据转向了。今年上半年,这种趋势进一步被放大。

  举个例子,同样是 USB 插拔或者线束插拔任务,如果是在素材工厂里采集,场景变化非常有限。但如果是真实环境,灵生有几千名外部数据采集员,每个人的家庭环境不同、办公环境不同、操作习惯不同,那么最终形成的数据变化可能达到上千种。这种数据多样性,是训练场数据很难达到的。灵生今年预计将达到 120 万小时的真实场景 Ego 数据集。

  数据行业乱象之一,就是数据精度虚标。有企业宣传定位精度达到毫米级,但根据客户反馈,真正使用时漂移非常严重,误差甚至达到厘米级,比标称数据差十倍以上。

  如果希望具身智能产业长期健康发展,就必须结果导向,训练出真正好用、准确率更高的模型。而想做到这一点,就必须依赖真正高精度、高质量、高价值的数据。

  从经营情况来看,预计今年订单规模将达到数亿元级别,预计全年营收有望达到去年的 50 倍以上。我们的客户主要是头部具身智能公司,而且多数会长期复购。

  我们最关注的仍然是三个核心指标:数据质量、数据多样性、线 亿,未必买得到好数据

  水木清华校友种子基金是国内第一支高校校友基金,致力于成为 清华校友创业第一站 。

  即便是自动驾驶这样一个相对固定、单一的场景,也催生出了 Scale AI(数据训练公司,估值接近 300 亿美元),国内也有很多自动驾驶标注和数据公司挣到钱了。

  未来人形机器人如果真的进入百行千业,数据需求会比自动驾驶高好几个量级,可能是两个数量级、三个数量级的差距。

  这个市场会很大,只是现在无论本体、具身模型、世界模型,还是数据采集路线,都还没有收敛,各种技术路线都在百花齐放。

  我们布局了灵御智能、渊澈太初、手亿科技等数据采集初创企业。像灵御智能,主要是真机遥操,数据质量好,但成本相对高。今年更火的是腕带技术,包括渊澈太初、手亿科技这些公司。

  数据采集成为大机会,很大程度上来自 Meta 的腕带技术。以前大家不太相信肌电技术能做到那么精准,但 Meta 把这个技术跑通以后,市场开始看到机会。据说苹果下一代产品也可能往这个技术路线靠,其他路线可能暂缓。

  腕带技术跑通以后,大家发现它不仅可以戴在人手上,也可以戴在机器人身上,这就把 腕带 和 数采 结合起来了。人戴腕带,机器人也戴腕带,中间就能形成连接。这是一种技术创新,也是一种模式创新。

  目前数据采集公司真正赚钱的还不多,到现在应该还没有(收入成本)打平的,暂时还没有盈利。这个行业都还很早,一共也就一年多时间。对这些公司来说,拿到订单就不错了,盈利暂时不是主要考虑的问题。

  如果都量产了,肯定就要死一部分公司,路线也会收敛一部分。这个行业目前最大的痛点,大家都还没有找到最终收敛的路线,很多企业会同时试好几种方案。

  现在很多公司融资都是一两个月一轮,很难说哪条路线一定更好。水木的策略是,如果技术路线不明确,我们一般不会押注某一条路线一定能成。

  不只是数据公司,具身整机、具身模型、世界模型也都是这样,整个行业现在都是一两个月一轮的状态。

  具身数据行业会出现专门做数据的巨头企业。但头部具身整机公司可能会自己做数据。类比汽车行业,像特斯拉、比亚迪这样的头部巨头,很多事情都会自己做,比亚迪连电池都自己做。机器人行业最头部的几家公司,大概率也会全都做。

  但这并不意味着第三方独立数据公司没有空间。除了最头部的几家企业,腰部企业、尾部企业,以及各种 corner case 场景、专用机器人、特种机器人,都会存在大量数据需求。对这些企业来说,联合使用第三方独立数据公司,可能是更有性价比的方式。未来第三方独立数据公司的典型客户,至少会包括很多腰部企业,这个量足够支撑它们成长为上市公司。

  数据采集公司比较成熟的商业模式,现在主要有两种:一种是一次性卖数据,另一种是按每台机器人上的数据价值做分成。企业肯定更希望未来更多采用按台分成的方式,但这里面会有博弈。

  投资人看一家数据采集公司是不是好公司,最核心是看订单怎么样,有哪些具身整机企业在用它,第一线机构和客户是否使用它,是非常重要的指标。

地址:广东省广州市天河区88号 客服热线:400-123-4567 传真:+86-123-4567 QQ:1234567890

Copyright © 2012-2025 AYX爱游戏- 爱游戏体育官网- 爱游戏APP下载 版权所有 非商用版本