

““AI的底层干戈:中国特等据、有东说念主力、有场景,为何跑不出Scale AI?”
你敢深信吗,一家2016年景立的数据标注公司,它的估值竟能追平百度与理念念汽车?
2025年6月,Meta豪掷143亿好意思元,拿下好意思国数据标注巨头Scale AI的49%股份,将其估值一举推至惊东说念主的290亿好意思元(约合东说念主民币2082亿元)。
这一数字意味着什么?终端2025年6月20日,百度的市值约为287.5亿好意思元,理念念汽车为263.6亿好意思元。Scale AI的估值,毅然超过了许多咱们见闻习染的科技巨头。
在东说念主工智能波浪席卷众人的今天,高质料的数据资源被誉为新时期的“石油”。而未经加工的原始数据如同埋藏地下的原油,其巨大价值需通过一说念关节工序方能开释——这便是数据标注。
成立十年的Scale AI,不作念模子,不搞运用,只专注一件事:为众人顶尖AI公司提供高质料的标注数据与数据处分平台。如今,这家曾被视为“AI产业链底层挑夫”的公司,正迎来高光时刻。
可是,视野转归国内:尽管中国领有众人最弘大的数据资源、最丰富的标注劳能源、最活跃的AI运用场景,却永恒未能跑出一家Scale AI级别的超等独角兽。
一样是为大模子准备“养料”,为何中好意思两国的红运如斯迥异?是技艺的代差,还是交易逻辑的错位?
为探究原因,咱们磋商到了国内头部的数据标注公司海天瑞声(688787.SH)和本原智数的关连负责东说念主,试图从交易环境泥土、行业运作旅途以及夙昔破局之说念等维度,拆解这一时局背后的深层逻辑。
交易环境的温差:
底层逻辑与产业生态分野
营收限制的落差,是中好意思数据标注企业最直不雅的差距。
海天瑞声董事会文书张哲在吸收数据猿采访时坦言,国表里数据标注企业的估值差距,本色源于收入限制的量级边界。
公开数据高慢,Scale AI收入由2022年2.5亿好意思元升至2023年7.6亿好意思元;在2024年营收约8.7亿好意思元(约合东说念主民币62.3亿元),单笔公约与客单价多在八位数至九位数好意思元区间。东吴证券研报败露,Scale AI瞻望 2025 年收入达到20 亿好意思元(约合东说念主民币143亿元),并终了EBITDA 盈利,2026 年销售额接近 40 亿好意思元。

Scale AI连络创举东说念主 图源:Alexandr Wang社媒账号
与外洋头部企业比拟,国内数据标注公司的营收限制大多处在几千万到几亿的区间,两者之间的量级差距不言而喻。
这背后,其实暗含了“水大鱼大”的有趣——“水”是AI运用阛阓,“鱼”是数据就业企业。面前,好意思国阛阓的“水域”更为开阔。这不仅源于技艺层面的先发上风,更获利于其锻真金不怕火完善的软件交易生态。在这样的泥土上,当然助长出了端倪丰富的产业时势:既有Scale AI这类覆盖全链条的万能型就业商,也有Surge AI、Turing等聚焦模子微调的垂直玩家,还有Lionbridge等深耕文本、语音领域的专科机构。
反不雅国内,尽管AI产业发展突飞大进,但产业之间的单干涉好意思国比拟,还不够专科、不够合理。不少互联网大厂倾向于自建众包体系,将数据标瞩目为里面闭环的一部分。这种“自成一体”的模式,在短期内保险了数据安全与响应速率,却也无形中挤压了专科数据就业商的成漫空间。
更深层来看,数据就业本色上属于广义的软件行业,而中国耐久以来“重硬件、轻软件”的发展惯性,使得软件生态的栽种短缺鼓胀的泥土。比拟好意思国从企业级软件时期就蕴蓄下来的单干民俗与付费文化,国内的数据就业企业常常更难获取限制化发展的契机。水域虽在推广,但确凿能容纳大鱼畅游的深水区,还有待时刻与生态的慢慢完善。
产业时势分化:
客户壁垒与阛阓聚会度各异
面前,数据标注产业已酿成赫然的坎坷游生态。其上游是数据泉源与需求方:一方面,数据开端庸碌漫衍于互联网公司、政府机构、车企、医疗机构及金融机构等,它们是原始数据的分娩者和领有者;另一方面,需求方主要包括AI算法公司、科技巨头、具身智能企业、高校及科研院所,以及传统企业的数字化转型部门,他们是标注就业的最终客户,驱动着统共这个词产业的驱动。
从客户结构看,Scale AI的高速增长离不开顶级客户资源的支援,其中枢客户包括OpenAI、微软、Meta、英伟达等科技巨头。2024年公司终了营收的8.7亿好意思元中,仅Google单一客户孝敬便达1.5亿好意思元。

Scale AI 官网界面
此外,好意思国军方这一特殊大客户成为Scale AI崛起的关节助力。公开信息高慢,军方采购是其中枢收入开端之一,强大且清闲的订单助力公司完成原始蕴蓄。
本原智数CTO林震亚提到了客户需求方的原因,中好意思需求侧对数据外包的派头存在本色各异,这亦然制约国内产业发展的关节要素之一。“好意思国的企业,像OpenAI、谷歌,特别自得把整块的业务包出去。他深信数据公司对数据的壮健是比他我方深的,而在国内,数据团队中反而是很有讲话权的供应商,基本上只可在(数据标注)基地里去提供东说念主力”。
林震亚强调,这种模式本色上是需求方将中枢的数据壮健才智紧紧掌合手在我方手中,并未给第三方数据公司留住鼓胀的成漫空间,导致国内供应商难以构建确凿的中枢壁垒。“国内的数据企业莫得特别强的中枢竞争力,而且国内又特别的卷,然后卷的话就导致分歧,国外可能便是三个头部公司就能吃下70%—80%的阛阓(份额),而国内排行前三的(公司)意想也就吃了20%—30%的阛阓(份额)。”
阛阓结构的特别分歧,成为进击行业降生独角兽的关节。据林振亚分析,国内数据标注企业数目多达两三千家,行业碎屑化严重。这种分歧不仅源于企业数目繁多,更与政府名堂的采购壁垒密切关连。他裸露,好多政府名堂齐是点对点径直发包,即便头部企业也难以与政府成就深度调解,构兵不到中枢标的,名堂最终多被处所小团队连结。短缺聚会效应的阛阓环境,使得国内数据企业难以作念大作念强,当然无法酿成雷同Scale AI那样的限制护城河。
不外,林震亚也暗意,国内行业正慢慢走出窘境。跟着阛阓对模子才智和体系化开荒的怜爱进度不停提高,国内数据企业惟有明确发展看法、搭建表率化体系,BET365体育官方网站十足有才智构建中枢竞争力,终了高质料发展。
寻找破局之说念:
乘势而上与筑高壁垒
海天瑞声关连负责东说念主也对中国阛阓的夙昔剖释出了浓烈的信心,在“水大鱼大”的产业逻辑里,中国AI阛阓这一“蓄池塘”正迎来质变。“当咱们的模子才智与一线模子差距在责骂,运用一齐来,反倒是‘AI+运用’成了咱们的上风”。
他进一步暗意,2025年8月国务院印发的《对于深刻奉行“东说念主工智能+”行径的意见》,已明确了夙昔十年国度在东说念主工智能领域的政策标的,“便是要举天下之力干这件事,央国企体系的带动下,也会带动民营领域。是以我以为咱们这个‘池塘子’变大的速率会更快。水大了,鱼长大的速率也会快,这是当然规定。海天瑞声要作念的,便是争取成为比较大的那条鱼”。

东说念主工构建确凿数据集过程 开端:海天瑞声 2025 半年度叙述
在国度“AI+数据要素”政策的疏导下,重心央企自2024年起加速布局通用+垂向大模子研发,带动了高质料图像、视频等放哨数据的限制化采购需求。海天瑞声已成为中国迁徙弥留的数据就业供应商。况且公司也在全面推动众人化政策布局,一方面通过东南亚寄托基地的开荒构建外洋标注产能,重心拓展更具阛阓后劲的定制化就业;另一方面加速众人化就业收集开荒,已在中国香港、新加坡和好意思国诞生区域子公司,并积极推动日本、韩国及欧盟子公司落地,提高客户触达服从和需求响应速率。
与此同期,本原智数正在尝试通过科研实力冲破僵局。林震亚进一步指出,纯合成道路难以走远,“标注的本色是把东说念主类的学问精华千里淀下来给模子学习,要是全合成,东说念主类精华产生的价值就特别小了”,况且若企业仅作念数据合成,客户最终采购的是合成模子而非数据就业,一朝该技艺被攻克,企业便失去中枢壁垒。因此本原智数对峙‘东说念主机勾搭’模式,虽具备合成才智,但对外输出均以东说念主工标注为基础,通过东说念主工全经过校验,千里淀东说念主类学问精华供模子学习。
凭借这一模式,公司构建起专有的竞争壁垒:既以合成才智终了服从升级,又以东说念主工精修保险数据品性;同期汇注众人顶尖东说念主才产出顶会级科研服从,以技艺高度成就与甲方的对等对话权,“咱们需要一批全世界最明智的东说念主孝敬我方的精华力量,对去孝敬给模子”,将东说念主类专科明智转动为模子迭代的中枢能源。
潮起东方:外洋隐忧与原土数据价值开释
数据标注产业兼具技艺属性与东说念主力资源属性,其发展逻辑与众人产业时势精良相连。业内资深东说念主士认为,对于Scale AI的百亿好意思元估值无须过度惊悸。尽管Meta的强大投资推高了其估值,却也让该公司堕入身份无言与信任危急。受Meta介入影响,谷歌、OpenAI、微软等中枢客户出于数据心事与交易竞争考量,纷繁削减或拆开调解,使其濒临中枢收入流失的风险;而Meta本身也未十足依赖Scale AI,仍保留与其他竞争敌手的调解关系,进一步加重了其交易处境的不细目性。
与此同期,Scale AI的运营模式也暗隐退忧。据公开信息高慢,该公司通过旗下众包平台Remotasks,将基础框选标注任务分包至菲律宾、肯尼亚等地区,其900名厚爱职工除外,依托超24万遍布众人的低成本打散工完成分娩。这种劳能源结构虽能保管成本上风,却激励了数据质料、劳工权利等争议,以致使其贴上“数字血汗工场”的标签,光鲜的技艺光环之下,覆盖着运营模式的脆弱性。

数据技艺与智能技艺深度会通演进趋势 开端:中国信息通讯探求院
与此同期,国内数据要素阛阓正迎来前所未有的发展机遇,呈现出强劲的增长势头。
2026年3月24日,国度数据局局长刘烈宏先容,终端2025年年底,天下已建成高质料数据集逾越10万个。到本年3月,我国日均Token(词元)调用量逾越140万亿,比拟2024岁首的1000亿增长了1000多倍,比拟2025年底的100万亿,三个月时刻又增长了40%多。数据调用激增,反应我国AI参加快速增耐久,运用从对话向智能体演进,产业竞争力增强,数据要素价值开释,与AI发展酿成良性互动。
词元调用量指数级增长,鲜艳着数据要素通过可计价模式终了从供给到价值的闭环,大模子竞争正从才智比拼转向用量比拼,而AIInfra四肢相沿调用限制推广的中枢标准,意味着算力、收集、数据转换等底层相沿系统必须同步以致超前推广,将充分受益于Token需求的不息攀升。
针对高质料数据集开荒“小和散”的问题,国度26个部门组织遴择了72家高质料数据集开荒链主单元、140个先行先试职责单元和104个典型案例,构建了链主带动、多方参与、连络攻关、共建分享、调解共赢的高质料数据集开荒生态,从而不息推动高质料数据集的开荒。

2017-2024 年部分众人数字生命力指数发展趋势 开端:中国信息通讯探求院
与外洋巨头通过本钱与订单构建的“中心化”操纵时势不同,中国的数据标注产业更像是一派“万鱼竞逐”的蓝海。面对中好意思数据标注产业在体量上的客不雅差距,大略咱们无须急于寻求单一的“中国版Scale AI”。正值相背,中国阛阓的专有魔力,大略正蕴涵于其“去中心化”的昌盛生态之中。
截止到2025年年底,天下已建成的高质料数据集逾越了10万个,总体量逾越了890PB,这相等于中国国度藏书楼数字资源总量的310倍掌握。
“水大了,鱼长大的速率也会快。”当海量的高质料数据集与指数级增长的Token需求成为这片海域的充沛营养,咱们看到的不再是寥落的巨鲸,而是万千条充满盼愿的“鱼”在竞相助长。这种盼愿盎然BET365体育官方网站,恰是中国数据标注产业从“跟跑”迈向“并跑”乃至“领跑”的最强底气。咱们期待,在这场万鱼竞逐的波浪中,能流露出更多具有专有竞争力的立异力量,共同撑起中国AI产业的开阔夙昔。
米兰体育MiLan(中国)官网
备案号: