根据《2024-2029年中国一体化大数据中心市场深度分析及发展趋势研究预测报告》分析,在人工智能领域,数据、算法和算力是构建AI系统的三大核心要素,三者的协同使现代AI技术实现了从理论到应用的飞跃。数据是Al的基础,大量高质量的数据不仅能够提高现有模型的准确率,还能促进模型的优化和创新。以ImageNet数据集为例,该数据集及相关挑战赛推动了计算机视觉算法的快速发展,2017年是挑战赛的最后一年,物体分类冠军的准确率在7年时间里从71.8%上升到97.3%。近年来,Transformer等预训练大模型在语言理解及生成等领域表现出色,大模型背后的Scaling Law(规模定律)进一步揭示了模型性能与数据量、算力之间的关系,强化了数据在提升AI表现中的关键作用。
根据AI基础数据服务厂商LXT对322家有AI项目经验的美国企业的调研,训练数据的资金投入占这些企业的Al整体建设投入的15%,61%的企业认为未来2到5年对数据的需求量将会增加,62%的企业认为数据质量比数据量更为重要。LXT的调研结果揭示了企业在Al建设过程中对高质量数据的迫切需求。鉴于AI基础数据服务厂商在高效提供高质量数据集方面的专业能力,它们已成为AI研发企业的重要合作伙伴,AI基础数据服务已是推动AI产业发展的关键支撑。
AI基础数据服务厂商是专注于为各行业的AI算法训练与调优提供基础数据产品服务的公司。这些公司通过提供标准数据集、定制数据集和配套产品工具服务,支持互联网、大模型、智能驾驶等各领域的AI技术发展。数据集按内容格式可分为文本、图像、视频、语音等类型,核心生产流程主要包括方案设计、数据采集、数据清洗、数据标注和数据质检等五个关键环节。标准数据集是由数据服务厂商研发并可多次销售的数据集;定制数据集是依据客户需求制作特定数据集,数据的知识产权归客户所有;配套产品工具服务包括标注工具、实训平台及A1模型评测等软硬件工具服务,用于满足高效标注数据、培训数据标注、评估A1能力效果等不同层次的客户需求,辅助和延展数据服务厂商的相关业务。
算法模型从理论到实践的应用过程依赖于大量的训练数据。训练数据越多、越完整、质量越高,模型推理的结果就越可靠。在本报告的讨论中,传统Al泛指Transformer架构出现之前的Al架构,参数量通常相对较小,大模型架构则以Transformer为代表。作为应用大模型架构的代表,ChatGPT在2022年11月上线以来,掀起了AI乃至社会经济各领域对大模型的研讨与应用的热潮。与传统Al相似,大模型依然需要大量优质数据,但其所需数据量更大,数据维度更加多元,标注方式及质量评判标准也更为复杂多样。
纵观业界开源及闭源大模型的能力特性,结合艾瑞对大模型研发企业的调研,虽然当下主流大模型应用仍相对侧重文本输入、文本输出的能力,但对图像、视频、语音等多模态数据的使用已越来越普遍,艾瑞预计大模型训练数据中多模态数据的占比将在未来数年持续提升。根据艾瑞对部分通用大模型及综合型AI厂商的调研,目前大模型的训练数据主要来源于公开数据、网络爬虫数据等可公开获取的数据,其次是采购数据。相比大模型初创企业,综合型AI厂商凭借现有的互联网应用和A业务积累,具备独特的数据优势。在模型的通用能力建设方面,公开数据和爬虫数据已被广泛利用,未来这两类数据在整体上的提升空间相对有限,EpochAI等机构的研究人员于2024年6月更新的论文中表示,大语言模型将在大约2026至2032年之间耗尽所有公开的文本数据。艾瑞预计,大模型研发厂商将通过更多的采购数据来提升模型的通用能力;而在垂直场景优化及行业客户的拓展中,公开数据和爬虫数据仍有较大的获取提升空间,大模型研发厂商也将更多地利用客户侧的合作数据,增强模型解决行业特定领域或企业特定问题的能力。
随着大模型技术的快速迭代及其在众多领域的广泛应用,相关评测需求同步增长。对于模型研发企业,评测是发现模型在功能、性能、安全性和可靠性等方面优劣势的关键步骤,并可与其他企业的模型横向对比,进而针对性地优化模型,提高其表现和稳定性;对模型应用企业而言,评测是选型和项目验收的重要工具,通过专业评测服务,企业能够评估模型的实际应用适用性,确保所选模型满足需求,并保障定制类模型项目的交付质量。相较传统AI,大模型的应用空间更广,评测本身也更加复杂和多样化,市场对专业评测服务的需求潜力巨大。公开评测基准和商业化评测服务的发展,将为大模型评测提供重要支撑,促进技术与产业的健康发展。
在大模型和端到端技术的加持下,智能驾驶的自动化程度不断提升,相关功能已成为部分消费者购车时的重要考虑因素。除个别厂商专注于纯视觉路线外,当下高级别的智能驾驶系统中,摄像头和激光雷达是两大核心传感器。摄像头主要捕捉二维图像,具有高分辨率和丰富的色彩细节;激光雷达则通过发射和接收激光脉冲生成高精度的三维点云数据,能够精确测量物体的距离、尺寸和相对位置,受光照等环境条件影响较小。摄像头和激光雷达等各类传感器各具优势,互为补充,数据标注需对来自不同传感器的数据标签对齐和交叉验证工作。AI基础数据服务是支撑智能驾驶、大模型等AI算法研发的基石,而AI算法也大幅提升了智驾研发领域数据标注的效率和效果,为数据服务行业的发展注入了新的活力。数据与AI彼此支撑、相互促进,共同推动着自动驾驶的实现。
AI基础数据服务产业的中游即数据标注等数据服务的供应商,包括专业厂商及云厂商两类,其中后者以支持内部算法研发及云业务客户需求为主。上游提供原料数据、人力资源支持及IT基础设施,其中人力资源服务供应商主要包括垂直做数据标注的厂商和综合IT类厂商两类,目前业界通常采用远程线上服务即云BPO的模式进行人力支持。下游为数据服务的需求方,包括大模型、智能驾驶等各行业各领域投入AI算法研发的厂商。
图表:AI基础数据服务产业链图谱

基于对数据服务专业厂商、云厂商、大模型研发厂商、智能驾驶研发厂商等中国AI基础数据服务市场的供需两侧企业调研,结合艾瑞对中国人工智能市场整体及AI基础数据服务市场的发展判断,艾瑞推算2023年中国AI基础数据服务市场规模为45亿元。在需求侧,随着AI算法研发从面向特定任务领域的小模型向具备更强通用泛化能力的大模型过渡,数据服务需求企业将产生大量高质量、多模态的数据需求。同时,随着大模型在通用及垂直场景中的应用拓展和智能驾驶等AI技术的规模化商业落地,良好的商业回报将进一步推动需求侧加大对基础数据的投入。在供给侧,随着数据要素等相关支持政策的持续深化,服务商将加快数据源的获取及数据集的制作。数据工程技术、数据标准规范、标注方法等日益成熟,人才生态及服务软件平台的自动化、流程化也在不断完善,供给侧的供应能力和服务质量得以加强。综合供需两侧的情况,艾瑞预计到2028年,中国AI基础数据服务市场规模将达170亿元,未来五年的复合增长率为30.4%。
图表:2022-2028年中国AI基础数据服务市场规模






















研究院服务号
中研网订阅号