
AI 算法奔跑的源动力,数据标注的产业新突破。
AI 行业技术与商业的不断突破背后,一门新的生意露出冰山一角。
在汽车,、零售、家居和医疗保健等行业中越来越多的 AI 功能成为了行业发展主流,而随之而来的是想要这个 AI 引擎足够强大,对于 AI 行业数据这个「新石油」的质量就提出了更高要求。渴求成为了巨大的生意。
但比喻数据是「石油」而不是「空气」的原因很简单,它需要被数据标注企业「探索、收集、挖掘、加工」。
根据 Research And Markets 的报告,2019 年全球数据标注市场的价值为 6.955 亿美元,预计到 2027 年将达到 64.5 亿美元。预计从 2020 年到 2027 年将以 32.54%的复合年增长率增长,迅速发展的数据标注市场在即将到来的未来见证着「井喷式」的增长。
目前,人工智能的商业化已经在计算能力和算法上达到了基本成熟的阶段。为了更好地满足真实需求并解决行业中的特定痛点,用于算法训练的特定标注数据仍然必不可少需要持续加码。
经过多年的发展,数据标注行业终于迎来快速发展时期,但它的前景并不是一马平川,依旧有三座大山成为仍需突破的挑战。
从微观的角度来看,市场的不断扩大意味着更多的参与者和更多的竞争。由于较低的准入门槛和对人力资源的过度依赖,行业中聚集了许多中小型数据服务提供商。
由于技术门槛的提高,人工智能企业需求的变化以及人工成本的增加,中小型数据服务提供商将面临越来越大的成本压力。在未来的 1-2 年中,该行业可能会迎来一波「洗牌期」。
随着商业着陆速度的加快,人工智能公司也对数据服务供应商提出了新的要求。在需求方面,质量,、细化,、定制场景化越来越受欢迎。;在供应方面,、技术实力,、受控管理等带来了新的挑战。短短的四五年时间中,数据标注行业经历了从诞生到混乱再到成型最终实现产业化的过程。
海量新需求与「告别小作坊」
初期数据标注的难点主要来源于两个方面:速度与质量。
但数据标注行业的特殊性决定了其对人力的依赖。当前,主流的标注方法是标注器工具借助标签工具完成分类,、图片目标框选,、注释和标签等工作。
由于标注员的能力不均衡以及标注工具的功能不完善,因此数据服务提供者在标注效率和数据质量方面均存在不足。但也有一些领先的行业实践者,通过加强工程化的技术研发和更具科学性的流程化管理,提升「人机协作」能力,通过辅助工具等另外,目前,许多数据服务提供商忽略或不具备人机协作能力,并且没有意识到 AI 行业对数据标注的相互影响。例如,AI 辅助工具不仅可以有效地提高效率,而且可以并大大提高标注准确性。
从头部代表企业云测数据的布局中我们能看到机制与工具的巨大作用。

在云测数据标注平台的流程管理上,可准确地把控从创建任务、分配任务、标注流转到质检/抽检等环节,实现对数据标注过程的全流程掌控,数据标注后经过审核、质检、验收等不同环节确保数据准确性。并且标审分离,风险管控机制完善,并支持平台的私有化部署,可更好的提高数据标注的效率、精准度,全方位保证数据的隐私安全。在 2020 年中国国际服务贸易交易会上,云测数据以此完成了「高精度数据标注」下「标注项目最高交付精准度 99.99%」的领先成果发布。这正是很多「小作坊」难以实现的成绩。,更是推动数据标注行业的意义从「AI 产品训练」到「AI 产品落地」的一个里程碑事件。
一个更现实的例子是,为了提升 OCR 深度学习的效率,Testin 云测与英特尔联合进行了探索,并重点从基础设施平台配以工具套件来构建解决方案,用软件加速以及硬件支撑两个角度对 OCR 方案进行优化。将 AI 测试中的 OCR 识别时间从 2 秒降低到 0.3 秒左右, 实现了 6 倍的性能提升。为此,云测数据也成为了英特尔"AI 百佳"优秀企业。
伴随着 AI 能力的深入,数据标注也涌入了广泛的应用场景。包括自动驾驶,、智能安防全、,新零售,、人工智能教育,、工业机器人,、智能农业以及其他领域。

但不同的场景具有不同的标签标注要求。例如自动驾驶行业主要侧重于行人识别、车辆识别、交通信号灯识别、道路识别等。安全防行业主要侧重于面部识别、面部检测、视觉搜索行为轨迹、关键点和车牌认出识别等。甚至,AI 行业应用场景逐渐趋于碎片长尾化,产生了大量新兴垂直领域的数据需求,如疫情期间的口罩识别应用等。
定制场景化的服务和技术深入成为了数据标注行业的第二座大山。于是,场景化数据采集成为了关键。云测数据通过行业首创「场景实验室」来解决这样的问题,它让云测数据可以进一步满足场景化数据的需求,在人工智能技术应用到更多的垂直场景中发挥重要的支撑作用,这甚至也为行业提供了一种新的参考模式。

第三座大山则需要靠提技术研发能力进行攻克。纵观国内外人工智能数据服务厂商,各家企业在模式、技术、服务等方面各有差异,但综合人工智能发展需求和服务厂商的情况来看,技术研发能力对提效提质起着底层的支撑作用,是确立行业地位的关键一步。
一个更现实的例子是,如在云测数据标注平台工具的设置中,一些标注物体的属性快速选择、标注物体的归档及一些快捷键的使用;又或者在 3D 点云数据标注中的「2D\3D 融合」、「自动贴合」等功能。在「2D3D 融合标注」中,可在标注界面显示 3D 场景对应的 2D 图片,并且 3D 中的标注物会与 2D 中的标注物相对应,从而进行更加精细化的标注,配合快速切帧、辅助框、有效标注区域、预置框、自动贴合等一系列辅助功能,可大大提高标注效率和准确度。
得益于在人工智能数据服务领域的强悍实力,云测数据在中国科学院主管、科学出版社主办的核心杂志《互联网周刊》联合 eNet 研究院共同发布的《2020 年数据标注公司排行》中位列第一位。
综上所述,数据标注行业的机会十分诱人,但同时竞争和挑战也同样艰难。
数据标注企业似乎正在进行一场「铁人三项」竞赛。高精度数据标注、场景化数据采集、数据标注平台能力成为了竞争的核心要素。
在可预见的产业转型时期,中型和大型数据服务提供商都无法避免这种转变。只有增强自身的技术实力和赖以生存的核心能力不断更新迭代,他们才能在新时代的「掘金热潮」中脱颖而出。