随着产业数字化带来的数据基础的日益成熟,人工智能在营销、金融、数字政府、零售、医疗等行业的落地持续推进,并开始带来显著的效益。也是随着人工智能技术的高速发展,AI在计算机视觉、智能语音领等特定领域实现了单点突破,但尚未具备通用性,AI技术整体还处于依托数据驱动的感知智能阶段。
目前,数据和智能处于密不可分的阶段。一方面有数据才能实现智能,人工智能基于数据训练,海量和优质的训练数据持续推动AI算法额持续优化,进一步提各行各业应用人工智能的水平,让数据价值得以真正的发挥;另一方面,人工智能也使得数据更加丰富,随着各种各样的AI应用的落地,越来越多的用户的使用催生出更多数据的产生。
这就造成了随着算法模型不断深入垂直行业的细分业务场景,相对应的数据标注的复杂度、精准度等要求都有提升。
首先,要求标注人员掌握更复杂的行业知识,进一步提升了数据标注的门槛和成本。例如,医疗领域对医疗影像和文本的标注,需要具备医学专业知识的人员进行。从数据类型来看,文本类、3D图像类数据不断增加,标注复杂度高于早期的平面图像类数据。
一个成功的AI应用与其他应用的差异化对比,更多的来自于精准大量的训练数据。可以说,具有更高精准度的数据已成为当前训练阶段的主流需求。国内AI数据服务头部企业——云测数据在数据采集标注领域的重要优势之一,就是能提供足够精准的训练数据,因此其最高99.99%的精准度可较好的应对人工智能数据精准度提升的情况,行成企业护城河。
其次,对于垂直细分场景,需要根据建模需求,采集特定环境下、特定对象的精准“小数据”,需要更专业的数据采集手段。例如,对于微表情、假表情识别的场景需要“演员”按要求配合表演,汽车碰撞场景数据需要在实验室场景内采集。进一步地,这些特定业务场景数据是数据拥有方的宝贵资产,需要保证数据标注过程中的安全性。
这些数据采集需求相对复杂、聚焦,难度较大,对AI数据服务商的场景化采集能力提出了很高的要求。随着人工智能对长尾场景的数据需求进一步扩大,未来,场景数据将拥有更广阔的增量空间,具有相关采集工具、资源、能力的数据采集标注服务商将拥有极大的竞争优势。以云测数据为例,为进一步满足场景化数据的需求,首创了“数据场景实验室”进行相应的场景化数据生产,以满足AI行业应用场景逐渐趋于长尾和碎片化的趋势。
人工智能对数据提出更高需求,展现了在人工智能产业化落地进程中,数据发挥的重要作用。
现在的人脸识别、自动驾驶、语音交互等应用,对于各类标注数据有着海量需求,可以说数据的质量决定了当今人工智能的高度。
而在2020年4月发布的《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》中,也明确数了据要素市场化配置上升为国家政策,为数据的广泛流动和市场价值转化提供了依据,这将有效支持人工智能在全社会的实践。
但由于不同数据的复杂性和差异性,数据采集标注对于大多数的数据需求方来说并非易事,这背后都离不开具有专业知识、从业经验和高质量数据保障的第三方AI数据服务商们。未来,在AI产业落地应用的下半场,人工智能将持续“加码”数据,专业的AI数据服务商将释放出更大的价值,推动全行业的智能化发展。