随着数字经济时代的到来,数据正在发挥着越来越大的价值,为各行各业的智能化转型提供动能。12月25日,以“技术驱动,释放数据要素价值”为主题的百度智能云TechDay暨百度技术开放日——数据众包专场在北京举行。百度作为一家深耕人工智能技术多年的公司,同时也是AI数据采集和标注的先行者和推动者,百度智能云数据众包依托百度10年AI数据经验、领先的产品技术能力和业界最大的数据标注基地,正在为上百家领军企业提供AI数据服务,加速产业升级。
数据是人工智能技术发展的“燃料”。在今年,“数据”首次被中央纳入生产要素,这代表数字中国建设再次提速。百度技术委员会理事长陈尚义表示:“2010年初,百度开始布局人工智能,是国内投入最早、技术最强、布局最完整的人工智能领军企业,也是最懂数据的企业。目前百度智能云数据众包已经成为业界规模最大、品牌和技术最强的AI数据服务商,可以为广大的AI开发者提供最专业、高质量的一站式数据采集标注等服务。”
百度技术委员会理事长 陈尚义
数据众包模式是群体智能的一种集中体现。北京航空航天大学计算机学院的孙海龙教授分享了面向大数据产业的群体智能遇到的机遇与挑战。他表示,群体智能是国家新一代人工智能发展规划的核心内容之一,为大数据智能产业发展提供重要的理论与技术支撑。特别是,数据众包广泛用于大数据感知、收集和分析等,已成为群体智能支撑大数据智能产业的重要形式,但仍面临着群智资源管理、任务调度分配以及结果汇聚等多方面的技术挑战,解决这些挑战性问题迫切需要学术界与产业界的深度合作。
北京航空航天大学计算机学院教授、博士生导师 孙海龙
一站式数据标注服务,引领数据产业发展
百度智能云数据众包打造的AI数据标注平台,实现数据从采集、接入、清洗、标注,到质量管理、交付等各流程的一站式管理。
数据采集方面,百度智能云采集资源覆盖40多个国家地区,全国8大方言区。百度智能云数据众包已实现到业内最快的人像采集速度,每周可采集人像3万个,采集语音5万条。
数据标注方面,百度智能云数据众包已经形成四大关键能力:支持全场景的数据标注工具、全流程的流程平台管理能力、智能的标注技术以及庞大的资源支撑的能力,能够针对各类AI应用场景数据需求,提供一站式AI数据服务。百度智能云数据众包沉淀了70余种数据标注的能力,近十年来已经为百度200多条产品线和业内上百家行业头部客户提供了近5万次AI数据服务,正确率最高达到99.99%。
会上,百度智能云数据众包团队揭秘了AI数据标注平台的核心技术。数据标注平台由工具平台、资源管理平台和任务分发管理平台组成。工具平台满足客户语音、图片、视频、文本、3D点云等全类型、全场景数据标注,支持点、线、框、区域等多种元素拖拽配置,每年支持数千个不同规则项目需求;资源管理平台与任务分发管理平台,打造从数据接入、任务分配、资源调度、质量审核、任务结算等全流程支撑体系,实现对百万级任务和数十万用户实时管理。借助机器决策,标注过程实现了人员和数据的自动流转,摆脱了人工干预,兼顾了效率和公平。针对用户历史标注行为进行深度挖掘,结合百度自身的用户画像能力,系统能自动描绘出全面、精准、多维的用户画像体系,为每一个数据标注项目推荐最合适的标、审人员,确保使用最匹配的人员为客户释放数据最大的价值,在保证质量的同时更兼顾了效率。数据标注平台以百度智能云AI、大数据、云计算等能力为底座,基于领域驱动的微服务架构、插件化的微内核架构,保障平台快速高效运行,为客户创造大规模高质量数据标注服务保驾护航。
值得一提的是,百度智能云数据众包不断探索前沿智能标注技术,从0到1,构建强大算法能力。目前,AI算法已贯穿标注前、标注中、标注后全流程,广泛应用于预标注、辅助标注、质量检查、人员画像等各环节,累计提升标注效率超60%,标注错误自动检出占比达70%,极大提升标注效率与质量。据介绍,AI辅助的智能标注引入后,实现人体骨骼点标注整体效率提升71%,OCR的辅助标签效率提升20%,3D连续帧障碍物预识别单帧效率提升28.8%。此外,数据众包与百度研究院合作的基于深度学习的三维点云等前沿标注技术持续激发AI数据的潜能,目前已在自动驾驶领域取得不俗进展。
首发数据服务与资产管理平台,提效AI算法模型迭代
作为此次活动的一大亮点,百度智能云发布了业内首个智能驾驶领域数据服务与资产管理平台,为智能驾驶企业用户提供一体化智能数据服务解决方案。数据服务与资产管理平台覆盖“数据采集、数据标注、数据管理、模型训练、模型评测”的人工智能开发全生命周期,帮助企业用户围绕数据打造AI Pipeline,提升AI算法模型迭代效率,让数据更好的驱动模型开发。数据服务与资产管理平台将以领先的数据服务,为客户打造AI数据闭环,加速客户数据价值实现。
数字经济时代,数据已经成为关键生产要素。现场的专家一致认为,未来数据质量、数据治理、人才培训、流程标准等将成为AI数据服务进一步发展的关键驱动,推动人工智能技术进入大规模应用。百度智能云数据众包作为行业实践的先行者,将依托“百度(山西)人工智能基础数据产业基地”的专业标注人力,以业界领先的技术实力赋能各行各业,持续释放数据要素的深层价值。