近日,由中国信通院(CAICT)等组织开展的2020大数据“星河(Galaxy)”案例评选结果出炉,百度智能云数据众包智能驾驶数据资产管理实践项目入选“数据资产管理优秀案例”。
据悉,该案例征集活动由中国信息通信研究院、中国通信标准化协会大数据技术标准推进委员会(CCSA TC601)共同组织开展,面向行业大数据应用、数据资产管理、隐私计算案例三大方向。
随着国家“新基建”的深入布局,人工智能行业迎来更加广阔的发展机遇,自动驾驶、智能交通是其中的重要赛道。百度作为中国智能驾驶领军企业,在智能驾驶领域积累了深厚的技术、能力和资源。
基于在智能驾驶行业多年的数据经验,百度智能云数据众包(以下简称“百度数据众包”)打造的“数据资产管理实践方案”,可提供数据采集、标注、存储、管理、训练、清洗、评测等全流程的配套产品和服务。
2020年12月30日,交通运输部发布《关于促进道路交通自动驾驶技术发展和应用的指导意见》,强力推动国内自动驾驶产业进一步发展。百度数据众包致力于通过优秀的智能驾驶数据资产管理实践,加速智能驾驶技术的应用落地,助力政府解决交通效率问题,推进企业实现智能化转型。
在百度本次入选案例实践中,某专注于智能驾驶研究的科技创新企业,需优化算法,提升自动驾驶能力由L2至L4级别,但该企业在智能驾驶算法训练方面,缺少多场景覆盖的道路数据、高质量标注数据、完善的数据集管理流程等,致使研发进度缓慢。由此,该企业选择与百度数据众包进行合作。
在充分考虑该企业内部的数据资源、业务应用现状后,百度数据众包为其提供了全流程数据资产管理解决方案。
该项目具备数据量大、场景种类多、准确率要求高等特性,对数据资产管理提出了极高的要求。对此,百度发起成立了自动驾驶数据资产管理专项委员会,提出一套有针对性的组织管理实施办法,包括资产管理组织架构、数据标准评判方式、数据资产管理流程、稽核检查评估办法,以及数据安全保障措施等。
在数据采集方面,完成跨越北京、上海两个城市2000公里道路的数据采集工作,最终累计交付1.5km点云分割结果、7w帧车道线、80w帧障碍物数据,验收正确率99%以上。
在数据标注方面,依托独有的、专业的标注人力与平台,高效、高质地完成了数据清洗、数据标注;上万种corner case场景,可帮助查找通过采集和标注建设的场景库是否有缺漏,助力客户L4级自动驾驶领域算法加速升级。
在数据管理方面,通过数据管理平台,客户可实现对数据的分层级管理,加工处理后数据的可视化,以及针对特定标签的数据检索等,帮助其构建完善的非结构化数据治理与管理体系,从而更有效地利用数据,提升模型训练和算法迭代效率,加快其自动驾驶模型落地。
项目过程中,依托百度上百万公里采集经验,百度数据众包为客户提供采集线路规划、筛选待标注数据方法,提升了道路采集效率,减少无效采集和标注浪费。此外,接入适合于不同场景的智能化算法,包括自动预标注技术、智能辅助算法与自动化质检算法等,极大提升了数据处理效率和数据交付质量。
数据资产化进程对企业带来的改变,将是具有颠覆与创新意义的,甚至会给企业带来“重生”。但目前,企业在AI数据采集、数据标注、数据管理等方面,还面临诸多痛点,包括高质量数据采集难、多场景数据标注难、多类型数据管理难等问题。
如何建立起符合自身数据特点,与自有业务相结合的数据资产管理体系,是企业当下及未来需要重点关注的核心问题。
百度数据众包依托百度10年AI数据经验、领先的产品技术能力,以及全国最大的AI数据标注基地——百度(山西)人工智能基础数据产业基地,致力于为客户提供一站式AI数据治理与资产管理方案,帮助企业对数据资产进行规范化、流程化的管理,让数据增值为企业带来经济与社会效益。