腾讯优图: 多模态融合是计算机视觉技术发展的重要趋势-快科技-科技改变生活

12月19日-20日，由腾讯发起的2020 Techo Park开发者大会于北京顺利召开。作为面向全球开发者和技术爱好者的年度盛会，本次开发者大会针对行业开发者、ISV、科研机构、高校师生、创业公司、开源社区工程师等设置了很多的亮点内容和创新活动，来自国内外200多位技术大咖为大家带来一场年度的技术嘉年华。腾讯优图实验室总监黄小明出席大会并在AI分论坛上做了主题为《视觉AI技术的探索与实践：“新基建时代”下的生产力》致辞分享。

[MD:Title] 腾讯优图实验室总监黄小明

计算机视觉是机器认知世界的基础，也是最重要的人工智能技术之一。黄小明认为，计算机视觉将机器学习应用于视觉领域，构成人工智能的感知基础，加速人工智能在相关行业应用落地。

黄小明表示，面对不同场景需求，计算视觉的准确度正在不断提高。随着视觉技术精度不断提升，已经广泛应用在零售及金融民生等领域。制造业中的质量检查和控制，成为工业视觉的重要应用场景。中国是世界最大的制造业国家，它的生产力价值正在显现。

“在未来的计算机视觉研究中，多模态融合、多技术融通是一个重要的趋势。”黄小明表示，人工智能正在从语音、文字、视觉等单模态智能，向着多种模态融合发展，结合分布式平台的计算能力，实现更高精度的场景构建，和对动态场景的处理能力。

以下为黄小明演讲实录：

各位嘉宾：

我是腾讯优图实验室的黄小明，非常荣幸在这个场合有机会跟各位同仁就一些技术问题进行探讨。

视觉AI技术是我研究的主要领域之一。近年来，深度学习技术、GPU算力以及海量数据，作为AI技术发展的三大催化剂，加速了视觉技术在各行各业应用落地，助力产业互联网升级。计算机视觉的广阔应用前景，为我们展开了前所未有的壮丽图景。

目前，计算机视觉已经在工业视觉、OCR以及内容理解等领域获得重大突破，随着计算机视觉技术精度和成熟度的提高，正不断渗透到娱乐、医疗、零售行业等更多重点应用场景，推动技术变革和用户体验提升。例如，在泛娱乐领域，以计算机视觉为基础的人脸检测技术、人脸关键点定位技术、人脸融合以及人像分割技术等AI视觉技术，通过对泛娱乐场景各类基础人脸研究和挖掘整合，打造出多项泛娱乐人像特效应用，为泛娱乐行业用户提供各类新奇酷炫的AI视觉特效和娱乐体验。

疫情期间，由优图提供视觉AI技术支持的腾讯“防疫健康码”，让民众通过申请涵盖自身健康信息的二维码，获得电子出行凭证，方便民众在疫情期间出入公共场所，也利于为政府部门统一管理。在各地复工复产的高峰期，各地健康码互通，民众出入不同省市都只用进行一次健康状况的认证，加快复工复产进度，也使国家在疫情期间对信息的统一管理更加精准有效。腾讯“防疫健康码”是服务用户最多、增长速度最快的健康码。截至目前，腾讯防疫健康码服务9亿用户、累计亮码150亿人次，累计访问量500亿次。背后都有我们的视觉AI在发挥作用。

在未来的计算机视觉研究中，多模态融合、多技术融通是一个重要的趋势。人工智能正在从语音、文字、视觉等单模态智能，向着多种模态融合发展，结合分布式平台的计算能力，实现更高精度的场景构建，和对动态场景的处理能力。

当然我们的工作还面临着诸多挑战。目前还无法建立一个通用的“视觉机器”，无法做到统一模型同时满足不同场景要求。这意味着当下机器学习的训练成本较高，也没有达到产业化应用的理想状态。要解决这个问题，需要从端到端打通各个模态之间的关系，形成可以真正多维度交互的智能机器，让感知智能升级为认知智能。

计算机视觉的技术前景是令人兴奋的，还有很多未抵达的神奇地域等着我们去探索。阿兰·图灵曾说过：“这不过是将来之事的前奏，也是将来之事的影子。”从人类开辟出人工智能领域，到今天真正的应用落地，时光只不过是历史一瞬。未来，让我们仰望星空，脚踏实地，共同创造中国计算机视觉的新辉煌，期待各位的分享。

相关报道

最热文章排行查看排行详情

邮件订阅

分享到