以下文章来源于科技有态度 ,作者李佳师
前几天,是微软搜索必应(Bing)在中国落地十周年的生日,我去了微软亚太研发集团参观微软创新展示中心。在展示中心现场见识并体验了不少微软的AI应用和新必应,这些AI“魔法器”,有一些此前或多或少听闻过,但亲眼见实与此前的雾里看花,感受完全不同。关于微软新必应,关于Copilot,关于元宇宙有不少干货。
有人说,今年因为生成式AI,使得微软搜索引擎大放异彩 。因为投资Open AI ,所以微软必应获得了Open AI的GPT4大模型的加持。有了大模型加持的微软新必应( New Bing)今年 2月27日上线,当天全球下载量就暴涨了十倍,目前,新必应已经覆盖全球169个国家和地区,超过10亿人次的对话,这次体验,希望揭秘 “一夜涨十倍”的缘由。
先说我在现场看到印象比较深刻的新必应和几个AI系统。
一是“必应详解必应”和“80页PPT给出概要”。我用自然语言问必应:被AI加持的新必应有哪些不同?会给世界带来哪些深刻影响?“必应回应说:“新必应是由微软公司开发的搜索引擎,它使用了人工智能技术来提供更加智能化的搜索结果。与旧版必应相比,新必应具有更快的搜索速度、更准确的搜索结果和更好的搜索体验。新必应的推出将会为用户提供更加便捷、高效的搜索体验,同时也将推动人工智能技术的发展。关于新必应对世界的影响,它将会为人们提供更加智能化的搜索服务,帮助人们更快地获取所需信息,同时也将推动人工智能技术的发展。但是,人工智能技术的发展也可能会带来一些负面影响,例如人工智能可能会取代一些人类工作。因此,我们需要在推动人工智能技术发展的同时,也需要考虑如何应对可能带来的负面影响。”
关于这个问题,必应给出的答案是客观,也比较全面的,又问了几个其他问题,在聊天模式下的必应语态还是比较有人情味,注意到对话模式下还有几种对话样式可选:有创造力、平衡、精确。
此前的微软官方信息显示,新必应可以快速给出PDF和网页概要,也可以生成报告、写故事和诗歌等,于是我在现场测试了80多页的PPT 给出概要,大约几秒必应就能总结出概要,而且概要的条数由你自定义。很多人都有读长文章头疼的感受,如果是必须读的长偏报告、论文更是脑袋大,读半天才发现不是自己想要的,时间又白搭了,但是AI读取信息的速度远远比我们快得多,每秒读几个G都是小菜。这意味着搜索的结果到底是不是你想要的,几秒就有定论。
二是语音合成周迅声音。只是采集了30分钟演员周迅的语料,就可生成完全和周迅一样的声音朗读《狂人日记》, 还可把周迅朗读实时转换成英语、法语、西班牙语、意大利语等。大家都感慨,以后完全不用学外语了,不管你母语是什么,都可以想要什么语就变什么语,还是你自己的声音调调。一个媒体人只是对系统讲了一句话,几秒钟的训练,系统朗读出来的《狂人日记》声音调调、节奏就完全是她的。
三是文生“无限”图像与视频的NUWA(女娲)。这个多模态大模型此前有所耳闻,它可以提供文本到图像、视频的生成,图像补全等一系列能力,其中“无限”生成图像、视频是一大看点。
当天见识了“女娲”的能力,只用清明上河图的局部一小块,即可生成无限延展、高清的清明上河图,在参观时有人发现生成版的清明上河图画面上的百姓似乎有点多。微软技术专家解释说,这与预设的参数有关,可以根据需要调整。
一个资深媒体人点击屏幕的输入处说:“请用波提切利风格画观音像。”几秒种后NUWA生成的波提切利风格观音,富有韵律、线条精巧、细润、恬淡、高清、惟妙惟肖。
从生成式AI的挑战看,文本生成的难度小于声音,而声音的难度小于图像,图像的难度小于视频,无论是生成图像还是视频,无论是清晰度、准确性与所需时间等维度看,NUWA在多模态大模型中,都是领先的。
参观微软创新中心,有几个感受。
一是“重构”。这个世界所有的一切正因生成式AI而重构,比如搜索引擎,因为有生成式AI的加持,新必应与用户的交互方式和搜索思路发生了革命性变化,过去的搜索核心是关键字,方式是输入关键字、关键信息,现在新必应在主页前端引入了聊天机器人,用户既可以在对话框输入关键词,也可以用自然语言和AI机器人对话,找到自己想要的答案,获得创作的灵感。
事实上,很多时候当我们打开搜索引擎,并不一定知道自己到底想要什么,只是一种“朦胧”,只是某些“方向”,与机器人的对话,能够让我们将“朦胧”变得“清晰”,将方向变得精确。而更大的魔力在于“生成”,AI加持的新必应能够快速生成直接结果,不管你要的是文字还是图片或是视频,AI都能够以更准确、更有趣的方式将答案或者是创意给到用户,无论是从效率还是创造力以及体验的维度看,新必应带来的变革都是革命性的。
二是“嵌入”。从新必应到Copilot(副驾),微软正用AI重构所有产品与服务,将AI“嵌入”到各个业务流程和关键场景中,让AI成为无处不在的“副驾”。
任何一个技术的持续流行和大规模应用,通常都具备两个特征,一是便利性,即好用、易用;二是嵌入性,真正地嵌入和融入到现实的场景中,成为工作和生活流程中必不可分的部分。解析ChatGPT的爆火的原因,其实是通过一个可用、好用、有趣的聊天应用,将大模型的AI能力带到普罗大众的面前,解决了AI使用的便利性、易用性,但ChatGPT没有做好的另一个部分是“持续使用”,目前ChatGPT的用户使用量在持续下降,原因就ChatGPT与人们的生活和工作并非强关联,并没有进入和嵌入到大部分人的工作流程中。而微软是从两个维度并驾齐驱,通过AI重构各个产品线并以“副驾”的方式嵌入到用户的工作场景和业务流程当中。应该说,这样的AI落地路径不仅适合微软,同样值得所有的IT供应商借鉴。
目前微软已将搜索、浏览、聊天和人工智能融合为一个统一的体验,让网络人工智能副驾(Web Copilot)提供更好的内容结果、更完整的答案、新的聊天体验和内容生成能力。11月1日,微软Microsoft 365 Copilot正式上线,它能够总结并清理用户未读邮件和消息,提炼会议摘要,根据需求挖掘讨论细节,帮创建PPT 文案等。也是在这一天,微软宣布与西门子联手即将推出“西门子工业副驾”,希望改善制造过程中人与机器之间的协作,为实现 “工业元宇宙”铺平道路,并简化设计工程师、一线工人和其他业务职能团队之间的虚拟协作。通过种种“副驾”,微软正在让AI进入每一个生产力场景。
三是关于“昨天与今天”,今天的元宇宙是昨天的人工智能。在参观时,创新中心的专家介绍微软未来的三大业务方向是:“人工智能”、“虚拟现实”、“云计算”。人工智能与云计算很好理解,而且今年微软在这两个领域业务的传播声浪都很高,但关于虚拟现实业务此前有不少传言称微软或将放弃,并已解散工业元宇宙团队等。
回应这个问题,微软技术专家坦言,元宇宙的今天其实是人工智能的昨天,人工智能发展经历了几起几落,元宇宙的发展同样不可能一蹴而就,目前元宇宙在消费市场生态尚未建立,但在企业级市场已经有非常多的场景可以落地,而微软对待元宇宙的态度就如同多年前对于人工智能的态度一样,坚持长期主义并持续投资。
对于技术投资坚持长期主义,对于技术落地以更务实更无缝的方式嵌入,这或许是微软在这轮生成式AI大潮中成为赢家的理由。