“史诗级产品”！GPT-4来了：看图玩梗考律师能力超90%人类-快科技-科技改变生活

能打败GPT的只有OpenAI自己！

ChatGPT火遍全球才四个月，OpenAI就带来了更强大的GPT-4。

目前来看主要特点是：

逻辑推理更强，能代替你考律师证

文字输入更多，限制提升至 2.5 万字

识图能力，甚至可以给你讲个笑话

更聪明，很难PUA它了

更安全，忽悠它越狱更难了

除此之外，更重要的是，OpenAI还开放了GPT-4的API，这意味着基于GPT-4会衍生出各种各样的APP和花样功能。

微软营销主管在GPT-4发布后第一时间证实，微软的新必应已经用上了GPT-4。

此外，基于GPT-4的软件也开始涌现出来，有帮助盲人和低视力用户提升视觉能力的。

也有基于GPT-4打造的教育、编程软件，他们甚至开始用GPT-4打起广告招募学员了...

而GPT-4的商业前景并不止这些，玩梗讲故事、写代码、考试等，各种专业和学术水准，直接和人类相当！

能力超90%人类

你能想象10秒生成一个网站，速成一篇论文，标准化考试始终名列前茅的大佬吗？GPT-4就是传说中“别人家的孩子”。

与ChatGPT所用的模型相比，GPT-4不仅能够处理图像内容，且回复的准确性有所提高。

而且一本正经胡说八道的情况，基本不会再出现了。

通俗来讲，GPT-4提高了ChatGPT的核心技术，相比此前版本，具有更广泛的一般知识和解决问题的能力，使得聊天软件能够以更高的准确度解决更难的问题。

OpenAI表示，新模型产生的错误答案更少，将更少地偏离谈话轨道，更少地谈论禁忌话题，甚至在许多标准化测试中比人类表现得更好。“当任务的复杂性达到足够的阈值时，差异就会出现”，GPT-4更可靠、更有创意，并且能够处理更细微的指令。“

表现究竟有多好？

考试基本全过

据OpenAI 透露，GPT-4 通过了所有基础考试，而且还是高分通过。

比如，GPT-4在模拟律师资格考试的成绩在考生中排名前 10% 左右，在 SAT 阅读考试中排名前7%左右，在SAT数学考试中排名前11% 左右。

相比之下，原先的最强产品GPT-3.5 ，真实得分在倒数10%左右，GPT-4 的强大可想而知。而且满分为800分的 SAT Math，它从590 分提升到了700 分。

看图玩梗

OpenAI 花了 6 个月的时间使用对抗性测试程序和 ChatGPT 的经验教训对 GPT-4 进行迭代调整，从而在真实性、可控性等方面取得了有史以来最好的结果。

GPT-4使用了第四代大型语言模型，与之前的GPT系列相比，GPT4最重大的突破就是实现了多模态化。

具体来说，就是可以接受文本和图像形式的提问了，新能力与纯文本设置并行，允许用户指定任何视觉或语言任务。

不光能识图还能根据文本创造的语境来理解图片，通过穿插的文本和图像组成的输入，它能够生成自然语言、代码等文本输出。此外，还能一秒识梗，还能解释梗在哪里，为什么会有这个梗。

它的读图能力不仅能用于理解幽默，还可以用于进行更学术的应用。处理更复杂的图像信息，包括表格、考试题目截图、论文截图。

比如在提供一张柱状图时，它可以从中抓取关键信息，做出总结并进行进一步的计算分析；而当提供一些论文的截图时，它还能处理图片中的文字和图中图，精炼其中的要点，并归纳出论文图片里的主旨大意。

不过Open AI表示，目前图像输入仍处于研究预览阶段，暂不公开。但Open AI公司已经在其官网上为大家展示了些图像输入的例子。

比如当用户问到这张图片有什么好笑的，它是这么回答：

GPT：图片显示了一个“闪电电缆”适配器的包，有三个面板。

1:智能手机，VGA接口(一个大的，蓝色的，通常用于电脑显示器)插入充电端口。

2:“闪电电缆”适配器的包装上有一个VGA连接器的图片。

3:VGA连接器的特写，末端有一个小的Lightning连接器(用于给iphone和其他苹果设备充电)。

这幅图的幽默之处在于，把一个大而过时的VGA接口，插入一个小而现代的智能手机充电端口是荒谬的。

再比如，当用户问你能解释一下这个图片的梗吗?

GPT-4：这张图片是把两件不相关的事情结合在一起的笑话:来自太空的地球图片和鸡块。

这个表情包中的幽默来自于文字和图像的意外并置，文本设定了对地球宏伟形象的期望，但这个形象实际上却是炸鸡块。

虽然一本正经解释梗的感觉有点怪，但GPT-4显然是理解了图片之后才能有这番解释出现，就是GPT系列模型进步最大的地方，

除此之外，GPT-4 的长度限制提升到 32K tokens，即能处理超过 25000 个单词的文本，并且可以使用长格式内容创建、扩展对话、文档搜索和分析等。

OpenAI 还贴心地发布了 GPT-4 开发者视频，手把手教你如何自己当程序员、检查错误信息、报税。

关于“胡编乱造”和“有害答案”

OpenAI称，该公司花费6个月的时间，利用对抗性测试程序和ChatGPT的经验教训迭代调整GPT-4，从而在真实性、可操纵性和拒绝超出设定范围方面取得了有史以来最好的结果。

在公司内部的对抗性真实性评估中，GPT-4的得分比最新的GPT-3.5高出40%，相应的“不允许内容请求的倾向”降低了 82%，根据政策响应敏感请求（如医疗建议和自我伤害）的频率提高了29%。

Open AI也表示“至少对我们而言，GPT-4训练运行前所未有地稳定，成为首个能够提前准确预测其训练性能的大型模型。”

该模型在多种语言方面均表现出优越性。OpenAI称，在测试的26种语言中，GPT-4在24种语言方面的表现均优于GPT-3.5以及其他大语言模型语言性能表现。其中还包括了像拉脱维亚语、威尔士语、斯瓦希里语这些冷门到邪门的语言。

其中GPT-4的中文能够达到80.1%的准确性，而GPT-3.5的英文准确性仅为70.1%，目前GPT-4英文准确性提高到了85.5%。

也需要改进

当然Open AI的新孩子也并不全然都是优点，在推特上就有用户连夜写出了自己的一份心得测评说，GPT-4还是和以前一样，不太会幻想未来；仍然回避一些敏感的话题。

此外，GPT4对于这种非文本输入的处理能力还是有限，比如GPT-4在GRE数学部分上只取得了55分，在SAT的数学部分上只有52.6分的成绩。

通用人工智能时代来了

在ChatGPT凭借一己之力，在极短的时间内引爆全球AI产业变革的时候，微软、谷歌等科技巨头有了危机感，准备先下手为强，抢夺市场。

微软大张旗鼓的表示新版必应已搭载GPT-4，谷歌也发布了Big Bard，其内部正在测试一款名为“Apprentice Bard“的 AI 模型，它基于一种”突破性的对话技术”——LaMDA ，可提供问答搜索能力。甚至连布林本人都亲自来改代码了，只为与ChatGPT竞争。

首富马斯克也想分一杯羹，马老板频频与一位曾在OpenAI短暂工作的两年的员工建立联系，试图成立AI实验室，开发出ChatGPT的替代品。

针对微软和OpenAI的合作，谷歌也完全复制了这个模式，支持了一家由前OpenAI员工组成的初创公司——Anthropic，打造了一款ChatGPT的最强竞品，目前还在优化构建方面。

在中国市场，也有一些大语言模型可以期待，比如百度的文心一言，将会在明天发布。原美团联合创始人王慧文的创业公司“光年之外”也是如火如荼。

随着这些AI大模型的落地，我们距离通用人工智能也越来越近了。

文章出处：猎云网

相关报道

最热文章排行查看排行详情

邮件订阅

分享到