行业资讯

格雷格・布罗克曼在接受采访时各表示,GPT-4并不完美,但绝对不同凡响
发布者:鸿腾智能科技(江苏)有限公司 发布时间:2023-03-16 08:55:01 点击次数:627 关闭
3月16日消息,人工智能研究公司OpenAI昨日发布了备受期待的文本生成AI模型GPT-4。OpenAI联合创始人兼总裁格雷格·布罗克曼(GregBrockman)在接受采访时表示,GPT-4并不完美,但绝对不同凡响
GPT-4在几个关键方面对其前身GPT-3进行了改进,例如提供更真实的陈述并允许开发人员更轻松地控制其风格和行为。GPT-4也是多模态的,因为它可以理解图像、注释照片,甚至可以详细描述其中的内容。

但是GPT-4也有严重的缺陷。就像GPT-3一样,该模型是“幻觉的”(即模型聚合的文本不相关或不够准确)并且可能会出现基本的推理错误。OpenAI在自己的博客上举了一个例子:GPT-4称“猫王”猫王(ElvisPresley)为“演员之子”,但实际上他的父母都不是演员。
当被要求比较GPT-4和GPT-3时,Brockman只给出了四个词:不同。他解释说:“GPT-4肯定是不一样的,虽然它还有很多问题和bug。但在计算机科学或法律等学科上有了跨越式发展,它在某些领域表现不佳,但现在已经达到了一个水平超越常人。”
测试结果支持布罗克曼的立场。高考微积分,GPT-4得4分(满分5分),GPT-3得1分,GPT-3和GPT-4之间的GPT-3.5也得4分。在模拟测试中,GPT-4得分在前10%,而GPT-3.5得分在后10%左右。
然而,GPT-4更关心前面提到的多模式。与GPT-3和GPT-3.5只接受文本提示不同,例如要求你“写一篇关于长颈鹿的文章”,GPT-4可以接受图像和文本提示来执行某些操作,例如识别。塞伦盖蒂的长颈鹿,及其内容的基本描述。
这是因为GPT-4教授图像和文本数据,而其前身仅教授文本。根据OpenAI的说法,训练数据来自“各种法律允许的、公开的来源,其中可能包括公开的个人数据”,但当被问及细节时,布罗克曼拒绝了。训练数据之前曾让OpenAI陷入法律困境。
GPT-4的图像理解能力令人印象深刻。例如,如果你输入“这张照片有什么好笑的?GPT-4将分解整个图片并正确解释笑话的要点。
目前,只有一个合作伙伴可以使用GPT-4的图像分析功能,这是一款名为BeMyEyes的视障应用程序。Brockman说,随着OpenAI评估风险和利弊,更广泛的推广将是“缓慢而深思熟虑的”。
他还说:“还有一些政策问题需要解决,比如面部识别和如何处理人像。我们需要找到危险区域在哪里,红线在哪里,然后加班寻找解决方案。”
OpenAI在Dall-E2的文本到图像转换系统中遇到了类似的道德困境。在最初禁用该功能后,OpenAI允许客户使用人工智能图像生成系统上传面部进行编辑。当时,OpenAI声称其安全系统的更新启用了面部编辑功能,因为它最大限度地减少了深度伪造和试图创建色情、政治和暴力内容的潜在危害。
另一个长期问题是防止意外、有害地使用GPT-4。该模型发布数小时后,以色列网络安全初创公司AdversaAI发布了一篇博文,展示了如何绕过OpenAI的内容过滤器并诱骗GPT-4生成网络钓鱼电子邮件、对同性恋者的攻击性描述以及其他令人不安的反文本方法。。
这不是语言模型中的新问题。Facebook的母公司BlenderBot、Meta的聊天机器人和OpenAI的ChatGPT也受到诱惑发布不当内容,甚至泄露其内部工作的敏感细节。但包括记者在内的许多人希望GPT-4能够在这一领域带来重大改进。
当被问及GPT-4的稳健性时,Brockman强调该模型经过了六个月的安全培训。在内部测试中,它响应OpenAI使用政策不允许的内容请求的可能性比GPT-3.5低82%,并且比GPT-3.5更有可能提供“事实”响应。GPT-3.5高出40%。
“我们花了很多时间了解GPT-4可以做什么,”布罗克曼说。“我们不断更新它,包括一系列改进,使模型更具可扩展性以适应个性或模式。人们想要什么。”
老实说,早期的真实世界测试结果并不是那么好。除了AdversaAI测试,微软的BingChat聊天机器人也被证明非常容易越狱。通过精心设计的输入,用户可以告诉聊天机器人表达爱意、威胁伤害、为大屠杀辩护并发明阴谋论。
布罗克曼没有否认GPT-4在这方面的缺点,但强调了该模型的新限制工具,包括被称为“系统”消息的API级功能。系统消息本质上是为GPT-4交互设置基调和边界的指令。例如,系统消息可能是:“您是一位总是以苏格拉底式方式回答问题的教师。您从不给学生答案,但总是尝试提出正确的问题,帮助他们学会独立思考。”
这个想法是系统消息充当护栏,防止GPT-4偏离路线。“找到GPT-4的基调、风格和本质是我们的一大重点,”布罗克曼说。“我认为我们开始更好地理解如何进行设计,如何使其成为一个可重复的过程,让你获得对人们真正有用的可预测结果。”
Brockman还提到了Evals,这是OpenAI用于评估AI模型性能的最新开源软件框架,这是OpenAI致力于“进化”其模型的标志。Evals允许用户开发和运行基准测试,以评估GPT-4等模型,同时检查它们的性能。这是一种大规模的模型测试方法。
“借助Evals,我们可以更好地了解用户感兴趣的用例并对其进行测试,”Brockman说。“将框架作为开源使用的原因之一是我们不再每三个月发布一个。新模型要不断改进。你不会做一些你无法衡量的事情,是吗?但是当我们引入新模型时,至少我们知道发生了什么变化。”
Brockman还被问及OpenAI是否会补偿人们使用Evals测试其模型。他没有承诺这一点,但他指出,OpenAI正在为请求它的Eevals用户在有限的时间内提供对GPT-4API的早期访问。
Brockman还谈到了GPT-4的上下文窗口,它指的是模型在生成更多文本之前可以考虑的文本。OpenAI正在测试一个可以“记住”大约50页的GPT-4版本,是普通GPT-4“记忆力”的五倍,是GPT-3“记忆力”的八倍。
Brockman认为,扩展的上下文窗口支持新的、以前未开发过的用例,尤其是在企业环境中。他为公司设想了一个人工智能聊天机器人,可以使用来自不同来源的背景和知识,包括来自不同部门的员工,以高度知情但对话的方式回答问题。
这不是一个新概念。然而,Brockman认为GPT-4的响应将比目前由其他聊天机器人和搜索引擎提供的响应有用得多。“以前,这个模型不知道你是谁,你对什么感兴趣等等。更大的背景肯定会让它更强大,大大增加它给人们的支持,”他说。

商务咨询 商务咨询
关于我们 产品展示 广告设计 客户案例 技术支持 联系我们

电话:0511-86930535(工作日)

手机:177-6865-8888(微信同号)

手机:137-7550-8287(微信同号)

零售:137-7550-7308(微信同号)