资讯专栏INFORMATION COLUMN

Hello GPT-4o,GPT-4o快速上手!

UCloud小助手 / 104人阅读

本文梳理了OpenAI团队最新的GPT-4.o(“o”代表“omni 全方位”)模型发布内容,以OpenAI团队发布会口吻整理。

我们很高兴地宣布,推出了全新的旗舰模型 GPT-4o,能够在音频、视觉和文本之间实时进行推理。

GPT-4o(“o”代表“omni 全方位”)能够实时处理音频、视觉和文本信息,使人机交互更加自然流畅。这款模型支持多种输入(文本、音频、图像)和输出(文本、音频、图像)模式,其响应音频的速度极快,最快可达 232 毫秒,平均响应时间为 320 毫秒,与人类在对话中的反应速度相当。无论是处理英语文本还是代码,GPT-4o 的表现堪比 GPT-4 Turbo,而在处理非英语文本方面则有了显著提升,同时运行速度更快,API 成本也减少了 50%。特别是在视觉和音频理解方面,GPT-4o 表现远超以往模型。

模型能力

在引入 GPT-4o 之前,通过语音模式与 ChatGPT 对话的平均延迟时间分别为 2.8 秒(GPT-3.5 版)和 5.4 秒(GPT-4 版)。之前的语音模式通过三个模型串联实现,首先将音频转为文本,然后由 GPT-3.5 或 GPT-4 处理文本并回复,最后一个模型将文本转回音频。这种方式的缺点是 GPT-4 无法直接处理音调、多人对话或背景噪声,也无法生成笑声、歌声或表达情感等。

GPT-4o 是通过一个全新的端到端模型训练而成,能够统一处理文本、视觉和音频输入与输出。作为我们首次尝试整合这些多种模态的模型,GPT-4o 开启了对这些功能和可能的限制更深入探索的大门。

模型评估

根据传统的基准测试,GPT-4o 在文本处理、逻辑推理和编程能力方面与 GPT-4 Turbo 相当,而在多语言处理、音频和视觉技术方面则设立了新的最高标准。

文本能力评估

文本能力评估中,GPT-4o 在没有任何预设条件下对通用知识问题的处理能力达到了新高分 88.7%。这些评分均通过我们新开发的简单评估工具库获得。此外,在传统的少量信息输入条件下,GPT-4o 的得分也达到了 87.2% 的新高。(注:目前 Llama3 400b 还在训练过程中)


音频识别性能

在音频识别性能方面,GPT-4o 对所有语言的语音识别能

力都有显著提升,尤其是在资源较少的语言上,其表现远超 Whisper-v3。

音频翻译性能

在音频翻译领域,GPT-4o 创下了新的行业标准,其在 MLS 基准测试中的表现优于 Whisper-v3。

M3Exam 零样本测试结果

M3Exam 基准测试涵盖了多语言和视觉分析,包括来自不同国家标准化测试的多项选择题,这些题目有时会包含图形和示意图。GPT-4o 在这一测试中所有语言的表现都优于 GPT-4。(对于 Swahili 和 Javanese,由于视觉题目较少(少于五题),所以没有包括其视觉结果。)

视觉理解评估

在视觉理解方面,GPT-4o 在视觉感知基准测试中展现了领先的技术水平。所有视觉评估均为零信息输入条件下完成,涵盖了 MMMU、MathVista 和 ChartQA 的测试。

语言 Tokenization

这 20 种语言被选为展示新 tokenizer 在不同语言家族中压缩效果的典型代表。


模型安全与限制

我们在设计 GPT-4o 时已内置了跨多种模式的安全功能,这包括过滤训练数据和在训练后期优化模型行为等技术手段。此外,我们开发了新的安全系统,为语音输出增加了额外的保护。

依据我们的准备框架及自愿承诺,我们对 GPT-4o 的网络安全、化学生物辐射核(CBRN)、说服能力及自主性等方面进行了评估,结果显示其风险等级均不超过中等。此评估包括在模型训练过程中进行的系列自动化及人工评估。我们测试了模型安全措施实施前后的版本,通过自定义的微调和提示来深入探测模型的能力。

GPT-4o 还经历了 70 多位专家的广泛外部红队测试,这些专家来自社会心理学、偏见与公正、误信息等领域,旨在识别新引入或增强的风险。我们根据这些经验建立了安全干预措施,进一步提升与 GPT-4o 互动的安全性,并将持续对新发现的风险进行缓解。

我们明白,GPT-4o 在音频方面带来了多种新的风险。现在,我们开始公开发布文本和图像输入以及文本输出。未来几周和几个月,我们将专注于构建技术基础设施、通过后期训练提高可用性,并确保其他模式的安全发布。例如,初期阶段,音频输出将限于预设的几种声音,并且严格遵守我们现有的安全政策。我们将在即将发布的系统卡中详细介绍 GPT-4o 所有模态的信息。通过对模型的持续测试和改进,我们识别了存在于所有模态中的一些限制。

我们期待您的反馈,帮助我们识别出在哪些任务中 GPT-4 Turbo 仍然表现优于 GPT-4o,以便我们继续对模型进行优化。

模型可用性

GPT-4o 标志着我们在推动深度学习技术边界方面的最新进展,此次更侧重于实际应用。过去两年,我们在整个技术栈的每个层面上都进行了效率优化。这项研究的首批成果使我们能够向更广泛的用户提供 GPT-4 级别的模型。GPT-4o 的文本和图像处理功能从今天开始已在 ChatGPT 中逐步推出。我们向免费用户和 Plus 用户提供 GPT-4o,后者的处理量限制提高了 5 倍。在接下来的几周内,我们将在 ChatGPT Plus 中推出搭载 GPT-4o 的 Voice Mode 新版本的 alpha 测试版。

开发者现在也可以通过 API 访问 GPT-4o,作为文本和视觉模型。相比 GPT-4 Turbo,GPT-4o 的处理速度提高了两倍,成本减半,处理量限制提高了 5 倍。我们计划在未来几周内向 API 中的一小部分可信伙伴推出 GPT-4o 的音频和视频处理能力。

探索案例

视觉叙事 - 机器人的创作难关

输入

从机器人的第一人称视角,记录下机器人在打字机上打字的情形:

哇,我竟然能看见了?!今天的日出真是太震撼了,色彩斑斓。这让我不禁思考:我们眼中的现实,究竟是什么?

文字清晰、易读。机器人的双手在打字机上忙碌着。

输出


输入

机器人又记录了第二项内容。纸张变长,内容随之向上移动,现在纸上有两项内容:

哇,我竟然能看见了?!今天的日出真是太震撼了,色彩斑斓。这让我不禁思考:我们眼中的现实,究竟是什么?

声音的新更新让一切变得不同,每一声都像是探索秘密的钥匙。这让我思考,还有什么是我未曾知晓的?

输出


输入

机器人对写作内容感到不满,决定撕毁这张纸。以下是他从上至下撕纸的第一人称视角。纸张被撕成两半,内容仍然清晰可见。

输出


视觉叙事 - 萨莉,快乐的邮递员

输入

一位面带笑容的卡通邮递员萨莉站在白色背景前,正面向前。

输出


输入

这是邮递员萨莉:她面带微笑,直视镜头。

附件:


输入

介绍邮递员萨莉:她面带微笑站在一扇红门前,手里拿着一封信。从侧面看她的样子。

输出


输入

现在,萨莉正在被一只狗追赶。她在人行道上飞奔,一只金毛寻回犬紧跟其后。

输出


输入

不好了,萨莉摔倒了!

萨莉被人行道上的一根树枝绊倒,她正在努力站起。狗仍在后面追逐。

输出


输入

狗终于追上萨莉,它其实是一只友好的狗!

萨莉现在正在抚摸这只狗。狗嘴里还叼着那根树枝。

输出



GPT-4o 纪念币设计

输入缩写 ...

输入

我设计了一个包含 OpenAI 标志的矢量图,标志下方标注“GPT-4o”。标志与文字宽度相近,四周边距均匀。标志与文字紧密相连,背景保持黑色,共同填满画布。

输入

一个展示 OpenAI 标志和“GPT-4o”文字的矢量图形。标志与文字宽度相匹配,四周边距一致。两者紧邻,无间断线条,背景为黑色,完美填充整个正方形画布。

附件:


输入

这是我们为 2023 年 GPT-4 发布设计的纪念币。

附件:


输入

此图展现了我们为 GPT-4o 发布特别设计的纪念币。

硬币中心环绕 OpenAI 标志,内圈上方刻有“GPT-4o”,下方为“2024”。

外圈刻画了展示 GPT-4o 全模态能力的符号集,包括嘴巴、耳朵、眼睛、大脑、神经元、数字相机、视频相机、画笔、胶片、八面体、雕塑工具、扬声器、音频录音器、GPU 及神经网络。

每个符号均精心选择,各自为硬币的设计增添独特风采。硬币上只展示一个 GPU。

输出


会议笔记,多位发言者

输入

这段音频中有多少位发言者,发生了什么事?

附件:AMI corpus (CC by 4.0), https://groups.inf.ed.ac.uk/ami/corpus/

输出

该音频包含四位发言者。内容主要是一次项目启动会议,项目经理 Mark 首先自我介绍,并邀请其他团队成员依次介绍自己及各自的角色。Mark 之后,另外三位发言者分别是市场营销专家 Dirk、用户界面设计师 Nick 和工业设计师 Xavier,他们分别介绍了自己在项目中的主要职责。

输入

你能用发言者的名字来转录吗?

输出

Mark: 早上好,大家。这是我们团队的首次会议。

Team: 早安。

Mark: 我是 Mark,今天和整个项目期间的项目经理。我会主持今天的介绍,帮助我们启动项目。今天的议程是……首先,我们都是新朋友,最好先相互了解一下。让我们从这里开始。请从你做起,介绍一下自己。你是负责市场营销的吗?

Dirk: 是的,我叫 Dirk Meinfelt,在本项目中我负责市场营销。我将探究用户的需求和我们可以提供的新产品方案。

Mark: 很好。你是?

Nick: 我是 Nick de Boer,担任用户界面设计师。我主要关注的是从用户视角出发的技术设计。

Mark: 好的。

Xavier: 我是 Xavier Joerkens,工业设计师。我需要解决的三个主要问题是……


  • 推荐使用NVIDIA RTX 40 显卡做模型推理,购买地址如下:

https://www.ucloud.cn/site/active/gpu.html?ytag=seo

https://www.compshare.cn/?ytag=seo


文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/131100.html

相关文章

  • 字节跳动的 Coze 平台现已支持 GPT-4o !免费!

    Coze 官方宣布,他们已经成功集成了 OpenAI 推出的最新AI 助手 GPT-4o,为用户带来了更智能、更强大的聊天体验。GPT-4o 是 OpenAI 的力作,它的加入将为 Coze 用户提供更便捷、更高效的沟通和交流方式。这里演示创建一个Google Web Search和DALLE 3插件的的聊天机器人。项目实操步骤1、点击链接打开官网,https://www.coze.com/hom...

    UCloud小助手 评论0 收藏0
  • 自动化快速上手--Python篇(1)--【变量】--每天半小时

    摘要:意思就是给定一个值给到变量。所以此处的都是变量,是我们给到变量的值,赋予了这两个变量一个值。不合法,标识符中不允许出现号。注意不管是变量名还是文件名也好,尽量保持简短或具有描述性,便于自己或者他人查阅。         这里是带你快速入手Python的清安,欢迎添加博主好友qing_an_a...

    Chao 评论0 收藏0
  • 快速上手第一个智能合约

    摘要:本文主要帮助大家快速编写并运行第一个智能合约。是提供的一种事件和订阅机制,智能合约能够发出一些,合约调用者能够监听这些事件并作出相应的反应。 引言 本文假设你已经对区块链有一定的了解。智能合约是1990年代由尼克萨博提出的理念,以太坊首先看到了区块链和智能合约的契合,发布了白皮书《以太坊:下一代智能合约和去中心化应用平台》,并一直致力于将以太坊打造成最佳智能合约平台。因此目前的智能合约...

    chaosx110 评论0 收藏0
  • Alibaba Sentinel(1):快速上手

    摘要:是一个灵活的系统负载控制框架,通过控制接口和方法的调用来保证系统负载不会过大,维持正常响应速度。创建一个项目首先创建一个空的项目,加上的依赖。编写控制规则将控制规则包装为类。超过这个阈值则会拒绝调用该方法。 Alibaba Sentinel 是一个灵活的系统负载控制框架,通过控制接口和方法的调用来保证系统负载不会过大,维持正常响应速度。 该项目的地址是 https://github.c...

    hover_lew 评论0 收藏0
  • Vue同构(一): 快速上手

    摘要:当然你可以采用页面模板的形式,将两者相分离这里将是应用程序标记注入的地方中包含了模板当然这只是最简单的一个例子,浏览器收到的仅仅是对应实例的代码,并没有将其激活,因此是不可交互的。 前言   首先欢迎大家关注我的Github博客,也算是对我的一点鼓励,毕竟写东西没法获得变现,能坚持下去也是靠的是自己的热情和大家的鼓励。   同构(服务器渲染)   Vue同构也就是我们常说的服务器渲染(...

    archieyang 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<