Testin云测:盘点OpenAI新品GPT-4o的技术细节

摘要

Testin云测:解析OpenAI新品GPT-4o的颠覆与局限

5 月 14 日,OpenAI 发布新产品,GPT-4o 旗舰模型。OpenAI 在 ChatGPT 中引入 GPT-4o 并免费提供更多功能。

GPT-4o 的「o」代表「omni」,意为全能,与现有模型相比,它在视觉和音频理解方面尤其出色。GPT-4o 可以在音频、视觉和文本中进行实时推理,接受文本、音频和图像的任何组合作为输入,并生成文本、音频和图像的任何组合进行输出。它可以最短在 232 毫秒内响应音频输入,平均为 320 毫秒,这与人类在对话中的响应时间相似。

在 GPT-4o 之前,用户可以使用 Voice Mode(由三个独立模型组成)与 ChatGPT 通话,但平均延迟为 2.8 秒(GPT-3.5)和 5.4 秒(GPT-4)。原理是 Voice Mode 利用一个简单模型将音频转录为文本,GPT-3.5 或 GPT-4 接收文本并输出文本,第三个简单模型将文本转换回音频。

但这个过程会丢失大量信息,例如 GPT-4 不能直接观察音调、多个说话者或背景噪音,也不能输出笑声、歌声或情感表达。利用 GPT-4o,OpenAI 训练了一个跨文本、视觉和音频的端到端新模型,这意味着所有输入和输出都由同一个神经网络处理,这是 OpenAI 第一个结合所有这些模式的模型,OpenAI 仍在探索模型的功能及其局限性。

从性能来看,OpenAI 表示,在传统基准测试中,GPT-4o 在文本、推理和代码智能方面达到了 GPT-4 Turbo 级的性能,同时在多语言、音频和视觉能力方面达到了新高度。它在英文文本和代码上的性能与 GPT-4 Turbo 相当,在非英文文本上有显著改善。

通过过滤训练数据和训练后改进模型行为等技术,GPT-4o 在设计中内置了跨模式的安全性,并创建了新的安全系统,为语音输出提供护栏。GPT-4o 还与来自社会心理学、偏见和公平、错误信息等领域的 70 多名外部专家开展广泛的外部红队合作,以识别新增加的模式引入或放大的风险,提高与 GPT-4o 互动的安全性。

AI 的发展速度正不断超出人们的预期,新的颠覆性科技与新的投资机会,都在应运而生。能否抓住 AI 带来的生产力突破,决定了企业能否有更高的上限和更广阔的未来。

Testin 云测就是这样一家以人工智能技术驱动的企业服务平台,已经为全球超过百万的企业及开发者提供云测试服务、AI 训练数据服务、安全服务。在保障应用、软件、系统等产品质量的测试环节,Testin 云测将云模式与 AI 人工智能的优势融为一体,通过云服务和智能化,以 AI+RPA 的测试能力部分或全部取代人工测试为主要发展趋势。

同时,在人工智能数据服务领域,Testin 云测通过数据采集、数据清洗、数据标注等方式为企业业务引入数据治理,用专业领先的一站式数据服务充分满足 AI 客户的需求,利用自身在技术、服务和标准化方面的特色优势引领行业的发展趋势。

AI 带来的颠覆性变革正在持续进行中,所有行业都将或早或晚地受其影响。云计算、大数据、人工智能、物联网等新兴技术让企业未来充满机遇和挑战。面对这样一场影响深远的变革,选择一个优秀的企业服务伙伴无疑是顺应时代之举,Testin 云测不仅具备深刻的洞察力,也在服务、产品、安全等全方位专业领域的能力过硬,是企业服务领域的佼佼者。


最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。