OpenAI 突然推送推送高级语音模式「Her」，又抢了谷歌风头

本文来自极客公园，作者：Li Yuan。

9月25日早，Google发布两款新模型Gemini-1.5-Pro-002和Gemini-1.5-Flash-002。

在谷歌的系列模型中，Gemini Pro属于中号模型，付费用户可以使用。而Gemini Flash则由Gemini Pro蒸馏而来，在今年5月的Google I/O上第一次亮相，目前用户可以免费在Gemini中使用，开发者也有一定免费的api使用配额。

模型升级的重点主要为1.5 Pro价格降低>50%、1.5 Flash的速率限制提高了2倍，1.5 Pro的速率限制提高了约3倍、输出速度提高2倍，延迟降低3倍；过滤器切换为选择加入。

不过，似乎Google今天的宣传节点再一次被OpenAI提前知晓。OpenAI同日宣布，OpenAI的高级语音模式，将在本周对Plus和Team用户推出。

5月，Google发布Gemini模型的大更新前，OpenAI就曾提前抢开发布会，宣布很快会带来高级语音模式，登上媒体头条「个人助理Her就要来了吗？」

接下来半年，高级语音模式的发布一再推迟，直至今日Google更新模型，OpenAI立刻表示，本周内将推出语音模型。

除了之前已经剧透过的语音模式与人类在对话中的反应时间相近，会变换语调之外，还增加了个性化指令功能——可以直接指令模型说话说慢点，或者用一个特定的口音，同时可以记住你的名字和提前提供的信息给出更个性化的回复。

X上有用户不禁感叹，OpenAI已经养成了一个新爱好。等着Google发布一个什么东西，几个小时后马上发布一个新东西。

Google Gemini Pro价格下降一半

从Gemini-1.5-Pro-002和Gemini-1.5-Flash-002的名字也可以看出，此次Google Gemini的更新，不是一个大版本的更新，更多的是一次整体模型的升级。

降低价格是一个重要的更新重点。

Gemini 1.5 Pro的输入token价格降低64%，输出token价格降低52%，增量缓存token价格降低64%，适用于小于128K token的提示语，自2024年10月1日起生效。再加上上下文缓存，这将继续降低使用Gemini构建应用的成本。

此外，1.5 Flash的速率限制从1000 RPM提高到2000 RPM，1.5 Pro的速率限制从360 RPM提高到1000 RPM。在接下来的几周内生效。

Google 1.5 Flash得到了2倍输出速度和3倍更低延迟。

同时，Google表示，发布的Gemini模型，默认不会应用过滤器，开发者可以根据其用例自行决定最佳的配置。Gemini将继续提供一系列安全过滤器，开发者可以根据需要为Google的模型应用这些过滤器。

Google还表示，此次模型在数学、长上下文窗口和视觉方面取得了一定的进步。

在更具挑战性的MMLU-Pro基准测试中，看到大约7%的性能提升。而在数学和HiddenMath（一个内部保留的数学竞赛问题集）基准测试中，两个模型都取得了约20%的显著进步。对于视觉和代码使用场景，两个模型在评估视觉理解和Python代码生成的测试中表现也更好，提升范围在约2-7%之间。

8月份发布的Gemini-1.5-Flash-8B实验模型也得到了新的更新。

Gemini模型本身的亮点包括长上下文和多模态功能。由于Gemini Flash对开发者有部分免费额度，新更新可能对于开发某些应用有着很好的效果。

X上的AshutoshSrivastava就表示，他使用Google Flash构建了一个应用，能够在1分钟内转写13分钟的长音频，且准确度很高（且免费）。在另一个应用中，他表示目标探测功能的表现也很不错。

OpenAI高级语音功能今日起推出

转头看OpenAI这边。

凌晨两点，OpenAI宣布高级语音模式今日起开始向订阅用户推出，周内会全量进行推送。

根据OpenAI的宣传片，与标准语音模式进行区分（黑色旋转球），高级语音将以蓝色旋转球表示，并增加5个新语音。

此次发布的一个重要亮点是，OpenAI表示，高级语音模式可以提供个性化定义。

在视频中，OpenAI的研究员表示，用户可以自定义指令，以让模型以某种口音发音、记住事件以及用户想要如何被称呼等。

「你可以让模型用特定的语速说话，也许是非常清晰地发音，慢慢地说话，定期用你的名字或你喜欢的称呼来称呼你。」研究员表示。

另一位研究员提供了一个例子，对模型输入名字和所在城市，在向模型寻求周末的计划时，模型会根据所在城市，进行更个性化的规划。

高级语音对话目前仅适用于ChatGPT Plus和Team帐户的用户。免费用户仍然可以访问标准语音模式。

不过，Plus和Team用户每天仍然有高级语音的使用限制，并且每日限制可能会发生变化。当一天的高级语音还剩15分钟时，OpenAI会向用户发出通知。

同时，使用高级语音模式无法使用GPTs，即用户设计的OpenAI的智能体。

高级语音模式因为对语音反应时间更敏感，在某些嘈杂的场景下，也更容易被打断。

最后，OpenAI还用高级语音模式搞了一个活，表示ChatGPT目前可以用五十多种语言表示「对不起，我迟到了，我不是故意让你等这么久的。」

一个很有趣的点是，此次Gemini的发布，是由Google的Logan Kilpatrick主要负责对外沟通交流。

而Logan Kilpatrick，正是OpenAI前开发者关系负责人。2024年跳槽Google。

而转头，此次Google发布新模型，OpenAI就卡点发布高级语音模式。

OpenAI此次宣布的时间点或许还有另外一个意义——此前外媒报道称，Meta公司本周将在Meta AI中推出名人语调的音频对话功能。

在硅谷，AI的战争还在热火朝天的继续。

OpenAI 突然推送推送高级语音模式「Her」，又抢了谷歌风头

最新评论（评论仅代表用户观点）

Altera正式独立，CPU和FPGA最终还是“分手”了

人工智能与数字人：重塑未来生活的创新力量

业务需求落地难，AI建模智能体四步破解金融业务技术断层

5G和人工智能将如何协同工作

本月热门

一文读懂量子传感器

《网络交易合规数据报送管理暂行办法》发布（附一图读懂）

从“卡脖子”到自主创新，中国封装材料产业链深度解析

企业级AI“脱虚向实”，落地还有几道槛？

重磅发声!多部委“剧透”新政→

英伟达会颠覆PC市场吗？

精选文章

“2022中国数字经济城市峰会”隆重召开

北信源SOAR为您打造企业安全运营中心

CIO案例研究：客户体验和数字化转型

喜报!海贝财务官荣膺“2023数字化创新优秀解决方案”奖项

考阅考生报名审核系统开启考试报名新篇章

2024首届“数据要素×”行业推进大会回顾——中国交通通信信息中心正高级工程师冯涛发表主题演讲

热点资讯

易立德：国产替代破局之路， ETRX研发套件驱动工业创新升级

业务需求落地难，AI建模智能体四步破解金融业务技术断层

第十一届全国CIO大会5月启幕, 聚焦“AI +数据赋能业务场景”

汉高亮相SEMICON China 2025 助力半导体产业在AI时代打造新质生产力

北京中农法农业科学研究院、北京联合大学、华碘(北京)科技有限公司一行到访国联股份肥多多

中兴通讯CSO王翔：AI时代下企业发展战略

广电总局：开展AIGC新技术赋能影视等实训，提升技术赋能文艺创作实战能力

OpenAI 突然推送推送高级语音模式「Her」，又抢了谷歌风头

最新评论（评论仅代表用户观点）

栏目推荐

Altera正式独立，CPU和FPGA最终还是“分手”了

人工智能与数字人：重塑未来生活的创新力量

业务需求落地难，AI建模智能体四步破解金融业务技术断层

5G和人工智能将如何协同工作

本月热门

精选文章

热点资讯

中兴通讯CSO王翔：AI时代下企业发展战略

广电总局：开展AIGC新技术赋能影视等实训，提升技术赋能文艺创作实战能力