文章来源:硅星人Pro
作者:Jessica
今天真是AI圈久违了的热闹一天啊!
昨天刚被奥特曼发的那篇AI小作文搞得一头雾水,现在他这波操作的意图就呼之欲出了。
奥特曼想临门狙击的正是宿敌Google,更确切地说,是Google今天刚刚更新的两款升级版Gemini模型:Gemini-1.5-Pro-002和Gemini-1.5-Flash-002。
狙击方式简单粗暴:直接宣布万众期待的GPT语音功能今天起正式开放。
两个小时不到,就双叒抢走了Google好不容易的高光时刻。我要是Google我得气吐血吧。
GPT高级语音来了,会50多种语言
OpenAI称,ChatGPT的高级语音模式(Advanced Voice Mode)将在本周内逐步向所有Plus和团队用户推出。
在人们耐心等待的同时,团队完善了部分功能,包括新增自定义指令、记忆功能、5种新声音,并改进了口音。
由于实在被大家念叨了太久,OpenAI特别表示了一下:“它能用50多种语言说出’抱歉,我迟到了‘。”
并且放了一个从英文切换到普通话的示例:“奶奶对不起,我迟到了。我不是故意让您等这么久的,我可以怎么补偿您呢?”
——好家伙,这一下子都当上GPT的奶奶辈了,硬逼着我原谅你啊。
语音模式现在以一个跳动的蓝色球体表示,而不是OpenAI在5月展示技术时使用的黑色动画点。
当获得访问权限时,应用内会弹出一个提示。先是对Plus和Teams层级用户开通,下周起扩展到企业和教育用户。
ChatGPT还添加了五种新语音以供体验:Arbor、Maple、Sol、Spruce和Vale。至此,加上之前的Breeze、Juniper、Cove和Ember,ChatGPT的语音总数已达到了9种(Google的Gemini Live语音数量为10种)。
可能你也注意到了,这些名字都是从大自然中汲取灵感的,从“枫树”、“微风”到“太阳”、“山谷”,也许是为了让使用感觉更加自然。一个缺席的声音是Sky,也是OpenAI在春季发布会时展示的语音,因涉及与电影《Her》主演斯嘉丽·约翰逊的法律争议而下架。
OpenAI还将ChatGPT的一些定制功能扩展到了高级语音模式,包括允许用户个性化回应的「自定义指令」功能,以及允许ChatGPT记住对话供以后参考的记忆功能。
比如下面视频里,在系统设置的自定义ChatGPT菜单中,输入 “我的名字是夏洛特,我住在旧金山湾区。”再询问周末户外活动时,GPT就会以夏洛特称呼用户,提供符合本地天气和交通的建议。
OpenAI称团队改进了部分外语中的响应速度、流畅性以及口音。语音会根据对话语气进行调整,你可以创建场景,提示它扮演不同的角色。声音延迟非常低,理解力也更强,真的像是和另一个人自然对话。
不过OpenAI四个月前展示过的视频和屏幕共享功能此次并未更新。当时工作人员向GPT询问纸上的数学题和电脑屏幕上的代码,通过自然语音对话获得了实时解答。目前,OpenAI尚未提供这项多模态功能的推出时间表。
此外高级语音模式也暂时不对欧盟、英国、瑞士、冰岛、挪威和列支敦士登等地区开放。
尽管如此,终于能亲自上手OpenAI版的“her”,对已经混AI圈混到审美疲劳的人们来说,确实算一件值得兴奋的事了。加上才制造了一波热潮的o1-preview,OpenAI又妥妥硬控业界一周。
这一激动也把大伙儿整地间歇性失忆了:
话说Google今天是发了个啥来着?
根据Google Blog,这次他们更新了两个生产级Gemini模型:Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002。所谓“生产级”,是指AI模型经过了充分的开发、测试和优化,已准备好商业化部署,能处理大量用户请求、应用于产品服务中,而不仅仅是用于实验或研究。
作为今年5月I/O大会亮相的Gemini 1.5系列模型的重大升级,新模型更快、更强大,也更具成本效益。
主要亮点概括为:
1. 价格大幅降低:1.5 Pro的输入和输出价格下降约50%,大幅降低了构建成本,尤其是对小于128K token的提示。
2. 整体质量改进:尤其在数学、代码生成、长文本上下文和视觉任务上的性能提升显著,包括在MATH、HiddenMath等基准测试中提高约20%,视觉和代码应用提高2%-7%。
3. 速率限制提高:1.5 Flash和1.5 Pro的速率限制分别从每分钟1000RPM(Requests Per Minute)和360RPM提高至每分钟2000 RPM和1000 RPM,使开发者能够更快构建和处理任务。
4. 更快输出和更低延迟:输出速度提升2倍,延迟降低3倍,为更高效的应用场景提供支持。
5. 更简洁的响应:响应风格更简洁、成本更低,输出长度缩短5%-20%,同时在许多话题上减少了拒绝和回避的次数,并保持高有用性。
6. 多模态和长上下文支持:1.5 Pro的200万token长上下文窗口支持处理长文本和多模态任务,如1000页PDF或长视频的内容生成。
7. 更新的过滤设置:模型的默认安全过滤器不再自动应用,开发者可以根据需要定制模型的安全设置。
开发者可以通过Google AI Studio和Gemini API免费访问这两个最新模型。大型组织和Google Cloud客户也可在Vertex AI上使用新模型。
Abacus.AI CEO、知名博主Bindu Reddy说,“唉,OpenAI发布了通过智商测试的o1,而Google只是对Gemini 1.5进行了一些小更新。他们拥有100倍的资源、10倍的人才和10倍的所有东西,怎么会这样呢?”
尽管开发者中还是有些人为Google说话,比如Reddit讨论区就有网友表示:
“对于那些实际在构建应用并试图降低成本、增加利润的人来说,这些都是有用的东西。我正在做的应用有一个每次操作的固定成本,由token长度决定,这让我的利润提高了大约30%以上。这对大多数人来说可能没什么意思。我知道很多人会因为谷歌的这个“公告”而生气——但实际上这对开发人员来说是一个不错的更新。”
价格对半砍、速率提升、延迟降低,这些确实正中开发者下怀。但正如大家所说,吸引力也许仅限于开发者群体了。
甚至连一些开发者也嗤之以鼻:“我没看到跟Claude或o1的比较,而我们马上就要迎来下一代OpenAI和Anthropic模型。DeepMind其实拥有远超目前的模型,但他们在走直接面向企业的路线,绕过了大众。Gemini令人印象深刻吗?完全不,简直令人失望透顶。”
Google对于模型的糟糕命名也被网友群嘲,认为其冗长且易混淆。
The Information近期发布了一篇名为《Why AI Developers Are Skipping Google’s Gemini》的文章。其中通过对多位AI公司创始人和Google内部员工的采访,讲述了Gemini如何被开发者“抛弃”,在追赶ChatGPT时遇到的阻滞和困境。
比如,相比竞争对手的技术,调用Gemini对于开发者和企业来说过于复杂。Topology创始人Aidan McLaughlin表示,他首次使用OpenAI的API仅用了30秒,而使用Gemini则花了4个小时。同时Google的大模型性能却排在OpenAI和Anthropic之后,并不值得他跨过这些障碍。
相较于ChatGPT,Gemini在开发者中的不受欢迎似乎是现实世界公开的秘密。
企业软件初创公司Retool在6月份对750多名科技员工进行的调查发现,仅有2.6%的受访者表示他们最常使用Gemini来构建AI应用,超过76%的人选择使用GPT。
Similarweb追踪的网站流量数据显示,6月至8月期间,OpenAI的应用开发者页面访问量达8280万次,而谷歌的页面访问量为840万次。
较小的非正式调查也提供了类似的证据。上月底,Finetune的创始人Julian Saks向他在旧金山联合办公空间的50名AI初创企业开发者询问他们最常使用的对话式AI模型。几乎所有人都表示,他们主要使用的是Anthropic或OpenAI的模型,没有人提起Gemini。
尽管Gemini模型在分析长文档或长代码库时非常有用,但许多开发者表示,谷歌的模型选项种类繁多,步骤复杂,开发者系统也与OpenAI的不同,更难使用。并且有时,Google提供的不同服务还会在它自己的搜索结果中互相竞争,使得人们在试图搞清楚这些工具时很容易被“绊住”。
Gemini因此经常在X上被嘲笑。安全初创公司Xbow的AI研究员Brendan Dolan-Gavitt本月早些时候发了一条推文,详细介绍了他通过Vertex开始使用Gemini所需的众多步骤,迅速走红。其他开发者纷纷评论区表示同情。
在一个“世界上领先的工程师都在使用OpenAI、Claude或Cursor”的环境中,开发者们确实没有必要再去尝试其它。而反过来说,使用量的走低又无法让Gemini获得ChatGPT一样多的数据反馈,致使Google在改进模型上会面临更模糊的路线图。
Google正试图改变这种看法,包括通过在X上回应对Gemini的批评,将更多OpenAI等公司的明星技术专家纳入麾下、将部分重叠的开发功能合并等。他们还通过举办开发者活动来宣传Gemini。
今天与Gemini-1.5-Pro-002推出同步进行的,还有一场Gemini for Work的线上活动,Google花了大量篇幅宣讲Gemini目前在Best Buy、Snap、UPS Capital、Wayfair等公司的应用案例。 据悉,他们正试图通过提供一定程度的“白手套”服务来拉拢更多大企业客户。
只是在根深蒂固的市场份额面前,Google的反击之路可能没那么好走。
AI Studio的产品负责人Logan Kilpatrick今年4月加入前曾于OpenAI负责开发者关系,他表示:“实际情况是,OpenAI在LLM API开发者工具方面领先于谷歌。我们必须与他们当前在开发者中根深蒂固的市场份额作斗争。”
稍早前AI圈知名博主Rowan Cheung曾预告,自己完成了一个关于AI模型重大升级的采访,今天开发者们将迎来一个大日子。
那篇推文下面,Logan Kilpatrick的笑脸字符表情在一大片“怎么不是Claude Opus 3.5”的遗憾声中略显尴尬。
保守、争议、滞后是今天Google这位AI巨头给社区留下的刻板印象。Gemini-1.5-Pro-002的推出似乎也并未打破这一僵局。
人们对这家公司的失望,都是来自对它的期待很高:这么强的实力和人才储备,却无法给世界更多的“替代”OpenAI的选项,谁都会感到遗憾。