OpenAI的大型ChatGPT活动已经结束,我可以肯定地说,当该公司在Twitter上表示将“演示一些ChatGPT和GPT-4更新”时,它严重淡化了这一活动。SamAltman的预告片称,这将是“我们认为人们会喜欢的新东西”,而它的细节“对我来说就像魔法”最能描述OpenAI通过ChatGPT的GPT-4o更新所取得的成果。
正如传闻所述,GPT-4o是一种更快的多模式更新,可处理语音、图像和实时视频。它还可以让你在说话时打断它,并且它可以检测用户的语气。
然而OpenAI推文中的关键细节是正确的。这将是ChatGPT新功能的现场演示。这确实是这里的一个大细节。GPT-4o似乎能够做到谷歌在12月初对Gemini进行的伪装,当时它试图展示类似的Gemini功能。
谷歌进行了早期的Gemini演示,让Gemini看起来可以实时聆听人类的声音,同时还可以分析图片或实时视频的内容。谷歌提出的这项技术令人兴奋。然而,在接下来的日子里,我们了解到双子座无法做到这一点。为了展示结果,演示的速度加快了,提示是打字而不是口头的。
是的,双子座成功地实现了预期的结果。毫无疑问。但谷歌最终向我们展示的演示是假的。这是我书中的一个问题,考虑到生成人工智能产品的主要问题之一是获得错误答案或幻觉的风险。
快进到5月中旬,OpenAI已经准备好提供谷歌伪造的那种与人工智能交互的技术。我们刚刚看到它在舞台上现场演示。ChatGPT由新的GPT-4o模型提供支持,能够同时与各种扬声器交互并实时适应他们的语音提示。
GPT-4o能够查看图像和实时视频,并根据刚刚看到的内容提供问题的答案。它有助于解决数学问题和编码。然后它会实时翻译两个使用不同语言的人之间的对话。
是的,这些功能可能在活动之前就经过了一遍又一遍的排练和优化。但OpenAI也在活动期间接受了X的GPT-4o提示进行尝试。
另外,我确实预计GPT-4o向用户推出后会出现问题。没有什么是完美的。它可能在处理语音、图片和视频请求时遇到问题。它可能不如OpenAI活动的现场演示那么快。但事情会变得更好。关键是OpenAI对现场演示该技术充满信心。
我毫不怀疑Gemini1.5(或更高版本)将设法匹配GPT-4o。我认为谷歌周二的I/O活动甚至可能会有类似于OpenAI的演示。另外,我认为GPT-4在12月份还没有准备好提供OpenAI今天刚刚演示的功能。
然而,这表明这里的公司之间存在很大差异。当技术准备就绪时,OpenAI继续进行了这个现场演示。与此同时,谷歌不得不伪造一场演示,让Gemini看起来比实际更强大。
如果您错过了ChatGPT春季更新活动,您可以在下面重新观看。此链接提供了更多GPT-4o演示。