经过备受争议的首次亮相和长达一个月的延迟后,OpenAI现正在向部分Plus用户推出高级语音模式。
目前,尚不清楚有多少“alpha”用户可以使用该功能。OpenAI发言人告诉PCMag,该公司将“在未来几周内逐步扩大对更多Plus用户的访问权限”,并计划在秋季将其推广给所有Plus用户。
该功能于5月份在GPT-4o发布会上首次亮相,似乎标志着语音识别技术的一次飞跃。它可以轻松理解OpenAI员工的提问,并实时提供准确、有用的信息。它还可以“查看”用户用手机摄像头指向的任何东西,并提供相关信息。
OpenAI表示:“高级语音模式提供更自然、实时的对话,允许您随时打断,并能感知和回应您的情绪。”
ChatGPT用户一直热切期待着亲自尝试这项技术的机会,但OpenAI在推出该技术的过程中遇到了一些障碍。OpenAI表示:“自5月预览GPT-4o语音以来,我们的首要任务就是确保GPT-4o语音对话的质量和安全,以便我们能够将这种体验带给每个使用ChatGPT的人。”
但OpenAI的语音技术在演示后不久就遇到了障碍,当时斯嘉丽约翰逊声称OpenAI未经许可在其Sky语音功能中使用了她的声音。约翰逊在2013年的电影《她》中扮演了一台电脑的声音,OpenAI首席执行官山姆奥特曼多次提到这部电影是他开发ChatGPT语音技术的灵感来源。在GPT-4o首次亮相当天的一篇X帖子中,奥特曼写道“她”,以进行比较。(点击此处观看演示,亲自体验。)
尽管OpenAI禁用了Sky语音,但否认了这一指控,并表示已聘请了另一位配音演员。Sky是五种语音选项之一;其他四种将作为高级语音模式的一部分提供。
OpenAI表示:“我们已让ChatGPT无法模仿其他人的声音,无论是个人还是公众人物,并且会屏蔽与这些预设声音不同的输出。我们添加了新的过滤器,可以识别和屏蔽某些生成音乐或其他受版权保护的音频的请求。”
在ScarJo争议之后,OpenAI将发布时间从6月推迟到7月,以“达到其标准”。其中包括“提高模型检测和拒绝某些内容的能力”,以及准备“基础设施以扩展到数百万,同时保持实时响应”。OpenAI表示,它还与45种语言的100多名外部红队成员一起测试了这些功能。