直到今年,只需阅读谷歌和其他人工智能领导者发布的每个新程序发布的研究文档,就可以了解很多有关人工智能技术的知识。公开披露是人工智能世界的常态。
一切都在今年3月发生了变化,当时OpenAI选择宣布其最新计划GPT-4,几乎没有任何技术细节。该公司提供的研究论文掩盖了GPT-4的几乎所有重要细节,这些细节将使研究人员能够了解其结构并尝试复制其效果。
上周,谷歌继续采用这种新的混淆方法,宣布正式发布其最新的生成式人工智能程序Gemini,该程序是与其DeepMind单元联合开发的,该程序于5月份首次亮相。谷歌和DeepMind研究人员提供了一篇缺乏技术规范的博客文章,以及一份几乎完全没有任何相关技术细节的随附技术报告。
博客文章和技术报告的大部分内容都引用了大量基准分数,谷歌吹嘘在大多数指标上都击败了OpenAI的GPT-4,并击败了谷歌前顶级神经网络PaLM。
博客和技术论文都没有包含过去几年中常见的关键细节,例如程序有多少个神经网络“参数”或“权重”,这是其设计和功能的一个关键方面。相反,谷歌提到了Gemini的三个版本,具有三种不同的尺寸:“Ultra”、“Pro”和“Nano”。该论文确实披露了Nano采用两种不同的权重计数进行训练,即18亿和32.5亿,但没有披露其他两种大小的权重。
正如OpenAI的GPT-4技术论文一样,许多其他技术细节都没有。在缺乏技术细节的情况下,网上争论的焦点是吹嘘基准是否有意义。
OpenAI研究员RowanZellers在X(以前的Twitter)上写道,Gemini是“超级令人印象深刻”,并补充道,“我也不太清楚所有LLM论文报告的十几个文本基准的可信度有多少。这些日子。”
科技新闻网站TechCrunch的KyleWiggers报道了由Gemini增强的GoogleBard搜索引擎性能不佳的轶事。他引用了X上的帖子,人们向巴德询问电影琐事或词汇建议等问题,并报告了失败的情况。
抛泥是新技术、新产品引进过程中常见的现象。然而,在过去,技术细节允许外部人员通过评估最新程序与该程序的直接前身程序(例如PaLM)之间的技术差异,对能力进行更明智的评估。
由于缺乏此类信息,人们随机向巴德输入内容,以随意的方式进行评估。
谷歌和OpenAI突然转向保密正在成为科技行业的一个重大道德问题,因为除了供应商(OpenAI及其合作伙伴微软,或者在本例中是谷歌的GoogleCloud部门)之外,没有人知道发生了什么。在他们的计算云的黑匣子中。
10月,牛津大学的学者EmanueleLaMalfa以及艾伦图灵研究所和利兹大学的合作者警告说,GPT-4和其他模型的模糊性给社会人工智能“造成了一个重大问题”,即:“最有效和最有风险的模型也是最难分析的。”
考虑到谷歌与OpenAI以及合作伙伴微软争夺市场份额的商业斗争,谷歌缺乏信息披露虽然并不令人意外,但由于一项非常大的遗漏:模型卡,谷歌的信息披露更加引人注目。
模型卡是人工智能中使用的一种标准披露形式,用于报告神经网络的细节,包括程序的潜在危害(仇恨言论等)。虽然OpenAI的GPT-4报告省略了大部分细节,但它至少做了一个论文中使用“GPT-4系统卡”部分向模型卡致敬,据说这是受到模型卡的启发。