之间网

GitHub的自动编码工具基于未经检验

科技   编辑:

就在 GitHub 宣布其新的 Copilot 工具后几天,该工具可为程序员的项目生成补充代码,网络开发人员 Kyle Peacock在推特上发布了他注意到的一个奇怪现象。

“我喜欢学习新事物和构建事物,”当被要求生成关于我的页面时,该算法写道。“我有一个 Github 帐户。”

虽然“关于我”页面据说是为一个假人生成的,但该链接指向 David Celis 的 GitHub 个人资料,The Verge可以确认他不是 Copilot 想象的虚构。Celis 是一名编码员和 GitHub 用户,拥有流行的存储库,甚至曾在该公司工作。

“我的公共存储库是 Copilot 训练数据的一部分,我并不感到惊讶,”Celis 告诉The Verge,并补充说他被算法背诵他的名字逗乐了。但是,尽管他不介意自己的名字被一种模仿其训练数据的算法吐出,但 Celis 担心 GitHub 挖掘它可以找到的任何代码以改进其 AI 的版权影响。

当 GitHub 于 6 月 29 日宣布 Copilot 时,该公司表示该算法已针对发布到 GitHub 的公开可用代码进行了训练。GitHub 的首席执行官 Nat Friedman 在Hacker News和Twitter等论坛上写道,该公司在法律上是合法的。“在公开数据上训练机器学习模型被认为是整个机器学习社区的合理使用,”Copilot 页面说。

标签: