GitHub将默认使用Copilot用户数据训练自家AI模型 个人用户需手动退出

摘要:

GitHub 宣布,自 4 月 24 日起,公司将开始默认使用 Copilot Free、Pro 和 Pro+ 个人用户在产品中的交互数据,用于训练和改进其 AI 模型,除非用户主动选择退出。 Copilot Business 和 Copilot Enterprise 商业及企业账户则不在此次新政适用范围之内。 这一“默认开启、需手动关闭”的调整,已经在开发者群体中引发了明显不满情绪。

GitHub 在官方说明中将这类训练数据概括为“输入、输出、代码片段及相关上下文”,但细则显示,采集范围远不止于此。 公司表示,收集内容还可以包括光标周围的代码、注释与文档、文件名、代码仓库结构、用户的界面导航路径、与 Copilot 功能的对话记录,以及对建议结果点选赞同或反对等反馈操作。

GitHub 称,此前在微软内部员工数据上的试验表明,基于交互数据进行训练后,Copilot 在多种编程语言上的“建议被接受率”已经出现“有意义的提升”,因此希望将这一做法扩展到所有付费用户身上。

在隐私方面,GitHub 强调,仍不会使用“静态存放”的私有代码仓库内容作为训练数据,也就是说,单纯托管在 GitHub 上、但未在 Copilot 中被调用的代码,依旧在训练范围之外。 不过,一旦开发者在私有仓库中启用并使用 Copilot,会话过程中的提示词、AI 生成的建议片段及其周边上下文,依然可能被收集用于训练,除非用户关闭相关设置。 从技术定义上看,这与直接用整库代码训练并不相同,但对许多开发者而言,这种区分恐怕难以带来安全感。

对于希望拒绝数据被用于 AI 训练的个人用户,GitHub 给出的路径是:进入 Copilot 设置页面,在“隐私”(Privacy)相关选项中,将“允许 GitHub 使用我的数据进行 AI 模型训练”(Allow GitHub to use my data for AI model training)设为“禁用”(Disabled)。 官方同时表示,此前已经在数据收集中选择“拒绝用于产品改进”的用户,其原有偏好会被保留,下月不会被自动加入新的训练计划。

根据 GitHub 的说明,在新政策下共享的数据,可能会被包括微软在内的关联公司使用,但不会开放给第三方 AI 模型提供商用于其独立训练目的。

在社区层面,这项更新,尤其是“默认同意、需主动退出”的设计,已引发大量负面反馈。 一则宣布此变更的 GitHub 社区帖子目前已收获超过百个“踩”以及众多批评评论,集中指向隐私风险、默认授权的合理性以及对开发者信任关系的冲击等问题。

查看评论
created by ceallan