据 1M AI News 监测,GitHub 宣布更新 Copilot 数据使用政策,4 月 24 日起,Copilot Free、Pro 和 Pro+ 用户的交互数据将默认用于训练和改进 AI 模型,除非用户主动在设置中关闭。Copilot Business 和 Enterprise 用户不受影响。此前已选择退出数据收集的用户,偏好设置将被保留,无需重新操作。
GitHub 将收集的数据范围包括:
1. 用户接受或修改的代码输出
2. 发送给 Copilot 的输入和代码片段
3. 光标周围的代码上下文
4. 注释和文档
5. 文件名、仓库结构与导航模式
6. 与 Copilot 各功能(Chat、内联建议等)的交互记录
7. 用户对建议的评分反馈
虽然 GitHub 称不会使用私有仓库中「静态存储」的内容,但用户在使用 Copilot 时,私有仓库的代码会被实时处理,这部分交互数据同样可能被用于模型训练,除非用户选择退出。
数据可能与微软等关联公司共享,但不会提供给第三方 AI 模型供应商。GitHub 首席产品官 Mario Rodriguez 在博文中表示,此前已使用微软员工的交互数据训练模型,「在多种编程语言中看到了接受率的显著提升」,希望通过更广泛的真实开发数据进一步改善模型表现。用户可在 GitHub 设置的「Privacy」选项中关闭数据共享。