原文来源:Wired
原文作者:Will Knight
研究人员利用分布在全球各地的 GPU 集群,同时融合私有与公开数据,成功训练出一类新型大语言模型(LLM)——这一突破可能颠覆当前人工智能的主流构建范式。
两家采用非传统路径的 AI 初创公司 Flower AI 与 Vana 联手打造了这个名为 Collective-1 的新模型。Flower AI 开发出允许训练任务分散至数百台联网计算机的技术,其方案已被多家企业用于无需集中算力或数据的 AI 模型训练。Vana 则提供了包含 X 平台、Reddit 及 Telegram 隐私消息在内的多元化数据源。
按现代标准衡量,Collective-1 规模较小——其 70 亿参数量(这些数值共同决定了模型能力)与当今最先进模型(如支撑 ChatGPT、Claude 和 Gemini 的模型)动辄数千亿的参数规模相去甚远。
剑桥大学计算机科学家、Flower AI 联合创始人 Nic Lane 指出,这种分布式方法有望突破 Collective-1 的规模限制。他透露 Flower AI 正在用传统数据训练 300 亿参数模型,并计划今年晚些时候开发千亿参数模型——接近行业领军者的水平。"这或将彻底改变人们对 AI 的认知,我们正全力推进,"Lane 表示。这家初创公司还将图像与音频纳入训练,以创建多模态模型。
分布式建模还可能重塑 AI 行业的权力格局。
当前 AI 公司构建模型依赖两大支柱:海量训练数据与集中在数据中心的庞大算力——这些数据中心通过超高速光纤网络连接先进 GPU 集群。它们还严重依赖网络抓取的公开数据集(尽管部分涉及版权材料),包括网页和图书内容。
这种模式意味着,只有财力雄厚的企业及能获取大量高端芯片的国家,才可能开发最具价值的尖端模型。即便是 Meta 的 Llama 和深度求索的 R1 等开源模型,也出自拥有大型数据中心的企业之手。而分布式方法让中小企业和高校能通过整合分散资源开发生态 AI,或使缺乏传统基础设施的国家通过联网多个数据中心构建更强模型。
Lane 认为 AI 产业将日益青睐突破单一数据中心局限的新方法。"相比数据中心模式,分布式方案能更优雅地扩展算力,"他解释道。
安全与新兴技术中心 AI 治理专家 Helen Toner 评价 Flower AI 的方案"对 AI 竞争与治理具有潜在重大意义"。她指出:"虽可能仍难匹敌最前沿技术,但作为快速跟随策略颇具价值。"
分布式 AI 训练的核心在于重构算力分配逻辑。构建大语言模型需向系统输入海量文本,通过调整参数使其生成有效响应。传统数据中心会将训练任务分割到不同 GPU 执行,再定期整合为统一主模型。
新技术使得原本需在大型数据中心完成的工作,可分散到相隔数英里、仅靠普通网络连接的硬件设备上执行。
行业巨头也在探索分布式学习。去年谷歌研究人员提出的"分布式路径组合"(DiPaCo)新框架,提升了分布式训练效率。而为构建 Collective-1 等模型,Lane 与中英学者联合开发了名为 Photon 的新工具,其采用更高效的数据表征方式和训练共享整合方案。Lane 坦言该过程虽比传统训练慢,但灵活性更强,可随时添加硬件加速训练。
Photon 由北京邮电大学和浙江大学研究人员参与开发,上月已开源。Flower AI 的合作方 Vana 则致力于让用户以新方式向 AI 构建者共享个人数据——其软件支持用户贡献来自 X 和 Reddit 等平台的私有数据,并可规定使用范围甚至获得经济回报。
Vana 联合创始人 Anna Kazlauskas 表示,此举旨在挖掘未开发数据潜力,同时赋予用户更多控制权。"这些通常无法进入 AI 模型的非公开数据,首次被用于基础模型训练,且用户可拥有其数据所创模型的权益,"她强调。
伦敦大学学院计算机科学家 Mirco Musolesi 指出,分布式训练的关键价值在于解锁新型数据:"将其应用于前沿模型,可让 AI 产业利用医疗、金融等领域的分散敏感数据训练,同时规避数据集中化风险。"
原文链接
欢迎加入律动 BlockBeats 官方社群:
Telegram 订阅群:https://t.me/theblockbeats
Telegram 交流群:https://t.me/BlockBeats_App
Twitter 官方账号:https://twitter.com/BlockBeatsAsia