header-langage
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
Quét mã tải ứng dụng

Những công ty khởi nghiệp này đang xây dựng các mô hình AI tiên tiến mà không cần trung tâm dữ liệu

2025-05-01 17:57
Đọc bài viết này mất 12 phút
总结 AI tổng kết
Xem tổng kết 收起

Các nhà nghiên cứu đã sử dụng GPU phân phối trên toàn thế giới và kết hợp dữ liệu công khai và riêng tư để đào tạo một loại mô hình ngôn ngữ lớn (LLM) mới. Động thái này cho thấy phương thức xây dựng trí tuệ nhân tạo chính thống có thể bị phá vỡ.


Flower AI và Vana, hai công ty khởi nghiệp theo đuổi những cách xây dựng AI phi truyền thống, đã hợp tác để phát triển mô hình mới có tên là Collective-1.


Công nghệ do Flower phát triển cho phép quá trình đào tạo được phân phối trên hàng trăm máy tính được kết nối qua Internet. Công nghệ của công ty này hiện đang được một số công ty sử dụng để đào tạo các mô hình AI mà không cần đến dữ liệu hoặc tài nguyên điện toán tập trung. Vana đã cung cấp các nguồn dữ liệu bao gồm tin nhắn riêng tư trên X, Reddit và Telegram.


Collective-1 có quy mô nhỏ theo tiêu chuẩn hiện đại, với 7 tỷ tham số — tổng hợp lại tạo nên sức mạnh của mô hình — so với hàng trăm tỷ tham số trong các mô hình tiên tiến hiện nay, như các mô hình hỗ trợ ChatGPT, Claude và Gemini.


Nic Lane, một nhà khoa học máy tính tại Đại học Cambridge và là đồng sáng lập của Flower AI, cho biết phương pháp phân tán này có tiềm năng mở rộng vượt xa Collective-1. Lane cho biết thêm rằng Flower AI đang đào tạo một mô hình 30 tỷ tham số bằng cách sử dụng dữ liệu thông thường và có kế hoạch đào tạo một mô hình 100 tỷ tham số vào cuối năm nay — gần bằng quy mô mà các công ty hàng đầu trong ngành cung cấp. Lane cho biết: “Điều này có thể thay đổi hoàn toàn cách mọi người nghĩ về AI, vì vậy chúng tôi sẽ dồn toàn lực vào nó”. Ông cũng cho biết công ty khởi nghiệp này đang kết hợp hình ảnh và âm thanh vào quá trình đào tạo để tạo ra các mô hình đa phương thức.


Việc xây dựng mô hình phân tán cũng có thể làm thay đổi động lực quyền lực định hình ngành công nghiệp AI.


Hiện nay, các công ty AI xây dựng mô hình bằng cách kết hợp lượng lớn dữ liệu đào tạo với các nguồn tài nguyên điện toán khổng lồ tập trung tại các trung tâm dữ liệu. Các trung tâm dữ liệu này được trang bị GPU tiên tiến và kết nối mạng thông qua cáp quang siêu nhanh. Họ cũng dựa rất nhiều vào các tập dữ liệu được tạo ra bằng cách thu thập tài liệu có sẵn công khai (mặc dù đôi khi có bản quyền) như trang web và sách.


Cách tiếp cận này có nghĩa là chỉ những công ty và quốc gia giàu có nhất sở hữu số lượng lớn chip mạnh nhất mới có thể phát triển được những mô hình mạnh mẽ và có giá trị nhất. Ngay cả các mô hình nguồn mở như Llama của Meta và R1 của DeepSeek cũng được các công ty có trung tâm dữ liệu lớn xây dựng. Phương pháp phân tán có khả năng cho phép các công ty nhỏ và trường đại học xây dựng AI tiên tiến bằng cách tổng hợp các nguồn lực đồng nhất. Hoặc nó có thể cho phép các quốc gia thiếu cơ sở hạ tầng truyền thống xây dựng các mô hình mạnh mẽ hơn bằng cách kết nối nhiều trung tâm dữ liệu.


Lane tin rằng ngành công nghiệp AI sẽ ngày càng hướng tới những phương pháp tiếp cận mới cho phép đào tạo vượt ra khỏi một trung tâm dữ liệu duy nhất. Ông cho biết, phương pháp phân tán “cho phép bạn mở rộng sức mạnh tính toán theo cách tinh tế hơn nhiều so với mô hình trung tâm dữ liệu”.


Helen Toner, chuyên gia quản trị AI tại Trung tâm An ninh Công nghệ Mới nổi, cho biết cách tiếp cận của Flower AI "thú vị và có khả năng rất phù hợp" với sự cạnh tranh và quản trị AI. Toner cho biết: "Có thể khó để theo kịp xu hướng mới nhất, nhưng đây có thể là một cách tiếp cận thú vị để theo kịp nhanh hơn".


Chia để trị


Đào tạo AI phân tán liên quan đến việc xem xét lại cách phân phối điện toán để xây dựng các hệ thống AI mạnh mẽ. Việc tạo ra LLM đòi hỏi phải đưa một lượng lớn văn bản vào mô hình và điều chỉnh các tham số của nó để tạo ra các phản hồi hữu ích cho lời nhắc. Trong trung tâm dữ liệu, quá trình đào tạo được chia thành nhiều phần để chạy các tác vụ trên các GPU khác nhau, sau đó được hợp nhất định kỳ thành một mô hình chính duy nhất.


Phương pháp tiếp cận mới cho phép thực hiện công việc thường được thực hiện trong các trung tâm dữ liệu lớn trên phần cứng cách xa nhau hàng dặm và được kết nối bằng kết nối internet tương đối chậm hoặc không ổn định.


Một số công ty lớn cũng đang khám phá hình thức học tập phân tán. Năm ngoái, các nhà nghiên cứu của Google đã trình diễn một chương trình mới có tên là DIstributed PAth COmposition (DiPaCo) để phân tách và hợp nhất các phép tính nhằm giúp việc học phân tán hiệu quả hơn.


Để xây dựng Collective-1 và các chương trình LLM khác, Lane và các cộng tác viên học thuật tại Anh và Trung Quốc đã phát triển một công cụ mới có tên là Photon để giúp đào tạo phân tán hiệu quả hơn. Lane cho biết Photon cải thiện phương pháp của Google nhờ khả năng biểu diễn dữ liệu hiệu quả hơn và có kế hoạch chia sẻ và tích hợp đào tạo. Lane cho biết quá trình này chậm hơn so với đào tạo truyền thống nhưng linh hoạt hơn, cho phép bổ sung phần cứng mới để tăng tốc độ đào tạo.


Photon được phát triển bởi các nhà nghiên cứu từ Đại học Bưu chính Viễn thông Bắc Kinh và Đại học Chiết Giang. Tháng trước, nhóm đã phát hành công cụ này theo giấy phép nguồn mở, cho phép bất kỳ ai cũng có thể sử dụng phương pháp này.


Vana, đối tác của Flower AI trong nỗ lực xây dựng Collective-1, đang phát triển những cách mới để người dùng chia sẻ dữ liệu cá nhân với những người xây dựng AI. Phần mềm của Vana cho phép người dùng đóng góp dữ liệu riêng tư từ các nền tảng như X và Reddit vào quá trình đào tạo các mô hình ngôn ngữ lớn và có khả năng chỉ định các mục đích sử dụng cuối được phép hoặc thậm chí hưởng lợi về mặt tài chính từ những đóng góp của họ.


Ý tưởng này là cung cấp dữ liệu chưa được khai thác cho mục đích đào tạo AI đồng thời trao cho người dùng quyền kiểm soát nhiều hơn đối với cách thông tin của họ được sử dụng cho AI, Anna Kazlauskas, đồng sáng lập Vana cho biết. Kazlauskas cho biết: “Dữ liệu này thường không có sẵn để đưa vào mô hình AI vì nó không được công khai”. “Đây là lần đầu tiên dữ liệu do người dùng trực tiếp đóng góp được sử dụng để đào tạo mô hình cơ bản và người dùng sở hữu mô hình AI được tạo bằng dữ liệu của họ.”


Một lợi ích quan trọng của phương pháp phân tán trong đào tạo AI có thể là nó mở ra các loại dữ liệu mới, Mirco Musolesi, nhà khoa học máy tính tại University College London, cho biết. Ông cho biết: “Việc mở rộng quy mô này thành các mô hình tiên tiến sẽ cho phép ngành AI tận dụng lượng lớn dữ liệu phi tập trung và nhạy cảm với quyền riêng tư, chẳng hạn như trong chăm sóc sức khỏe và tài chính, để đào tạo mà không có rủi ro tập trung dữ liệu”.


Bài viết này được đóng góp bởi một cộng tác viên và không đại diện cho quan điểm của BlockBeats.



Chào mừng bạn tham gia cộng đồng chính thức của BlockBeats:

Nhóm Telegram đăng ký: https://t.me/theblockbeats

Nhóm Telegram thảo luận: https://t.me/BlockBeats_App

Tài khoản Twitter chính thức: https://twitter.com/BlockBeatsAsia

举报 Báo lỗi/Báo cáo
Nền tảng này hiện đã tích hợp hoàn toàn giao thức Farcaster. Nếu bạn đã có tài khoản Farcaster, bạn có thểĐăng nhập Gửi bình luận sau
Chọn thư viện
Thêm mới thư viện
Hủy
Hoàn thành
Thêm mới thư viện
Chỉ mình tôi có thể nhìn thấy
Công khai
Lưu
Báo lỗi/Báo cáo
Gửi