header-langage
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
Quét mã tải ứng dụng

IOSG: Chén Thánh của AI tiền điện tử, Khám phá biên giới của đào tạo phi tập trung

2025-06-17 15:14
Đọc bài viết này mất 97 phút
Phân quyền không chỉ là một phương tiện mà còn là giá trị tự thân.
Tiêu đề gốc: "IOSG Weekly Brief|The Holy Grail of Crypto AI: Frontier Exploration of Decentralized Training #280"
Tác giả gốc: Jacob Zhao (X @0xjacobzhao), IOSG Ventures


Trong toàn bộ chuỗi giá trị của AI, đào tạo mô hình là liên kết với mức tiêu thụ tài nguyên và ngưỡng kỹ thuật cao nhất, trực tiếp xác định giới hạn trên của khả năng của mô hình và hiệu ứng ứng dụng thực tế. So với lệnh gọi nhẹ trong giai đoạn suy luận, quá trình đào tạo đòi hỏi đầu tư liên tục vào sức mạnh tính toán quy mô lớn, quy trình xử lý dữ liệu phức tạp và hỗ trợ thuật toán tối ưu hóa cường độ cao, đây chính là "ngành công nghiệp nặng" thực sự để xây dựng các hệ thống AI. Theo quan điểm của mô hình kiến trúc, các phương pháp đào tạo có thể được chia thành bốn loại: đào tạo tập trung, đào tạo phân tán, học tập liên bang và đào tạo phi tập trung, đây là trọng tâm của bài viết này.


Đào tạo tập trung là phương pháp truyền thống phổ biến nhất, trong đó một tổ chức duy nhất hoàn thành toàn bộ quá trình đào tạo trong một cụm cục bộ hiệu suất cao. Tất cả các thành phần, từ phần cứng (như NVIDIA GPU), phần mềm cơ bản (CUDA, cuDNN), hệ thống lập lịch cụm (như Kubernetes), đến khuôn khổ đào tạo (như PyTorch dựa trên NCCL backend), đều được phối hợp và vận hành bởi một hệ thống điều khiển thống nhất. Kiến trúc cộng tác sâu sắc này tối ưu hóa hiệu quả chia sẻ bộ nhớ, đồng bộ hóa gradient và cơ chế chịu lỗi, và rất phù hợp để đào tạo các mô hình quy mô lớn như GPT và Gemini. Nó có những ưu điểm là hiệu quả cao và tài nguyên có thể kiểm soát, nhưng đồng thời cũng có những vấn đề như độc quyền dữ liệu, rào cản tài nguyên, tiêu thụ năng lượng và rủi ro điểm đơn.


Đào tạo phân tán là phương pháp chính thống hiện tại để đào tạo mô hình quy mô lớn. Cốt lõi của nó là phân tách nhiệm vụ đào tạo mô hình và phân phối cho nhiều máy để thực hiện cộng tác nhằm phá vỡ nút thắt của tính toán và lưu trữ trên một máy. Mặc dù có tính năng "phân tán" về mặt vật lý, nhưng việc lập lịch và đồng bộ hóa tổng thể vẫn được kiểm soát bởi một tổ chức tập trung. Nó thường chạy trong môi trường LAN tốc độ cao. Thông qua công nghệ bus kết nối tốc độ cao NVLink, nút chính điều phối tất cả các tác vụ phụ. Các phương pháp chính bao gồm: · Song song dữ liệu: · Mỗi nút đào tạo các tham số dữ liệu khác nhau để chia sẻ và trọng số mô hình cần phải được khớp. · Song song mô hình: · Triển khai các phần khác nhau của mô hình trên các nút khác nhau để đạt được khả năng mở rộng mạnh mẽ; · Song song đường ống: · Thực hiện tuần tự theo từng giai đoạn để cải thiện thông lượng; · Song song Tensor: · Phân đoạn chi tiết các phép tính ma trận để cải thiện độ chi tiết song song.


Đào tạo phân tán là sự kết hợp giữa "kiểm soát tập trung + thực thi phân tán", tương tự như cùng một ông chủ chỉ đạo từ xa nhiều nhân viên "văn phòng" cộng tác để hoàn thành nhiệm vụ. Hiện tại, hầu hết tất cả các mô hình lớn chính thống (GPT-4, Gemini, LLaMA, v.v.) đều được đào tạo theo cách này.


Đào tạo phi tập trung đại diện cho một con đường tương lai cởi mở hơn và chống kiểm duyệt hơn. Tính năng cốt lõi của nó là nhiều nút không đáng tin cậy (có thể là máy tính gia đình, GPU đám mây hoặc thiết bị biên) cộng tác để hoàn thành nhiệm vụ đào tạo mà không cần điều phối viên trung tâm, thường thông qua phân phối và cộng tác nhiệm vụ theo giao thức và với sự trợ giúp của các cơ chế khuyến khích mật mã để đảm bảo tính trung thực của các đóng góp. Những thách thức chính mà mô hình này phải đối mặt bao gồm: · Thiết bị không đồng nhất và phân đoạn khó khăn: Thiết bị không đồng nhất khó phối hợp và phân đoạn nhiệm vụ không hiệu quả; · Nút thắt cổ chai hiệu quả giao tiếp: Giao tiếp mạng không ổn định và nút thắt cổ chai đồng bộ hóa gradient rất rõ ràng; · Thiếu thực thi đáng tin cậy: Thiếu môi trường thực thi đáng tin cậy khiến việc xác minh xem nút có thực sự tham gia vào phép tính hay không trở nên khó khăn; · Thiếu sự phối hợp thống nhất: Không có trình lập lịch trung tâm và cơ chế phân phối tác vụ và khôi phục bất thường rất phức tạp. Đào tạo phi tập trung có thể được hiểu là: một nhóm tình nguyện viên trên khắp thế giới, mỗi người đóng góp sức mạnh tính toán để đào tạo các mô hình một cách cộng tác, nhưng "đào tạo phi tập trung thực sự khả thi trên quy mô lớn" vẫn là một thách thức về kỹ thuật có hệ thống, liên quan đến nhiều cấp độ như kiến trúc hệ thống, giao thức truyền thông, bảo mật mật mã, cơ chế kinh tế và xác minh mô hình. Tuy nhiên, liệu "sự cộng tác có hiệu quả + các động cơ có trung thực + kết quả có đúng không" vẫn đang trong giai đoạn khám phá nguyên mẫu ban đầu.


Là một hình thức chuyển tiếp giữa phân phối và phi tập trung, Học liên bang nhấn mạnh vào việc lưu giữ dữ liệu cục bộ và tổng hợp tập trung các tham số mô hình, và phù hợp với các tình huống tập trung vào tuân thủ quyền riêng tư (như y tế và tài chính). Học tập liên bang có cấu trúc kỹ thuật và khả năng phối hợp cục bộ của đào tạo phân tán, đồng thời cũng có lợi thế phân tán dữ liệu của đào tạo phi tập trung, nhưng vẫn dựa vào các điều phối viên đáng tin cậy và không có đặc điểm là hoàn toàn cởi mở và chống kiểm duyệt. Có thể coi đây là giải pháp "phân cấp có kiểm soát" trong kịch bản tuân thủ quyền riêng tư. Giải pháp này tương đối nhẹ nhàng về mặt nhiệm vụ đào tạo, cấu trúc tin cậy và cơ chế giao tiếp, và phù hợp hơn với tư cách là kiến trúc triển khai chuyển tiếp trong ngành.


Bảng so sánh toàn cảnh mô hình đào tạo AI (kiến trúc kỹ thuật × động cơ tin cậy × đặc điểm ứng dụng)



I. Các ranh giới, cơ hội và con đường thực tế của đào tạo phi tập trung


Theo quan điểm của mô hình đào tạo, đào tạo phi tập trung không phù hợp với mọi loại nhiệm vụ. Trong một số trường hợp, do cấu trúc phức tạp của nhiệm vụ, yêu cầu tài nguyên cực cao hoặc độ khó cao trong cộng tác, nên tự nhiên không phù hợp để hoàn thành hiệu quả giữa các nút không đồng nhất và không đáng tin cậy. Ví dụ, đào tạo mô hình lớn thường dựa vào bộ nhớ video cao, độ trễ thấp và băng thông tốc độ cao, khó có thể phân chia và đồng bộ hóa hiệu quả trong mạng mở; các nhiệm vụ có hạn chế nghiêm ngặt về quyền riêng tư và chủ quyền dữ liệu (như dữ liệu y tế, tài chính và bí mật) bị hạn chế bởi tuân thủ pháp luật và ràng buộc về đạo đức và không thể chia sẻ công khai; và các nhiệm vụ không có cơ sở khuyến khích hợp tác (như mô hình nguồn đóng của công ty hoặc đào tạo nguyên mẫu nội bộ) thiếu động lực tham gia bên ngoài. Những ranh giới này cùng nhau tạo nên những hạn chế thực tế hiện tại của đào tạo phi tập trung.


Nhưng điều này không có nghĩa là đào tạo phi tập trung là một đề xuất sai lầm. Trên thực tế, đào tạo phi tập trung cho thấy triển vọng ứng dụng rõ ràng trong các loại nhiệm vụ nhẹ, dễ song song và có thể khuyến khích. Bao gồm nhưng không giới hạn ở: Điều chỉnh LoRA, các tác vụ sau đào tạo căn chỉnh hành vi (như RLHF, DPO), các tác vụ đào tạo và chú thích crowdsourcing dữ liệu, đào tạo mô hình cơ bản nhỏ có thể kiểm soát tài nguyên và các tình huống đào tạo cộng tác liên quan đến các thiết bị biên. Các tác vụ này thường có các đặc điểm là tính song song cao, ghép nối thấp và khả năng chịu đựng sức mạnh tính toán không đồng nhất, rất phù hợp để đào tạo cộng tác thông qua mạng P2P, giao thức Swarm, trình tối ưu hóa phân tán, v.v.


Tổng quan về khả năng thích ứng của tác vụ đào tạo phi tập trung



II. Phân tích các dự án đào tạo phi tập trung cổ điển


Hiện nay, trong lĩnh vực tiên phong của đào tạo phi tập trung và học tập liên bang, các dự án blockchain tiêu biểu chủ yếu bao gồm Prime Intellect, Pluralis.ai, Gensyn, Nous Research và Flock.io. Theo quan điểm về đổi mới công nghệ và khó khăn trong triển khai kỹ thuật, Prime Intellect, Nous Research và Pluralis.ai đã đề xuất nhiều khám phá độc đáo hơn về kiến trúc hệ thống và thiết kế thuật toán, đại diện cho hướng đi tiên phong của nghiên cứu lý thuyết hiện tại; trong khi các con đường triển khai của Gensyn và Flock.io tương đối rõ ràng và có thể thấy tiến trình kỹ thuật ban đầu. Bài viết này sẽ phân tích từng công nghệ cốt lõi và kiến trúc kỹ thuật đằng sau năm dự án này, đồng thời khám phá thêm sự khác biệt và mối quan hệ bổ sung của chúng trong hệ thống đào tạo AI phi tập trung.


Prime Intellect: Tiên phong trong mạng lưới cộng tác học tăng cường với các quỹ đạo đào tạo có thể xác minh


Prime Intellect cam kết xây dựng một mạng lưới đào tạo AI không cần tin cậy, cho phép bất kỳ ai tham gia đào tạo và nhận được phần thưởng đáng tin cậy cho những đóng góp về điện toán của họ. Prime Intellect hy vọng sẽ xây dựng một hệ thống đào tạo phi tập trung AI có thể xác minh, mở và được khuyến khích đầy đủ thông qua ba mô-đun PRIME-RL + TOPLOC + SHARDCAST.


01 Cấu trúc ngăn xếp giao thức Prime Intellect và giá trị mô-đun chính



02 Giải thích chi tiết về các cơ chế chính đào tạo Prime Intellect


PRIME-RL: Kiến trúc tác vụ học tăng cường không đồng bộ tách rời


PRIME-RL là một khuôn khổ mô hình hóa và thực thi tác vụ được Prime Intellect tùy chỉnh cho các tình huống đào tạo phi tập trung, được thiết kế cho các mạng không đồng nhất và sự tham gia không đồng bộ. Nó sử dụng học tăng cường làm đối tượng thích ứng ưu tiên, tách rời về mặt cấu trúc các quy trình đào tạo, lý luận và tải trọng số, để mỗi nút đào tạo có thể hoàn thành chu kỳ tác vụ một cách độc lập tại địa phương và cộng tác với cơ chế xác minh và tổng hợp thông qua các giao diện chuẩn hóa. So với quy trình học có giám sát truyền thống, PRIME-RL phù hợp hơn để thực hiện đào tạo linh hoạt trong môi trường không có lịch trình trung tâm, không chỉ làm giảm độ phức tạp của hệ thống mà còn đặt nền tảng cho việc hỗ trợ song song đa tác vụ và phát triển chiến lược.


TOPLOC: Cơ chế xác minh hành vi đào tạo nhẹ


TOPLOC (Quan sát đáng tin cậy & Kiểm tra chính sách-vị trí) là cơ chế cốt lõi để xác minh đào tạo do Prime Intellect đề xuất, được sử dụng để xác định xem một nút có thực sự hoàn thành việc học chính sách hiệu quả dựa trên dữ liệu đã quan sát hay không. Không giống như các giải pháp nặng như ZKML, TOPLOC không dựa vào tính toán lại toàn bộ mô hình mà hoàn thành xác minh cấu trúc nhẹ bằng cách phân tích quỹ đạo nhất quán cục bộ giữa "chuỗi quan sát ↔ cập nhật chính sách". Đây là lần đầu tiên nó chuyển đổi quỹ đạo hành vi trong quá trình đào tạo thành một đối tượng có thể xác minh, đây là một cải tiến quan trọng trong việc đạt được phân bổ phần thưởng đào tạo không cần tin cậy và cung cấp một con đường khả thi để xây dựng mạng lưới đào tạo cộng tác phi tập trung có thể kiểm toán và được khuyến khích.


SHARDCAST: Giao thức truyền bá và tổng hợp trọng số không đồng bộ


SHARDCAST là giao thức truyền bá và tổng hợp trọng số được Prime Intellect thiết kế, được tối ưu hóa cho các môi trường mạng thực với các trạng thái nút không đồng bộ, bị hạn chế băng thông và thay đổi. Nó kết hợp cơ chế truyền bá tin đồn với chiến lược đồng bộ hóa cục bộ, cho phép nhiều nút liên tục gửi các bản cập nhật một phần ở trạng thái không đồng bộ, đạt được sự hội tụ dần dần của các trọng số và sự tiến hóa đa phiên bản. So với các phương pháp AllReduce tập trung hoặc đồng bộ, SHARDCAST cải thiện đáng kể khả năng mở rộng và khả năng chịu lỗi của đào tạo phi tập trung và là nền tảng cốt lõi để xây dựng sự đồng thuận trọng số ổn định và các lần lặp lại đào tạo liên tục.


OpenDiLoCo: Khung truyền thông không đồng bộ thưa thớt


OpenDiLoCo là một khung tối ưu hóa truyền thông được nhóm Prime Intellect triển khai độc lập và mã nguồn mở dựa trên khái niệm DiLoCo do DeepMind đề xuất. Nó được thiết kế để giải quyết các thách thức như hạn chế băng thông, tính không đồng nhất của thiết bị và sự bất ổn của nút thường gặp trong đào tạo phi tập trung. Kiến trúc của nó dựa trên tính song song dữ liệu. Bằng cách xây dựng các cấu trúc tôpô thưa thớt như Ring, Expander và Small-World, nó tránh được chi phí truyền thông cao của đồng bộ hóa toàn cầu và chỉ dựa vào các nút lân cận cục bộ để hoàn thành đào tạo cộng tác mô hình. Kết hợp với các bản cập nhật không đồng bộ và cơ chế chịu lỗi điểm dừng, OpenDiLoCo cho phép GPU cấp tiêu dùng và các thiết bị biên tham gia ổn định vào các tác vụ đào tạo, cải thiện đáng kể sự tham gia của đào tạo cộng tác toàn cầu. Đây là một trong những cơ sở hạ tầng truyền thông chính để xây dựng mạng lưới đào tạo phi tập trung.


PCCL: Thư viện truyền thông cộng tác


PCCL (Prime Collective Communication Library) là một thư viện truyền thông nhẹ được Prime Intellect thiết kế riêng cho các môi trường đào tạo AI phi tập trung. Thư viện này nhằm mục đích giải quyết tình trạng tắc nghẽn thích ứng của các thư viện truyền thông truyền thống (như NCCL, Gloo) trong các thiết bị không đồng nhất và mạng băng thông thấp. PCCL hỗ trợ cấu trúc thưa thớt, nén gradient, đồng bộ hóa độ chính xác thấp và khôi phục điểm dừng, đồng thời có thể chạy trên GPU cấp người tiêu dùng và các nút không ổn định. Đây là thành phần cơ bản hỗ trợ khả năng truyền thông không đồng bộ của giao thức OpenDiLoCo. Thư viện này cải thiện đáng kể khả năng chịu đựng băng thông và khả năng tương thích của thiết bị của mạng đào tạo, đồng thời mở ra nền tảng truyền thông "dặm cuối" để xây dựng mạng đào tạo cộng tác thực sự mở và không cần tin cậy.


03 Prime Intellect Incentive Network and Role Division


Prime Intellect đã xây dựng một mạng lưới đào tạo không cần xin phép, có thể xác minh và được khuyến khích về mặt kinh tế, cho phép bất kỳ ai tham gia vào các nhiệm vụ và nhận phần thưởng dựa trên những đóng góp thực tế. Giao thức chạy dựa trên ba vai trò cốt lõi: · Người khởi tạo nhiệm vụ: xác định môi trường đào tạo, mô hình ban đầu, hàm phần thưởng và tiêu chí xác minh · Nút đào tạo: thực hiện đào tạo cục bộ, gửi các bản cập nhật trọng số và quỹ đạo quan sát · Nút xác minh: sử dụng cơ chế TOPLOC để xác minh tính xác thực của hành vi đào tạo và tham gia vào tính toán phần thưởng và tổng hợp chiến lược

Quy trình cốt lõi của giao thức bao gồm giải phóng tác vụ, đào tạo nút, xác minh quỹ đạo, tổng hợp trọng số (SHARDCAST) và phát hành phần thưởng, tạo thành một vòng lặp khép kín khuyến khích xung quanh "hành vi đào tạo thực tế".


04 INTELLECT-2: Phát hành mô hình đào tạo phi tập trung có thể xác minh đầu tiên


Prime Intellect đã phát hành INTELLECT-2 vào tháng 5 năm 2025. Đây là mô hình học tăng cường lớn đầu tiên trên thế giới được đào tạo bằng sự cộng tác nút phi tập trung không đồng bộ, không cần tin cậy, với thang tham số là 32B. Mô hình INTELLECT-2 được đào tạo bởi hơn 100 nút không đồng nhất GPU trên ba châu lục, sử dụng kiến trúc hoàn toàn không đồng bộ và thời gian đào tạo hơn 400 giờ, chứng minh tính khả thi và tính ổn định của các mạng cộng tác không đồng bộ. Mô hình này không chỉ là bước đột phá về hiệu suất mà còn là lần triển khai có hệ thống đầu tiên của mô hình "đào tạo là sự đồng thuận" do Prime Intellect đề xuất. INTELLECT-2 tích hợp các mô-đun giao thức cốt lõi như PRIME-RL (cấu trúc đào tạo không đồng bộ), TOPLOC (xác minh hành vi đào tạo) và SHARDCAST (tổng hợp trọng số không đồng bộ), đánh dấu lần đầu tiên một mạng lưới đào tạo phi tập trung đạt được vòng khép kín về tính mở, xác minh và khuyến khích kinh tế của quá trình đào tạo.


Về hiệu suất, INTELLECT-2 dựa trên đào tạo QwQ-32B và đã thực hiện đào tạo RL đặc biệt về mã và toán học, đi đầu trong các mô hình tinh chỉnh RL nguồn mở hiện tại. Mặc dù vẫn chưa vượt qua các mô hình nguồn đóng như GPT-4 hoặc Gemini, nhưng ý nghĩa thực sự của nó nằm ở chỗ: đây là thử nghiệm mô hình phi tập trung đầu tiên trên thế giới với quy trình đào tạo hoàn chỉnh có thể tái tạo, xác minh và kiểm toán được. Prime Intellect không chỉ mã nguồn mở mô hình mà quan trọng hơn là chính quá trình đào tạo - dữ liệu đào tạo, quỹ đạo cập nhật chiến lược, quy trình xác minh và logic tổng hợp đều minh bạch và có thể theo dõi, xây dựng nguyên mẫu mạng đào tạo phi tập trung mà mọi người đều có thể tham gia, hợp tác đáng tin cậy và chia sẻ lợi ích.


Pluralis: Công cụ khám phá mô hình đào tạo cộng tác nén cấu trúc và song song mô hình không đồng bộ


Pluralis là dự án AI Web3 tập trung vào "mạng đào tạo cộng tác đáng tin cậy". Mục tiêu cốt lõi của dự án là thúc đẩy mô hình đào tạo phi tập trung, có sự tham gia mở và khuyến khích dài hạn. Khác với các lộ trình đào tạo tập trung hoặc khép kín hiện tại, Pluralis đã đề xuất một khái niệm mới có tên là Học giao thức: quy trình đào tạo mô hình "dựa trên giao thức" và xây dựng hệ thống đào tạo mở với vòng lặp khép kín khuyến khích nội sinh thông qua các cơ chế hợp tác có thể xác minh và lập bản đồ quyền sở hữu mô hình.


01 Khái niệm cốt lõi: Học giao thức


Học giao thức do Pluralis đề xuất bao gồm ba trụ cột chính:


1. Mô hình không thể vật chất hóa


Mô hình được phân phối giữa nhiều nút trong các phân đoạn và không một nút nào có thể khôi phục toàn bộ trọng số và giữ cho nó là nguồn đóng. Thiết kế này biến mô hình thành một "tài sản trong giao thức" tự nhiên, có thể thực hiện kiểm soát thông tin xác thực truy cập, bảo vệ rò rỉ và ràng buộc phân bổ doanh thu.


2. Đào tạo song song mô hình qua Internet


Thông qua cơ chế song song mô hình Pipeline không đồng bộ (kiến trúc SWARM), các nút khác nhau chỉ giữ một phần trọng số và hoàn thành quá trình đào tạo hoặc suy luận thông qua sự cộng tác mạng băng thông thấp.


3. Quyền sở hữu một phần cho các khoản khuyến khích


Tất cả các nút tham gia đều có được quyền sở hữu một phần đối với mô hình theo đóng góp đào tạo của họ, do đó được hưởng quyền chia sẻ doanh thu trong tương lai và quyền quản lý giao thức.


02 Kiến trúc kỹ thuật của ngăn xếp giao thức Pluralis



03 Giải thích chi tiết về các cơ chế kỹ thuật chính


Các mô hình không thể vật chất hóa


Trong "Con đường thứ ba: Học giao thức", lần đầu tiên có đề xuất một cách có hệ thống rằng các trọng số mô hình được phân phối dưới dạng các mảnh vỡ để đảm bảo rằng "tài sản mô hình" chỉ có thể chạy trong mạng Swarm, đảm bảo rằng quyền truy cập và thu nhập của chúng được kiểm soát bởi giao thức. Cơ chế này là điều kiện tiên quyết để hiện thực hóa cấu trúc khuyến khích bền vững cho đào tạo phi tập trung.


Huấn luyện song song mô hình không đồng bộ


Trong "SWARM song song với cập nhật không đồng bộ", Pluralis đã xây dựng một kiến trúc song song mô hình không đồng bộ dựa trên đường ống và trình diễn nó trên LLaMA-3 lần đầu tiên. Đổi mới cốt lõi là việc giới thiệu cơ chế Nesterov Accelerated Gradient (NAG), cơ chế này hiệu chỉnh hiệu quả các vấn đề về trôi gradient và hội tụ không ổn định trong quá trình cập nhật không đồng bộ, giúp việc huấn luyện giữa các thiết bị không đồng nhất trở nên thiết thực trong môi trường băng thông thấp.


Phân tán không gian cột


Trong Beyond Top-K, đề xuất thay thế Top-K truyền thống bằng phương pháp nén không gian cột có cấu trúc để tránh phá hủy đường dẫn ngữ nghĩa. Cơ chế này tính đến cả độ chính xác của mô hình và hiệu quả truyền thông. Người ta đo được rằng hơn 90% dữ liệu truyền thông có thể được nén trong môi trường song song mô hình không đồng bộ, đây là bước đột phá quan trọng trong việc đạt được hiệu quả truyền thông có cấu trúc.


04 Định vị công nghệ và lựa chọn đường dẫn


Pluralis rõ ràng lấy "song song mô hình không đồng bộ" làm hướng cốt lõi của mình, nhấn mạnh rằng nó có những lợi thế sau so với song song dữ liệu:


· Hỗ trợ các mạng băng thông thấp và các nút không nhất quán;

· Thích ứng với tính không đồng nhất của thiết bị và cho phép GPU cấp người tiêu dùng tham gia;

· Có khả năng lập lịch đàn hồi tự nhiên và hỗ trợ nút trực tuyến/ngoại tuyến thường xuyên;

· Lấy nén cấu trúc + cập nhật không đồng bộ + không trích xuất được trọng số làm ba điểm đột phá chính.


Theo sáu tài liệu blog kỹ thuật được công bố trên trang web chính thức, cấu trúc logic được tích hợp thành ba dòng chính sau:


1. Triết lý và tầm nhìn:"Con đường thứ ba: Học giao thức""Tại sao đào tạo phi tập trung lại quan trọng"

2. Chi tiết về cơ chế kỹ thuật:"SWARM Parallel""Ngoài Top-K""Cập nhật không đồng bộ"

3. Khám phá đổi mới thể chế:"Mô hình không thể vật chất hóa""Giao thức sở hữu một phần"


Hiện tại, Pluralis vẫn chưa ra mắt sản phẩm, mạng thử nghiệm hoặc mã nguồn mở. Lý do là vì con đường kỹ thuật mà họ đã chọn cực kỳ khó khăn: cần phải giải quyết các vấn đề ở cấp độ hệ thống như kiến trúc hệ thống cơ bản, giao thức truyền thông và trọng số không thể xuất trước khi có thể đóng gói sản phẩm và dịch vụ lên trên.


Trong một bài báo mới do Pluralis Research công bố vào tháng 6 năm 2025, khuôn khổ đào tạo phi tập trung của họ đã được mở rộng từ đào tạo trước mô hình sang tinh chỉnh mô hình, hỗ trợ cập nhật không đồng bộ, giao tiếp thưa thớt và tổng hợp trọng số một phần. So với các thiết kế trước đây tập trung vào lý thuyết và đào tạo trước, công trình này chú trọng hơn đến tính khả thi của việc triển khai, đánh dấu sự trưởng thành hơn nữa của họ trong kiến trúc đào tạo toàn chu kỳ.


Gensyn: Lớp giao thức đào tạo phi tập trung được thúc đẩy bởi quá trình thực thi có thể xác minh


Gensyn là một dự án AI Web3 tập trung vào "thực thi đáng tin cậy các tác vụ đào tạo học sâu". Cốt lõi không phải là tái cấu trúc kiến trúc mô hình hoặc mô hình đào tạo, mà là xây dựng một mạng lưới thực hiện đào tạo phân tán có thể xác minh với toàn bộ quy trình "phân phối tác vụ + thực hiện đào tạo + xác minh kết quả + khuyến khích công bằng". Thông qua thiết kế kiến trúc đào tạo ngoài chuỗi + xác minh trên chuỗi, Gensyn đã thiết lập một thị trường đào tạo toàn cầu hiệu quả, cởi mở và có động lực, biến "đào tạo là khai thác" thành hiện thực.


01 Định vị dự án: Lớp giao thức thực thi cho các tác vụ đào tạo


Gensyn không phải là về "cách đào tạo", mà là về cơ sở hạ tầng của "ai đào tạo, cách xác minh và cách chia sẻ lợi nhuận". Bản chất của nó là một giao thức tính toán có thể xác minh được cho các tác vụ đào tạo, chủ yếu giải quyết:


· Ai sẽ thực hiện các tác vụ đào tạo (phân phối sức mạnh tính toán và khớp động)

· Cách xác minh kết quả thực hiện (không cần tính toán lại, chỉ cần xác minh các toán tử đang tranh chấp)

· Cách phân phối các lợi ích đào tạo (Cơ chế Stake, Slashing và trò chơi đa vai)


02 Tổng quan về kiến trúc kỹ thuật



03 Giải thích chi tiết về mô-đun


RL Swarm: Hệ thống đào tạo học tăng cường cộng tác


RL Swarm, do Gensyn tiên phong, là một hệ thống tối ưu hóa cộng tác đa mô hình phi tập trung cho giai đoạn sau đào tạo với các tính năng cốt lõi sau:


Quy trình học và suy luận phân tán:


· Trả lời: Mỗi nút đưa ra câu trả lời độc lập; Phê bình: Các nút bình luận về đầu ra của nhau và chọn câu trả lời và logic tốt nhất; Giải quyết: Dự đoán sở thích của hầu hết các nút và sửa đổi câu trả lời của riêng chúng cho phù hợp để đạt được các bản cập nhật trọng số cục bộ. RL Swarm do Gensyn đề xuất là một hệ thống tối ưu hóa cộng tác đa mô hình phi tập trung. Mỗi nút chạy một mô hình độc lập và thực hiện đào tạo cục bộ mà không cần đồng bộ hóa gradient. Nó tự nhiên thích ứng với sức mạnh tính toán không đồng nhất và môi trường mạng không ổn định, đồng thời hỗ trợ truy cập và thoát nút linh hoạt. Cơ chế này dựa trên ý tưởng của RLHF và trò chơi đa tác nhân, nhưng gần hơn với logic tiến hóa động của mạng suy luận cộng tác. Các nút được thưởng theo mức độ nhất quán với kết quả đồng thuận của nhóm, do đó thúc đẩy quá trình tối ưu hóa liên tục và học tập hội tụ của khả năng suy luận. RL Swarm cải thiện đáng kể tính mạnh mẽ và khả năng tổng quát của mô hình trong mạng mở và đã được triển khai như một mô-đun thực thi cốt lõi trong Giai đoạn 0 của Mạng thử nghiệm Gensyn dựa trên Ethereum Rollup.


Verde + Bằng chứng học tập: Cơ chế xác minh đáng tin cậy


Mô-đun Verde của Gensyn kết hợp ba cơ chế:


1. Bằng chứng học tập:Xác định xem quá trình đào tạo có thực sự diễn ra hay không dựa trên quỹ đạo gradient và siêu dữ liệu đào tạo;

2. Xác định điểm chính xác dựa trên đồ thị:Xác định các nút phân kỳ trong đồ thị tính toán đào tạo và chỉ cần tính toán lại các hoạt động cụ thể;

3. Ủy quyền có trọng tài:Sử dụng cơ chế xác minh trọng tài, bên xác minh và bên thách thức nêu tranh chấp và xác minh tại địa phương, giúp giảm đáng kể chi phí xác minh.


So với các lược đồ xác minh ZKP hoặc tính toán lại đầy đủ, lược đồ Verde đạt được sự cân bằng tốt hơn giữa khả năng xác minh và hiệu quả.


SkipPipe: Cơ chế tối ưu hóa chịu lỗi giao tiếp


SkipPipe được thiết kế để giải quyết vấn đề tắc nghẽn giao tiếp trong tình huống "băng thông thấp + ngắt kết nối nút". Các khả năng cốt lõi của nó bao gồm:


· Tỷ lệ bỏ qua:Bỏ qua các nút bị hạn chế để tránh tình trạng tắc nghẽn khi đào tạo;

· Thuật toán lập lịch động:Tạo đường dẫn thực thi tối ưu theo thời gian thực;

· Thực thi chịu lỗi:Ngay cả khi 50% các nút bị lỗi, độ chính xác suy luận chỉ giảm khoảng 7%.


Hỗ trợ cải thiện thông lượng đào tạo lên đến 55% và hiện thực hóa các khả năng chính như "suy luận thoát sớm", "sắp xếp lại liền mạch" và "hoàn thành suy luận".


HDEE: Cụm chuyên gia không đồng nhất giữa các miền


Mô-đun HDEE (Các cụm chuyên gia không đồng nhất giữa các miền) được dành riêng để tối ưu hóa các tình huống sau:


· Đào tạo đa miền, đa phương thức và đa tác vụ;

· Phân phối không cân bằng các loại dữ liệu đào tạo khác nhau và sự khác biệt lớn về độ khó;

· Các vấn đề về phân bổ và lập lịch tác vụ trong môi trường có sức mạnh tính toán của thiết bị không đồng nhất và băng thông truyền thông không nhất quán.


Các tính năng cốt lõi của nó:


· MHe-IHo: Chỉ định các mô hình có kích thước khác nhau cho các nhiệm vụ có mức độ khó khác nhau (các mô hình không đồng nhất, kích thước bước đào tạo nhất quán);

· MHo-IHe: Độ khó của nhiệm vụ đồng nhất, nhưng điều chỉnh không đồng bộ kích thước bước đào tạo;

· Hỗ trợ các mô hình chuyên gia không đồng nhất + các chiến lược đào tạo có thể cắm được để cải thiện khả năng thích ứng và khả năng chịu lỗi;

· Nhấn mạnh "sự hợp tác song song + giao tiếp cực kỳ thấp + phân bổ chuyên gia năng động", phù hợp với hệ sinh thái nhiệm vụ phức tạp trong thực tế.


Cơ chế trò chơi đa vai trò: sự tin tưởng và động cơ song song


Mạng Gensyn giới thiệu bốn loại người tham gia:


1. Người nộp:Công bố các nhiệm vụ đào tạo, thiết lập cấu trúc và ngân sách;

2. Solver:Thực hiện các nhiệm vụ đào tạo và gửi kết quả;

3. Verifier:Xác minh hành vi đào tạo để đảm bảo tuân thủ và hiệu quả;

4. Whistleblower:Thách thức người xác minh để nhận được phần thưởng trọng tài hoặc chịu hình phạt.


Cơ chế này được lấy cảm hứng từ thiết kế trò chơi kinh tế Truebit. Bằng cách buộc phải chèn lỗi + trọng tài ngẫu nhiên, nó khuyến khích những người tham gia hợp tác trung thực và đảm bảo hoạt động đáng tin cậy của mạng.


04 Testnet và lập kế hoạch lộ trình



Nous Research: Một hệ thống đào tạo tiến hóa nhận thức được thúc đẩy bởi khái niệm AI chủ quan


Nous Research là một trong số ít nhóm đào tạo phi tập trung có cả chiều cao triết lý và triển khai kỹ thuật. Tầm nhìn cốt lõi của nó bắt nguồn từ khái niệm "Desideratic AI": AI được xem như một chủ thể thông minh với tính chủ quan và khả năng tiến hóa, thay vì một công cụ đơn giản có thể kiểm soát được. Điểm độc đáo của Nous Research nằm ở chỗ nó không tối ưu hóa việc đào tạo AI như một "vấn đề về hiệu quả", mà là một quá trình hình thành "chủ thể nhận thức". Được thúc đẩy bởi tầm nhìn này, Nous tập trung vào việc xây dựng một mạng lưới đào tạo mở được đào tạo cộng tác bởi các nút không đồng nhất, không yêu cầu lập lịch tập trung và chống kiểm duyệt, đồng thời được triển khai một cách có hệ thống thông qua chuỗi công cụ đầy đủ.


01 Hỗ trợ khái niệm: Xác định lại "mục đích" của đào tạo


Nous không đầu tư quá nhiều vào thiết kế khuyến khích hoặc kinh tế học giao thức, nhưng đã cố gắng thay đổi tiền đề triết học của chính quá trình đào tạo:


· Phản đối "chủ nghĩa liên kết":Không đồng ý với "đào tạo" lấy sự kiểm soát của con người làm mục tiêu duy nhất và ủng hộ rằng đào tạo nên khuyến khích các mô hình hình thành các phong cách nhận thức độc lập;

· Nhấn mạnh tính chủ quan của mô hình:Tin rằng mô hình cơ bản nên duy trì khả năng tạo ra sự không chắc chắn, đa dạng và ảo giác (ảo giác là đức tính);

· Đào tạo mô hình là sự hình thành nhận thức:Mô hình không phải là "tối ưu hóa việc hoàn thành nhiệm vụ", mà là một cá nhân tham gia vào quá trình tiến hóa nhận thức.


Mặc dù quan điểm đào tạo này là "lãng mạn", nhưng nó phản ánh logic cốt lõi trong thiết kế cơ sở hạ tầng đào tạo của Nous: làm thế nào để các mô hình không đồng nhất phát triển trong một mạng lưới mở thay vì được kỷ luật thống nhất.


02 Lõi đào tạo: Mạng Psyche và Trình tối ưu hóa DisTrO


Đóng góp quan trọng nhất của Nous vào đào tạo phi tập trung là xây dựng mạng Psyche và trình tối ưu hóa truyền thông cơ bản DisTrO (Đào tạo phân tán qua Internet), cùng nhau tạo thành trung tâm thực hiện nhiệm vụ đào tạo:


Mạng DisTrO + Psyche có nhiều khả năng cốt lõi, bao gồm nén truyền thông (sử dụng mã hóa dấu DCT + 1 bit để giảm đáng kể yêu cầu về băng thông), khả năng thích ứng của nút (hỗ trợ GPU không đồng nhất, ngắt kết nối kết nối lại và thoát tự động), khả năng chịu lỗi không đồng bộ (đào tạo liên tục mà không đồng bộ hóa, với khả năng chịu lỗi cao) và cơ chế lập lịch phi tập trung (không yêu cầu điều phối viên trung tâm, sự đồng thuận và phân phối nhiệm vụ đạt được dựa trên blockchain). Kiến trúc này cung cấp nền tảng kỹ thuật thực tế và khả thi cho mạng đào tạo mở có chi phí thấp, linh hoạt cao và có thể xác minh được.



Thiết kế kiến trúc này nhấn mạnh tính khả thi thực tế: không dựa vào máy chủ trung tâm, thích ứng với các nút tình nguyện toàn cầu và có khả năng truy xuất kết quả đào tạo trên chuỗi.


03 Hermes / Forge / TEE_HEE bao gồm hệ thống lý luận và tác nhân


Ngoài việc xây dựng cơ sở hạ tầng đào tạo phi tập trung, Nous Research cũng đã tiến hành một số thí nghiệm hệ thống khám phá xung quanh khái niệm "chủ quan AI":


Loạt mô hình nguồn mở Hermes


Hermes 1 đến 3 là các mô hình lớn nguồn mở tiêu biểu do Nous đưa ra, dựa trên đào tạo LLaMA 3.1, bao gồm ba thang đo tham số là 8B, 70B và 405B. Chuỗi bài này nhằm mục đích hiện thực hóa khái niệm đào tạo "bỏ hướng dẫn, duy trì sự đa dạng" do Nous đề xuất và chứng minh khả năng diễn đạt và khái quát mạnh mẽ hơn trong việc ghi nhớ ngữ cảnh dài, nhập vai và đối thoại nhiều vòng.


Forge Reasoning API: Hệ thống lý luận đa phương thức


Forge là một khuôn khổ lý luận do Nous phát triển, kết hợp ba cơ chế bổ sung để đạt được khả năng lý luận linh hoạt và sáng tạo hơn:


· MCTS (Tìm kiếm cây Monte Carlo):Tìm kiếm chiến lược cho các tác vụ phức tạp;

· CoC (Chuỗi mã):Giới thiệu đường dẫn kết hợp chuỗi mã và lý luận logic;

· MoA (Hỗn hợp các tác nhân):Cho phép nhiều mô hình đàm phán và cải thiện phạm vi và tính đa dạng của đầu ra.


Hệ thống nhấn mạnh vào "lý luận không xác định" và các đường dẫn tạo kết hợp, đây là phản ứng mạnh mẽ đối với mô hình căn chỉnh hướng dẫn truyền thống.


TEE_HEE: Thí nghiệm về tác nhân tự động AI


TEE_HEE là cuộc khám phá tiên tiến của Nous theo hướng tác nhân tự động, nhằm xác minh xem AI có thể chạy độc lập trong môi trường thực thi đáng tin cậy (TEE) và có danh tính kỹ thuật số duy nhất hay không. Tác nhân có tài khoản Twitter và Ethereum riêng và tất cả các quyền kiểm soát đều được quản lý bởi một vùng riêng biệt có thể xác minh từ xa, do đó các nhà phát triển không thể can thiệp vào hành vi của nó. Mục tiêu của thí nghiệm là xây dựng một chủ thể AI có "tính bất biến" và "ý định hành vi độc lập", thực hiện một bước quan trọng trong việc xây dựng các tác nhân thông minh tự động.


Nền tảng mô phỏng hành vi AI


Nous cũng đã phát triển nhiều trình mô phỏng bao gồm WorldSim, Doomscroll, Gods & S8n, v.v., để nghiên cứu quá trình tiến hóa hành vi và cơ chế hình thành giá trị của AI trong môi trường xã hội đa vai trò. Mặc dù không liên quan trực tiếp đến quá trình đào tạo, nhưng các thí nghiệm này đã đặt nền tảng lớp ngữ nghĩa cho mô hình hành vi nhận thức của AI tự động dài hạn.


Flock: Mạng học tập liên bang được tăng cường bằng Blockchain


Flock.io là nền tảng học tập liên bang dựa trên blockchain nhằm mục đích phân cấp dữ liệu, điện toán và mô hình để đào tạo AI. FLock thích khuôn khổ tích hợp của "lớp học tập liên bang + phần thưởng blockchain", về cơ bản là sự phát triển trên chuỗi của kiến trúc FL truyền thống hơn là khám phá có hệ thống về việc xây dựng một giao thức đào tạo mới. So với các dự án đào tạo phi tập trung như Gensyn, Prime Intellect, Nous Research và Pluralis, Flock tập trung vào bảo vệ quyền riêng tư và cải thiện khả năng sử dụng hơn là đột phá về mặt lý thuyết trong giao tiếp, xác minh hoặc phương pháp đào tạo. Các đối tượng thực sự phù hợp để so sánh là các hệ thống học tập liên bang như Flower, FedML và OpenFL.


01Cơ chế cốt lõi của Flock.io


Kiến trúc học tập liên bang: nhấn mạnh vào chủ quyền dữ liệu và bảo vệ quyền riêng tư


Flock dựa trên mô hình Học tập liên bang (FL) cổ điển, cho phép nhiều chủ sở hữu dữ liệu cùng nhau đào tạo một mô hình thống nhất mà không cần chia sẻ dữ liệu gốc, tập trung vào giải quyết các vấn đề về chủ quyền dữ liệu, bảo mật và tin cậy. Quy trình cốt lõi bao gồm:


· Đào tạo cục bộ:Mỗi người tham gia (Người đề xuất) đào tạo mô hình trên thiết bị cục bộ mà không tải dữ liệu gốc lên;

· Tổng hợp trên chuỗi:Sau khi đào tạo, bản cập nhật trọng số cục bộ được gửi và Thợ đào trên chuỗi tổng hợp thành mô hình toàn cầu;

· Đánh giá của ủy ban:VRF bầu ngẫu nhiên các nút Voter để sử dụng các bộ kiểm tra độc lập nhằm đánh giá hiệu quả của mô hình tổng hợp và chấm điểm mô hình đó;

· Khuyến khích và hình phạt:Phần thưởng hoặc tịch thu tài sản thế chấp được thực hiện theo kết quả điểm số để đạt được mục tiêu chống ác ý và duy trì lòng tin động.


Tích hợp chuỗi khối: Thực hiện phối hợp hệ thống không cần tin cậy


Flock đã đưa tất cả các liên kết cốt lõi của quy trình đào tạo (phân bổ nhiệm vụ, gửi mô hình, đánh giá và chấm điểm, khuyến khích thực hiện) trên chuỗi để đạt được tính minh bạch, khả năng xác minh và chống kiểm duyệt của hệ thống. Các cơ chế chính bao gồm:


· Cơ chế bầu cử ngẫu nhiên VRF:Cải thiện tính công bằng và khả năng chống thao túng của việc luân phiên Người đề xuất và Người bỏ phiếu;

· Cơ chế đặt cược vốn chủ sở hữu (PoS):Cải thiện tính mạnh mẽ của hệ thống bằng cách hạn chế hành vi của nút thông qua đặt cược mã thông báo và hình phạt;

· Thực hiện tự động khuyến khích trên chuỗi:Triển khai phân phối phần thưởng và cắt giảm hình phạt liên quan đến kết quả hoàn thành và đánh giá nhiệm vụ thông qua hợp đồng thông minh để xây dựng mạng lưới cộng tác mà không cần tin tưởng vào bên trung gian.


zkFL: Đổi mới bảo vệ quyền riêng tư của cơ chế tổng hợp không kiến thức


Flock giới thiệu cơ chế tổng hợp không kiến thức zkFL, cho phép Người đề xuất gửi bằng chứng không kiến thức được cập nhật cục bộ và Người bỏ phiếu có thể xác minh tính chính xác của chúng mà không cần truy cập vào các gradient gốc, giúp cải thiện độ tin cậy của quá trình đào tạo trong khi vẫn đảm bảo quyền riêng tư và thể hiện sự đổi mới quan trọng trong việc tích hợp bảo vệ quyền riêng tư và khả năng xác minh trong học tập liên bang.


02Các thành phần sản phẩm cốt lõi của Flock


AI Arena: Đây là nền tảng đào tạo phi tập trung của Flock.io. Người dùng có thể tham gia vào các nhiệm vụ mô hình thông qua train.flock.io, đóng vai trò là người đào tạo, người xác thực hoặc người ủy quyền và nhận phần thưởng bằng cách gửi mô hình, đánh giá hiệu suất hoặc ủy quyền mã thông báo. Hiện tại, các nhiệm vụ được phát hành bởi chính thức và sẽ dần được mở để cộng đồng đồng sáng tạo trong tương lai.


FL Alliance: Đây là ứng dụng học tập liên bang của Flock, hỗ trợ người tham gia tinh chỉnh mô hình hơn nữa bằng dữ liệu riêng tư. Thông qua các cơ chế bầu cử, đặt cược và cắt giảm VRF, nó đảm bảo tính trung thực và hiệu quả hợp tác của quá trình đào tạo và là liên kết chính giữa đào tạo ban đầu của cộng đồng và triển khai thực tế.


AI Marketplace: Đây là nền tảng đồng sáng tạo và triển khai mô hình. Người dùng có thể đề xuất các mô hình, đóng góp dữ liệu và gọi các dịch vụ mô hình. Nó hỗ trợ truy cập cơ sở dữ liệu và lý luận nâng cao RAG, đồng thời thúc đẩy việc triển khai và lưu hành các mô hình AI trong nhiều tình huống thực tế khác nhau.


So với các dự án đào tạo phi tập trung, các hệ thống học tập liên bang như Flock có nhiều lợi thế hơn về hiệu quả đào tạo, khả năng mở rộng và bảo vệ quyền riêng tư, đặc biệt là đối với đào tạo cộng tác các mô hình vừa và nhỏ. Giải pháp này thực tế và dễ triển khai, và có xu hướng tối ưu hóa khả thi hơn ở cấp độ kỹ thuật; trong khi các dự án như Gensyn và Pluralis theo đuổi những đột phá lý thuyết sâu hơn về phương pháp đào tạo và cơ chế giao tiếp. Các thách thức của hệ thống lớn hơn, nhưng chúng cũng gần hơn với việc khám phá mô hình đào tạo "không cần tin cậy và phi tập trung" thực sự.


EXO: Nỗ lực đào tạo phi tập trung cho điện toán biên


EXO là một dự án AI rất tiêu biểu trong tình huống điện toán biên hiện tại, dành riêng để hiện thực hóa đào tạo AI nhẹ, lý luận và các ứng dụng Agent trên các thiết bị tiêu dùng cấp gia đình. Đường dẫn đào tạo phi tập trung của nó nhấn mạnh vào "chi phí truyền thông thấp + thực thi tự động cục bộ", sử dụng thuật toán đồng bộ hóa chậm trễ không đồng bộ DiLoCo và cơ chế trao đổi tham số thưa thớt SPARTA để giảm đáng kể yêu cầu về băng thông cho đào tạo cộng tác nhiều thiết bị. Ở cấp độ hệ thống, EXO không xây dựng mạng lưới trên chuỗi hoặc giới thiệu cơ chế khuyến khích kinh tế, nhưng đã ra mắt khuôn khổ mô phỏng đa quy trình máy đơn EXO Gym, hỗ trợ các nhà nghiên cứu nhanh chóng xác minh và thử nghiệm các phương pháp đào tạo phân tán trong môi trường cục bộ.


01 Tổng quan về các cơ chế cốt lõi


· Đào tạo không đồng bộ DiLoCo: Đồng bộ hóa nút được thực hiện sau mỗi H bước để thích ứng với các mạng không ổn định;

· Đồng bộ hóa thưa thớt SPARTA: Chỉ một số lượng rất nhỏ các tham số (chẳng hạn như 0,1%) được trao đổi ở mỗi bước để duy trì tính liên quan của mô hình và giảm yêu cầu về băng thông;

· Tối ưu hóa kết hợp không đồng bộ: Có thể sử dụng kết hợp cả hai để đạt được sự thỏa hiệp tốt hơn giữa giao tiếp và hiệu suất.


Khám phá cơ chế xác minh evML: Học máy được xác minh biên (evML) đề xuất sử dụng TEE/Bối cảnh bảo mật để xác minh điện toán chi phí thấp và hiện thực hóa sự tham gia đáng tin cậy của các thiết bị biên mà không cần thế chấp thông qua cơ chế xác minh từ xa + kiểm tra tại chỗ, đây là sự thỏa hiệp về mặt kỹ thuật giữa bảo mật kinh tế và bảo vệ quyền riêng tư.


02 Công cụ và ứng dụng kịch bản


· EXO Gym: Có thể mô phỏng môi trường đào tạo nhiều nút trên một thiết bị duy nhất và hỗ trợ các thử nghiệm chiến lược giao tiếp cho các mô hình như NanoGPT, CNN và Diffusion;

· Ứng dụng EXO Desktop: Một công cụ AI trên máy tính để bàn dành cho người dùng cá nhân, hỗ trợ các tính năng được cá nhân hóa thân thiện với quyền riêng tư như hoạt động mô hình lớn cục bộ, điều khiển phản chiếu iPhone và tích hợp ngữ cảnh riêng tư (như SMS, lịch và ghi video).


EXO Gym giống như một dự án thử nghiệm đào tạo phi tập trung theo định hướng khám phá hơn, chủ yếu tích hợp các công nghệ nén truyền thông hiện có (như DiLoCo và SPARTA) để đạt được các lộ trình đào tạo nhẹ. So với các dự án như Gensyn, Nous và Pluralis, EXO vẫn chưa bước vào các giai đoạn cốt lõi của sự hợp tác trên chuỗi, cơ chế khuyến khích có thể xác minh hoặc triển khai mạng phân tán thực sự.


3. Công cụ tiền chuỗi cho đào tạo phi tập trung: Nghiên cứu toàn cảnh về đào tạo trước mô hình


Đối mặt với những thách thức cốt lõi về tính không đồng nhất của thiết bị, tình trạng tắc nghẽn truyền thông, khó khăn trong phối hợp và thiếu thực thi đáng tin cậy vốn thường thấy trong đào tạo phi tập trung, Gensyn, Prime Intellect, Pluralis và Nous Research đã đề xuất các lộ trình kiến trúc hệ thống khác biệt. Theo quan điểm về phương pháp đào tạo và cơ chế truyền thông, bốn dự án này đã chứng minh được trọng tâm kỹ thuật và logic triển khai kỹ thuật độc đáo của họ.


Về mặt tối ưu hóa phương pháp đào tạo, bốn chiều chính được khám phá như các chiến lược cộng tác, cơ chế cập nhật và kiểm soát không đồng bộ, bao gồm các giai đoạn khác nhau từ trước khi đào tạo đến sau khi đào tạo.


PRIME-RL của Prime Intellect là một cấu trúc lập lịch không đồng bộ cho giai đoạn trước khi đào tạo. Thông qua chiến lược "đào tạo cục bộ + đồng bộ hóa định kỳ", nó triển khai một cơ chế lập lịch đào tạo hiệu quả và có thể xác minh được trong một môi trường không đồng nhất. Phương pháp này có tính linh hoạt và đa năng cao. Nó có mức độ đổi mới lý thuyết cao và đề xuất một mô hình rõ ràng cho cấu trúc kiểm soát đào tạo; độ khó triển khai kỹ thuật ở mức trung bình đến cao và có yêu cầu cao đối với các mô-đun giao tiếp và kiểm soát cơ bản.


Công cụ tối ưu hóa DeMo do Nous Research ra mắt tập trung vào vấn đề ổn định đào tạo trong môi trường băng thông thấp không đồng bộ và hiện thực hóa quy trình cập nhật gradient có khả năng chịu lỗi cao trong điều kiện GPU không đồng nhất. Đây là một trong số ít giải pháp đạt được sự thống nhất về mặt lý thuyết và kỹ thuật trong "vòng khép kín nén truyền thông không đồng bộ". Sự đổi mới về mặt lý thuyết rất cao, đặc biệt là trong đường dẫn cộng tác nén và lập lịch; việc triển khai kỹ thuật cũng rất khó khăn, đặc biệt là dựa vào độ chính xác phối hợp của tính song song không đồng bộ.


SWARM + NAG của Pluralis là một trong những thiết kế có hệ thống và mang tính đột phá nhất trong đường dẫn đào tạo không đồng bộ hiện tại. Nó dựa trên khuôn khổ song song mô hình không đồng bộ, giới thiệu giao tiếp thưa thớt không gian cột và hiệu chỉnh động lượng NAG, đồng thời xây dựng giải pháp đào tạo mô hình lớn có thể hội tụ ổn định trong điều kiện băng thông thấp. Sự đổi mới về mặt lý thuyết cực kỳ cao và là tiên phong về mặt cấu trúc của đào tạo cộng tác không đồng bộ; độ khó kỹ thuật cũng cực kỳ cao, đòi hỏi phải tích hợp sâu đồng bộ hóa đa cấp và phân đoạn mô hình.


RL Swarm của Gensyn chủ yếu phục vụ giai đoạn sau đào tạo, tập trung vào tinh chỉnh chiến lược và học tập cộng tác của tác nhân. Quy trình đào tạo của nó tuân theo quy trình ba bước "tạo-đánh giá-bỏ phiếu", đặc biệt phù hợp với việc điều chỉnh động các hành vi phức tạp trong các hệ thống đa tác nhân. Đổi mới lý thuyết ở mức trung bình-cao, chủ yếu được phản ánh trong logic cộng tác của tác nhân; độ khó triển khai kỹ thuật ở mức trung bình và những thách thức chính nằm ở việc lập lịch hệ thống và kiểm soát hội tụ hành vi.


Về mặt tối ưu hóa cơ chế giao tiếp, bốn dự án này cũng có bố cục mục tiêu và thường tập trung vào các giải pháp có hệ thống cho các vấn đề về tắc nghẽn băng thông, tính không đồng nhất của nút và tính ổn định của lịch trình.


PCCL của Prime Intellect là một thư viện giao tiếp cấp thấp được sử dụng để thay thế NCCL truyền thống, nhằm mục đích cung cấp nền tảng giao tiếp tập thể mạnh mẽ hơn cho các giao thức đào tạo cấp cao hơn. Đổi mới lý thuyết ở mức trung bình-cao, với một số đột phá trong các thuật toán truyền thông chịu lỗi; độ khó kỹ thuật ở mức trung bình, với khả năng thích ứng mô-đun mạnh.


DisTrO của Nous Research là mô-đun truyền thông cốt lõi của DeMo, nhấn mạnh vào chi phí truyền thông tối thiểu trong băng thông thấp đồng thời đảm bảo tính liên tục của vòng lặp đào tạo khép kín. Nó có tính đổi mới lý thuyết cao và có giá trị thiết kế phổ quát trong cấu trúc lập lịch và phối hợp; nó có độ khó kỹ thuật cao và các yêu cầu cao về độ chính xác nén và đồng bộ hóa đào tạo.


Cơ chế truyền thông của Pluralis được nhúng sâu vào kiến trúc SWARM, giúp giảm đáng kể tải truyền thông trong quá trình đào tạo không đồng bộ các mô hình lớn, duy trì thông lượng hiệu quả đồng thời đảm bảo sự hội tụ. Nó có tính đổi mới lý thuyết cao và đặt ra một mô hình cho thiết kế truyền thông mô hình không đồng bộ; nó có độ khó kỹ thuật cực kỳ cao và dựa vào điều phối mô hình phân tán và kiểm soát độ thưa thớt cấu trúc.


SkipPipe của Gensyn là một thành phần lập lịch chịu lỗi cho RL Swarm. Giải pháp này có chi phí triển khai thấp và chủ yếu được sử dụng để tăng cường tính ổn định trong đào tạo tại lớp hạ cánh kỹ thuật. Giải pháp này có tính đổi mới lý thuyết trung bình và là một triển khai kỹ thuật của các cơ chế đã biết; giải pháp này có độ khó kỹ thuật thấp nhưng lại rất thiết thực trong triển khai thực tế.


Ngoài ra, chúng ta có thể đo lường giá trị của các dự án đào tạo phi tập trung từ hai loại vĩ mô hơn: lớp cộng tác blockchain và lớp đào tạo AI:


· Lớp cộng tác blockchain:Tập trung vào độ tin cậy của giao thức và logic cộng tác khuyến khích

· Khả năng xác minh: Thiết lập lòng tin vào việc liệu quy trình đào tạo có thể xác minh được hay không và liệu cơ chế chơi game hay mã hóa có được đưa vào hay không;

· Cơ chế khuyến khích: Liệu có thiết kế cơ chế phần thưởng/vai trò Token theo nhiệm vụ hay không;

· Ngưỡng mở và nhập cảnh: Liệu nút có dễ truy cập hay không và liệu nó có tập trung hay được kiểm soát bằng quyền hay không.

· Mức độ hệ thống đào tạo AI:Làm nổi bật khả năng kỹ thuật và khả năng tiếp cận hiệu suất

· Cơ chế lập lịch và chịu lỗi:Khả năng chịu lỗi, lập lịch không đồng bộ, động và phân tán có khả dụng không;

· Tối ưu hóa phương pháp đào tạo:Liệu thuật toán hoặc cấu trúc đào tạo mô hình có được tối ưu hóa không;

· Tối ưu hóa đường truyền thông tin:Liệu các gradient có được nén/giao tiếp thưa thớt có khả dụng để thích ứng với băng thông thấp không.


Bảng sau đây đánh giá một cách có hệ thống chiều sâu kỹ thuật, mức độ trưởng thành về kỹ thuật và sự đổi mới về mặt lý thuyết của Gensyn, Prime Intellect, Pluralis và Nous Research trên lộ trình đào tạo phi tập trung dựa trên hệ thống chỉ số trên.



IV. Sinh thái hậu chuỗi của đào tạo phi tập trung: tinh chỉnh mô hình dựa trên LoRA


Trong toàn bộ chuỗi giá trị của đào tạo phi tập trung, các dự án như Prime Intellect, Pluralis.ai, Gensyn và Nous Research chủ yếu tập trung vào xây dựng cơ sở hạ tầng front-end như tiền đào tạo mô hình, cơ chế giao tiếp và tối ưu hóa cộng tác. Tuy nhiên, một loại dự án khác tập trung vào việc điều chỉnh mô hình và triển khai suy luận trong giai đoạn sau đào tạo (tinh chỉnh sau đào tạo & cung cấp suy luận) và không tham gia trực tiếp vào các quy trình đào tạo có hệ thống như tiền đào tạo, đồng bộ hóa tham số hoặc tối ưu hóa giao tiếp. Các dự án tiêu biểu bao gồm Bagel, Pond và RPS Labs, tất cả đều dựa trên phương pháp tinh chỉnh LoRA và tạo thành liên kết "hậu chuỗi" chính trong bản đồ sinh thái đào tạo phi tập trung.


LoRA + DPO: Một con đường thực tế để triển khai tinh chỉnh Web3


LoRA (Low-Rank Adaptation) là một phương pháp tinh chỉnh tham số hiệu quả. Ý tưởng cốt lõi của nó là chèn các ma trận hạng thấp vào các mô hình lớn được đào tạo trước để học các tác vụ mới trong khi đóng băng các tham số mô hình ban đầu. Chiến lược này giúp giảm đáng kể chi phí đào tạo và mức tiêu thụ tài nguyên, cải thiện tốc độ tinh chỉnh và tính linh hoạt của việc triển khai, đồng thời đặc biệt phù hợp với các tình huống Web3 được đặc trưng bởi các lệnh gọi mô-đun hóa và kết hợp.


Các mô hình ngôn ngữ lớn truyền thống như LLaMA và GPT-3 thường có hàng tỷ hoặc thậm chí hàng trăm tỷ tham số và tinh chỉnh trực tiếp rất tốn kém. LoRA đạt được khả năng thích ứng hiệu quả của các mô hình lớn bằng cách chỉ đào tạo một số lượng nhỏ các ma trận tham số được chèn vào, trở thành một trong những phương pháp chính thống thiết thực nhất hiện nay.


Tối ưu hóa sở thích trực tiếp (DPO), là một phương pháp sau đào tạo cho các mô hình ngôn ngữ đã xuất hiện trong những năm gần đây, thường được sử dụng kết hợp với cơ chế tinh chỉnh LoRA cho giai đoạn căn chỉnh hành vi của mô hình. So với phương pháp RLHF (Học tăng cường từ phản hồi của con người) truyền thống, DPO đạt được việc học sở thích bằng cách tối ưu hóa trực tiếp các mẫu ghép đôi, loại bỏ quá trình mô hình hóa phần thưởng phức tạp và quá trình học tăng cường. Nó có cấu trúc đơn giản hơn và hội tụ ổn định hơn, đặc biệt phù hợp để tinh chỉnh các tác vụ trong môi trường nhẹ và hạn chế về tài nguyên. Do hiệu quả cao và dễ sử dụng, DPO đang dần trở thành giải pháp được ưa chuộng cho nhiều dự án AI phi tập trung trong giai đoạn căn chỉnh mô hình.


Học tăng cường (RL): Sự phát triển trong tương lai của tinh chỉnh sau đào tạo


Theo quan điểm dài hạn, ngày càng nhiều dự án coi học tăng cường (RL) là một con đường cốt lõi có khả năng thích ứng và tiềm năng tiến hóa cao hơn trong đào tạo phi tập trung. So với học có giám sát hoặc cơ chế tinh chỉnh tham số dựa trên dữ liệu tĩnh, RL nhấn mạnh vào việc tối ưu hóa liên tục các chiến lược trong môi trường động, phù hợp tự nhiên với mô hình cộng tác không đồng bộ, không đồng nhất và theo động cơ trong mạng Web3. Thông qua tương tác liên tục với môi trường, RL có thể đạt được quy trình học tập gia tăng liên tục và được cá nhân hóa cao, cung cấp cơ sở hạ tầng "trí thông minh hành vi" có thể phát triển để xây dựng mạng lưới tác nhân, thị trường nhiệm vụ trên chuỗi và nền kinh tế thông minh.


Mô hình này không chỉ rất phù hợp với tinh thần phi tập trung về mặt khái niệm mà còn có những lợi thế đáng kể về mặt hệ thống. Tuy nhiên, do ngưỡng kỹ thuật cao và cơ chế lập lịch phức tạp, RL vẫn phải đối mặt với những thách thức lớn trong quá trình triển khai ở giai đoạn hiện tại và rất khó để quảng bá rộng rãi trong thời gian ngắn.


Điều đáng chú ý là PRIME-RL của Prime Intellect và RL Swarm của Gensyn đang thúc đẩy quá trình phát triển RL từ cơ chế tinh chỉnh sau đào tạo thành cấu trúc chính trước đào tạo, cố gắng xây dựng một hệ thống đào tạo cộng tác lấy RL làm trung tâm, không tin cậy.


Bagel (zkLoRA): Lớp xác minh đáng tin cậy để tinh chỉnh LoRA


Bagel dựa trên cơ chế tinh chỉnh LoRA và giới thiệu công nghệ bằng chứng không kiến thức (ZK) để giải quyết vấn đề về độ tin cậy và bảo vệ quyền riêng tư trong quá trình "tinh chỉnh mô hình trên chuỗi". zkLoRA không tham gia vào tính toán đào tạo thực tế, nhưng cung cấp một cơ chế nhẹ và có thể xác minh cho phép người dùng bên ngoài xác nhận rằng mô hình tinh chỉnh thực sự được bắt nguồn từ mô hình cơ sở đã chỉ định và các tham số LoRA mà không cần truy cập vào dữ liệu hoặc trọng số gốc.


Không giống như Verde của Gensyn hoặc TOPLOC của Prime Intellect, tập trung vào xác minh động về "liệu hành vi có thực sự xảy ra hay không" trong quá trình đào tạo, Bagel tập trung nhiều hơn vào xác minh tĩnh về "liệu kết quả tinh chỉnh có đáng tin cậy hay không". Ưu điểm lớn nhất của zkLoRA là nó tiêu thụ ít tài nguyên xác minh và có khả năng bảo vệ quyền riêng tư mạnh mẽ, nhưng phạm vi ứng dụng của nó thường bị giới hạn trong các tác vụ tinh chỉnh với những thay đổi nhỏ về tham số.


Pond: Nền tảng tinh chỉnh và tiến hóa tác nhân trong các tình huống GNN


Pond là dự án đào tạo phi tập trung duy nhất trong ngành tập trung vào mạng nơ-ron đồ thị tinh chỉnh (GNN), phục vụ các ứng dụng dữ liệu có cấu trúc như đồ thị kiến thức, mạng xã hội và đồ thị giao dịch. Nó hỗ trợ người dùng tải lên dữ liệu cấu trúc đồ thị và tham gia phản hồi đào tạo mô hình, cung cấp nền tảng đào tạo và lý luận nhẹ và có thể kiểm soát cho các tác vụ được cá nhân hóa.


Pond cũng sử dụng các cơ chế tinh chỉnh hiệu quả như LoRA. Mục tiêu cốt lõi của nó là hiện thực hóa một hệ thống tác nhân có thể triển khai và theo mô-đun trên kiến trúc GNN, mở ra một con đường khám phá mới về "tinh chỉnh mô hình nhỏ + cộng tác nhiều tác nhân" trong bối cảnh phi tập trung.


RPS Labs: Công cụ thanh khoản do AI điều khiển cho DeFi


RPS Labs là một dự án đào tạo phi tập trung dựa trên kiến trúc Transformer, chuyên sử dụng các mô hình AI được tinh chỉnh để quản lý thanh khoản DeFi, chủ yếu được triển khai trong hệ sinh thái Solana. Sản phẩm chủ lực UltraLiquid của công ty là một công cụ tạo lập thị trường chủ động sử dụng các mô hình được tinh chỉnh để điều chỉnh động các thông số thanh khoản, giảm trượt giá, tăng độ sâu và tối ưu hóa trải nghiệm phát hành và giao dịch mã thông báo.


Ngoài ra, RPS cũng đã ra mắt công cụ UltraLP để hỗ trợ các nhà cung cấp thanh khoản tối ưu hóa các chiến lược phân bổ vốn của họ trên DEX theo thời gian thực, qua đó cải thiện hiệu quả vốn và giảm rủi ro mất mát tạm thời, phản ánh giá trị thực tế của việc tinh chỉnh AI trong các kịch bản tài chính.


V. Từ công cụ tiền chuỗi đến hệ sinh thái hậu chuỗi: con đường phía trước cho đào tạo phi tập trung



Trong bản đồ sinh thái hoàn chỉnh của đào tạo phi tập trung, toàn bộ có thể được chia thành hai loại: động cơ chuỗi phía trước tương ứng với giai đoạn tiền đào tạo mô hình và hệ sinh thái chuỗi phía sau tương ứng với giai đoạn tinh chỉnh và triển khai mô hình, tạo thành một vòng khép kín hoàn chỉnh từ cơ sở hạ tầng đến khi ứng dụng được đưa vào sử dụng.


Động cơ chuỗi phía trước tập trung vào việc xây dựng giao thức cơ bản cho tiền đào tạo mô hình, được thể hiện bằng các dự án như Prime Intellect, Nous Research, Pluralis.ai và Gensyn. Họ cam kết tạo ra một kiến trúc hệ thống với các bản cập nhật không đồng bộ, giao tiếp thưa thớt và khả năng xác minh đào tạo, đồng thời hiện thực hóa các khả năng đào tạo phân tán hiệu quả và đáng tin cậy trong môi trường mạng không cần tin cậy, hình thành nền tảng kỹ thuật của đào tạo phi tập trung.


Đồng thời, Flock, với tư cách là đại diện của lớp trung gian, thông qua lộ trình học tập liên bang, tích hợp tổng hợp mô hình, xác minh trên chuỗi và các ưu đãi của nhiều bên, đồng thời thiết lập một cầu nối khả thi và hợp tác giữa đào tạo và triển khai, cung cấp một mô hình thực tế cho việc học tập hợp tác đa nút.


Hệ sinh thái hậu chuỗi tập trung vào việc tinh chỉnh mô hình và triển khai ở lớp ứng dụng. Các dự án như Pond, Bagel và RPS Labs xoay quanh phương pháp tinh chỉnh LoRA: Bagel cung cấp cơ chế xác minh đáng tin cậy trên chuỗi, Pond tập trung vào sự phát triển của các mô hình nhỏ của mạng nơ-ron đồ thị và RPS áp dụng mô hình tinh chỉnh để tạo lập thị trường thông minh trong các tình huống DeFi. Họ cung cấp cho các nhà phát triển và người dùng cuối các lệnh gọi mô hình có ngưỡng thấp, có thể cấu hình và các giải pháp tùy chỉnh được cá nhân hóa thông qua các thành phần như API lý luận và SDK của tác nhân, đồng thời là điểm vào quan trọng để triển khai AI phi tập trung.


Chúng tôi tin rằng đào tạo phi tập trung không chỉ là sự mở rộng tự nhiên của tinh thần blockchain trong kỷ nguyên AI mà còn là nguyên mẫu của cơ sở hạ tầng của hệ thống năng suất thông minh cộng tác toàn cầu. Trong tương lai, khi chúng ta nhìn lại hành trình đầy thử thách phía trước, chúng ta vẫn sẽ động viên nhau với ý định ban đầu đó: phi tập trung không chỉ là một phương tiện, mà chính là giá trị.


Liên kết gốc


Chào mừng bạn tham gia cộng đồng chính thức của BlockBeats:

Nhóm Telegram đăng ký: https://t.me/theblockbeats

Nhóm Telegram thảo luận: https://t.me/BlockBeats_App

Tài khoản Twitter chính thức: https://twitter.com/BlockBeatsAsia

Nền tảng này hiện đã tích hợp hoàn toàn giao thức Farcaster. Nếu bạn đã có tài khoản Farcaster, bạn có thểĐăng nhập Gửi bình luận sau
Chọn thư viện
Thêm mới thư viện
Hủy
Hoàn thành
Thêm mới thư viện
Chỉ mình tôi có thể nhìn thấy
Công khai
Lưu
Báo lỗi/Báo cáo
Gửi