Thấy bài hay em lại share lại…
DeepSeekMoE (Mixture of Experts) giúp DeepSeek xử lý thông tin hiệu quả hơn, giống như dùng một team chuyên gia giỏi thay vì chỉ một người làm tất cả mọi việc. Kỹ thuật MoE này đã được dùng từ phiên bản DeepSeek-V2.
Vậy mô hình MoE là gì?
Hãy tưởng tượng bạn có một nhóm chuyên gia, mỗi người giỏi về một lĩnh vực khác nhau. Khi có một câu hỏi khó, thay vì chỉ hỏi một người duy nhất, bạn sẽ hỏi ý kiến của một vài chuyên gia phù hợp nhất với câu hỏi đó. Mô hình MoE hoạt động tương tự như vậy trong DeepSeek.
Thay vì chỉ có một bộ phận duy nhất xử lý mọi thông tin (gọi là “mạng feed-forward” thông thường), DeepSeekMoE sử dụng nhiều “chuyên gia” nhỏ hơn. Mỗi “chuyên gia” này giống như một bộ não nhỏ, có khả năng xử lý một loại thông tin hoặc một khía cạnh của vấn đề tốt hơn.
Khi DeepSeek nhận được một câu hỏi, nó sẽ có một “người điều phối” (gọi là “router”) để quyết định xem những “chuyên gia” nào là phù hợp nhất để trả lời câu hỏi đó. “Người điều phối” này sẽ chọn ra một số “chuyên gia” giỏi nhất (ví dụ, chọn ra 2 chuyên gia giỏi nhất - “top K”, với K=2). Sau đó, các “chuyên gia” được chọn sẽ cùng nhau làm việc để đưa ra câu trả lời tốt nhất.
DeepSeekMoE có gì đặc biệt hơn?
DeepSeekMoE có hai cải tiến chính so với mô hình MoE cơ bản:
1. Phân chia chuyên gia chi tiết hơn (Fine-grained expert segmentation):
Thay vì chỉ có một số ít “chuyên gia” lớn, DeepSeek chia nhỏ mỗi “chuyên gia” thành nhiều “chuyên gia con” nhỏ hơn. Ví dụ, nếu ban đầu có 16 chuyên gia, DeepSeek có thể chia mỗi chuyên gia thành 4 phần, tạo ra tổng cộng 64 “chuyên gia con”.
Đây là chiến lước “chia để trị”, càng chuyên môn hóa cao thì càng giỏi. Mỗi “chuyên gia con” sẽ tập trung vào một khía cạnh nhỏ của vấn đề, giúp DeepSeek hiểu và xử lý thông tin một cách chi tiết và chính xác hơn. Điều này cũng tạo ra rất nhiều cách kết hợp khác nhau giữa các “chuyên gia con”, giúp DeepSeek linh hoạt hơn trong việc giải quyết các câu hỏi khác nhau.
2. Chuyên gia dùng chung (Shared Experts):
Để tránh việc các “chuyên gia con” học đi học lại những kiến thức cơ bản giống nhau, DeepSeek tạo ra một số “chuyên gia dùng chung”. Những “chuyên gia dùng chung” này sẽ nắm giữ những kiến thức nền tảng, chung cho nhiều loại câu hỏi. Các “chuyên gia con” khác có thể dựa vào kiến thức từ “chuyên gia dùng chung” này, giúp họ tập trung vào học những kiến thức chuyên sâu hơn.
Ví dụ, nếu có một đội chuyên gia về nhiều lĩnh vực khoa học khác nhau, có thể có một “chuyên gia dùng chung” về kiến thức toán học cơ bản. Tất cả các chuyên gia khoa học khác có thể sử dụng kiến thức toán học từ “chuyên gia dùng chung” này, thay vì mỗi người phải tự học lại toán từ đầu.
DeepSeekMoE hoạt động như thế nào?
-
Đầu tiên chỉ có một số “chuyên gia” nhất định.
-
Chia nhỏ mỗi “chuyên gia” thành nhiều “chuyên gia con” nhỏ hơn để tăng độ chuyên biệt và linh hoạt.
-
Thêm vào một số “chuyên gia dùng chung” để chia sẻ kiến thức cơ bản và giảm sự trùng lặp.
-
Khi có câu hỏi, “người điều phối” sẽ chọn ra một số “chuyên gia con” phù hợp nhất và kết hợp ý kiến của họ để đưa ra câu trả lời.
Điểm khác biệt nhỏ trong DeepSeek-V3:
- Một điểm khác biệt nhỏ trong DeepSeek-V3 là cách “người điều phối” tính điểm để chọn “chuyên gia”. Thay vì dùng một cách tính điểm cũ (gọi là “Softmax”), DeepSeek-V3 dùng một cách tính điểm mới (gọi là “Sigmoid”). Về cơ bản, cả hai cách đều giúp “người điều phối” chọn ra những “chuyên gia” tốt nhất, nhưng cách mới có thể hiệu quả hơn một chút trong DeepSeek-V3.
Kết:
DeepSeekMoE là một kỹ thuật thông minh giúp DeepSeek hoạt động hiệu quả hơn bằng cách sử dụng một đội ngũ “chuyên gia” thay vì chỉ một bộ phận duy nhất. Việc phân chia chuyên gia chi tiết hơn và sử dụng chuyên gia dùng chung giúp DeepSeek trở nên mạnh mẽ và linh hoạt hơn trong việc xử lý các loại câu hỏi khác nhau.
(cre: Srijanie; link trong Comment)
Bài viết của Facebook Hoàng Dũng Ai