Google đã công bố một thuật toán truy xuất multi-vector mới có tên MUVERA giúp tăng tốc độ truy xuất và xếp hạng, đồng thời cải thiện độ chính xác. Thuật toán này có thể được sử dụng cho tìm kiếm, hệ thống đề xuất (như YouTube) và xử lý ngôn ngữ tự nhiên (NLP).
Mặc dù thông báo không nói rõ ràng rằng nó đang được sử dụng trong tìm kiếm, nhưng bài báo nghiên cứu đã làm rõ rằng MUVERA cho phép truy xuất multi-vector hiệu quả ở quy mô web, đặc biệt bằng cách làm cho nó tương thích với cơ sở hạ tầng hiện có (thông qua MIPS) và giảm độ trễ cũng như dung lượng bộ nhớ.
Nhúng vector là một biểu diễn đa chiều về mối quan hệ giữa các từ, chủ đề và cụm từ. Nó cho phép máy móc hiểu sự tương đồng thông qua các mẫu như các từ xuất hiện trong cùng một ngữ cảnh hoặc các cụm từ có cùng ý nghĩa. Các từ và cụm từ có liên quan chiếm các không gian gần nhau hơn.
- Các từ “King Lear” sẽ gần với cụm từ “bi kịch Shakespeare.”
- Các từ “A Midsummer Night’s Dream” sẽ chiếm một không gian gần với “hài kịch Shakespeare.”
- Cả “King Lear” và “A Midsummer Night’s Dream” sẽ nằm trong một không gian gần với Shakespeare.
Khoảng cách giữa các từ, cụm từ và khái niệm (về mặt kỹ thuật là một thước đo tương tự toán học) xác định mức độ liên quan chặt chẽ của mỗi từ với từ kia. Những mẫu này cho phép máy móc suy ra sự tương đồng giữa chúng.
Bài báo nghiên cứu MUVERA tuyên bố rằng nhúng thần kinh đã là một tính năng của truy xuất thông tin trong mười năm và trích dẫn bài báo nghiên cứu mô hình multi-vector ColBERT từ năm 2020 như một bước đột phá nhưng nói rằng nó bị tắc nghẽn khiến nó không lý tưởng để áp dụng ngay.
“Gần đây, bắt đầu với bài báo ColBERT mang tính bước ngoặt, các mô hình multi-vector, tạo ra một tập hợp nhúng cho mỗi điểm dữ liệu, đã đạt được hiệu suất vượt trội rõ rệt cho các tác vụ IR. Thật không may, việc sử dụng các mô hình này cho IR rất tốn kém về mặt tính toán do sự phức tạp gia tăng của truy xuất và tính điểm multi-vector.”
Thông báo của Google về MUVERA lặp lại những nhược điểm đó:
“… những tiến bộ gần đây, đặc biệt là sự ra đời của các mô hình multi-vector như ColBERT, đã chứng minh hiệu suất được cải thiện đáng kể trong các tác vụ IR. Mặc dù cách tiếp cận multi-vector này giúp tăng độ chính xác và cho phép truy xuất các tài liệu liên quan hơn, nhưng nó lại đặt ra những thách thức tính toán đáng kể. Cụ thể, số lượng nhúng tăng lên và sự phức tạp của việc tính điểm tương tự multi-vector làm cho việc truy xuất trở nên tốn kém hơn đáng kể.”
Vụ kiện chống độc quyền của Bộ Tư pháp Hoa Kỳ (DOJ) đã dẫn đến lời khai tiết lộ rằng một trong những tín hiệu được sử dụng để tạo ra các trang kết quả công cụ tìm kiếm (SERP) được gọi là RankEmbed, được mô tả như sau:
“RankEmbed là một mô hình bộ mã hóa kép nhúng cả truy vấn và tài liệu vào không gian nhúng. Không gian nhúng xem xét các thuộc tính ngữ nghĩa của truy vấn và tài liệu ngoài các tín hiệu khác. Truy xuất và xếp hạng sau đó là một tích vô hướng (thước đo khoảng cách trong không gian nhúng)… Cực kỳ nhanh; chất lượng cao trên các truy vấn thông thường nhưng có thể hoạt động kém đối với các truy vấn đuôi…”
MUVERA là một tiến bộ kỹ thuật giải quyết các hạn chế về hiệu suất và khả năng mở rộng của các hệ thống multi-vector, bản thân chúng là một bước tiến vượt ra ngoài các mô hình bộ mã hóa kép (như RankEmbed), cung cấp độ sâu ngữ nghĩa lớn hơn và xử lý hiệu suất truy vấn đuôi.
Bước đột phá là một kỹ thuật được gọi là Mã hóa chiều cố định (FDE), chia không gian nhúng thành các phần và kết hợp các vector rơi vào mỗi phần để tạo ra một vector đơn, có độ dài cố định, giúp tìm kiếm nhanh hơn so với việc so sánh nhiều vector. Điều này cho phép các mô hình multi-vector được sử dụng hiệu quả ở quy mô lớn, cải thiện tốc độ truy xuất mà không làm giảm độ chính xác đến từ biểu diễn ngữ nghĩa phong phú hơn.
Theo thông báo của Google:
“Không giống như nhúng đơn vector, các mô hình multi-vector biểu diễn mỗi điểm dữ liệu bằng một tập hợp nhúng và tận dụng các hàm tương tự phức tạp hơn có thể nắm bắt các mối quan hệ phong phú hơn giữa các điểm dữ liệu.
Mặc dù cách tiếp cận multi-vector này giúp tăng độ chính xác và cho phép truy xuất các tài liệu liên quan hơn, nhưng nó lại đặt ra những thách thức tính toán đáng kể. Cụ thể, số lượng nhúng tăng lên và sự phức tạp của việc tính điểm tương tự multi-vector làm cho việc truy xuất trở nên tốn kém hơn đáng kể.”
Các mô hình multi-vector có thể cung cấp câu trả lời chính xác hơn so với các mô hình bộ mã hóa kép nhưng độ chính xác này đi kèm với chi phí tính toán chuyên sâu. MUVERA giải quyết các vấn đề phức tạp của các mô hình multi-vector, từ đó tạo ra một cách để đạt được độ chính xác cao hơn của các phương pháp multi-vector mà không đòi hỏi tính toán cao.
MUVERA cho thấy cách xếp hạng tìm kiếm hiện đại ngày càng phụ thuộc vào các phán đoán tương tự hơn là các tín hiệu từ khóa lỗi thời mà các công cụ SEO và SEOs thường tập trung vào. Các SEOs và nhà xuất bản có thể muốn chuyển sự chú ý của họ từ việc khớp cụm từ chính xác sang việc phù hợp với ngữ cảnh và ý định tổng thể của truy vấn. Ví dụ, khi ai đó tìm kiếm “áo khoác nhung nam cỡ trung bình,” một hệ thống sử dụng truy xuất giống MUVERA có nhiều khả năng xếp hạng các trang thực sự cung cấp các sản phẩm đó, chứ không phải các trang chỉ đề cập đến “áo khoác nhung” và bao gồm từ “trung bình” trong nỗ lực khớp với truy vấn.
Cre: NGHIỆN SEO (Team biên tập).