Thuật toán BlockRank Google là gì? Dân chủ hóa tìm kiếm ngữ nghĩa

Một nghiên cứu mới từ Google DeepMind đề xuất một thuật toán xếp hạng tìm kiếm AI mới có tên BlockRank hoạt động hiệu quả đến mức đưa khả năng xếp hạng tìm kiếm ngữ nghĩa tiên tiến tới tầm tay của các cá nhân và tổ chức. Các nhà nghiên cứu kết luận rằng nó “có thể dân chủ hóa việc tiếp cận các công cụ khám phá thông tin mạnh mẽ”.

Vậy BlockRank là gì?

Thuật toán BlockRank không phải là một thuật toán chính thức của Google, nhưng dựa trên ý tưởng tương tự như PageRank và các hệ thống xếp hạng khác, nó có thể đề cập đến việc sử dụng “khối” hoặc “block” thông tin (như các đoạn văn bản, thẻ, v.v.) để xác định mức độ liên quan và uy tín, qua đó “dân chủ hóa” tìm kiếm ngữ nghĩa bằng cách phân tích sâu sắc hơn từng phần nội dung thay vì chỉ dựa vào toàn bộ trang.

BlockRank tạm hiểu là thuật toán xếp hạng AI mới từ Google DeepMind giúp dân chủ hóa (Democratizes) việc tiếp cận công nghệ tìm kiếm ngữ nghĩa tiên tiến. Bằng cách tối ưu hóa In-Context Ranking thông qua 2 mô hình chú ý chính, BlockRank giảm đáng kể tài nguyên tính toán cần thiết trong khi duy trì độ chính xác cao. Công nghệ này có tiềm năng cách mạng hóa cách các cá nhân và tổ chức nhỏ tiếp cận các công cụ tìm kiếm mạnh mẽ trước đây chỉ dành cho các tập đoàn lớn.

In-Context Ranking (ICR)

Bài nghiên cứu mô tả đột phá việc sử dụng In-Context Ranking (ICR), một cách thức xếp hạng các trang web bằng cách tận dụng khả năng hiểu biết ngữ cảnh của mô hình ngôn ngữ lớn.

Nó yêu cầu mô hình thực hiện với:

  • Hướng dẫn cho nhiệm vụ (ví dụ: “xếp hạng các trang web này”)

  • Tài liệu ứng viên (các trang cần xếp hạng)

  • Và truy vấn tìm kiếm.

ICR là một phương pháp tiếp cận tương đối mới được các nhà nghiên cứu từ Google DeepMind và Google Research khám phá lần đầu vào năm 2024 (Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? PDF). Nghiên cứu trước đó đã cho thấy ICR có thể đạt được hiệu suất tương đương với các hệ thống truy xuất được xây dựng đặc biệt cho tìm kiếm.

Nhưng cải tiến đó đi kèm với một nhược điểm là nó đòi hỏi tăng cường sức mạnh tính toán khi số lượng trang cần xếp hạng tăng lên.

Khi một mô hình ngôn ngữ lớn (LLM) so sánh nhiều tài liệu để quyết định tài liệu nào phù hợp nhất với truy vấn, nó phải “chú ý” đến từng từ trong mỗi tài liệu và cách mỗi từ liên quan đến tất cả những từ khác. Quá trình chú ý này trở nên chậm hơn nhiều khi thêm nhiều tài liệu hơn vì khối lượng công việc tăng theo cấp số nhân.

Nghiên cứu mới này giải quyết vấn đề hiệu quả đó, đó là lý do tại sao bài nghiên cứu được gọi là Scalable In-context Ranking with Generative Models, bởi vì nó cho thấy cách mở rộng In-context Ranking (ICR) với thứ họ gọi là BlockRank.

Cách BlockRank được phát triển

Các nhà nghiên cứu đã xem xét cách mô hình thực sự sử dụng sự chú ý trong quá trình In-Context Retrieval và tìm thấy hai mô hình:

Inter-document block sparsity:

Các nhà nghiên cứu phát hiện rằng khi mô hình đọc một nhóm tài liệu, nó có xu hướng tập trung chủ yếu vào từng tài liệu riêng biệt thay vì so sánh tất cả chúng với nhau. Họ gọi điều này là “block sparsity”, có nghĩa là có rất ít sự so sánh trực tiếp giữa các tài liệu khác nhau. Dựa trên hiểu biết đó, họ đã thay đổi cách mô hình đọc đầu vào để nó xem xét từng tài liệu một cách riêng lẻ nhưng vẫn so sánh tất cả chúng với câu hỏi được đặt ra. Điều này giữ lại phần quan trọng, việc khớp các tài liệu với truy vấn, trong khi bỏ qua các so sánh không cần thiết giữa tài liệu với tài liệu. Kết quả là một hệ thống chạy nhanh hơn nhiều mà không mất độ chính xác.

Query-document block relevance:

Khi LLM đọc truy vấn, nó không coi mọi từ trong câu hỏi đó là quan trọng như nhau. Một số phần của câu hỏi, như từ khóa cụ thể hoặc dấu chấm câu báo hiệu ý định, giúp mô hình quyết định tài liệu nào xứng đáng được chú ý nhiều hơn. Các nhà nghiên cứu phát hiện rằng các mô hình chú ý nội bộ của mô hình, đặc biệt là cách một số từ nhất định trong truy vấn tập trung vào các tài liệu cụ thể, thường phù hợp với những tài liệu nào có liên quan. Hành vi này, mà họ gọi là “query-document block relevance”, đã trở thành thứ mà các nhà nghiên cứu có thể huấn luyện mô hình để sử dụng hiệu quả hơn.

Các nhà nghiên cứu đã xác định hai mô hình chú ý này và sau đó thiết kế một phương pháp tiếp cận mới dựa trên những gì họ học được. Mô hình đầu tiên, inter-document block sparsity, tiết lộ rằng mô hình đang lãng phí tính toán bằng cách so sánh các tài liệu với nhau khi thông tin đó không hữu ích. Mô hình thứ hai, query-document block relevance, cho thấy rằng một số phần nhất định của câu hỏi đã chỉ hướng tới tài liệu đúng.

Dựa trên những hiểu biết này, họ đã thiết kế lại cách mô hình xử lý sự chú ý và cách nó được huấn luyện. Kết quả là BlockRank, một hình thức In-Context Retrieval hiệu quả hơn, loại bỏ các so sánh không cần thiết và dạy mô hình tập trung vào những gì thực sự báo hiệu sự liên quan.

Đánh giá độ chính xác của BlockRank

Các nhà nghiên cứu đã thử nghiệm BlockRank về mức độ xếp hạng tài liệu tốt trên ba tiêu chuẩn chính:

  • BEIR

Một bộ sưu tập nhiều nhiệm vụ tìm kiếm và trả lời câu hỏi khác nhau được sử dụng để kiểm tra mức độ hiệu quả của hệ thống trong việc tìm kiếm và xếp hạng thông tin liên quan trên nhiều chủ đề.

  • MS MARCO

Một bộ dữ liệu lớn về các truy vấn tìm kiếm thực tế của Bing và các đoạn văn, được sử dụng để đo lường mức độ chính xác mà hệ thống có thể xếp hạng các đoạn văn trả lời tốt nhất cho câu hỏi của người dùng.

  • Natural Questions (NQ)

Một tiêu chuẩn được xây dựng từ các câu hỏi tìm kiếm thực tế của Google, được thiết kế để kiểm tra liệu hệ thống có thể xác định và xếp hạng các đoạn văn từ Wikipedia trả lời trực tiếp những câu hỏi đó hay không.

Họ đã sử dụng một Mistral LLM 7 tỷ tham số và so sánh BlockRank với các mô hình xếp hạng mạnh khác, bao gồm FIRST, RankZephyr, RankVicuna, và một Mistral baseline được tinh chỉnh hoàn toàn.

BlockRank đã hoạt động tốt như hoặc tốt hơn những hệ thống đó trên cả ba tiêu chuẩn, khớp với kết quả trên MS MARCO và Natural Questions và làm tốt hơn một chút trên BEIR.

Các nhà nghiên cứu giải thích kết quả:

“Các thí nghiệm trên MSMarco và NQ cho thấy BlockRank (Mistral-7B) khớp hoặc vượt qua hiệu quả tinh chỉnh tiêu chuẩn trong khi hiệu quả hơn đáng kể trong sự suy luận và huấn luyện. Điều này cung cấp một phương pháp tiếp cận có thể mở rộng và hiệu quả cho ICR dựa trên LLM.”

Họ cũng thừa nhận rằng họ không thử nghiệm nhiều LLM và những kết quả này cụ thể cho Mistral 7B.

BlockRank có được Google sử dụng không?

Bài nghiên cứu không nói gì về việc nó được sử dụng trong môi trường thực tế. Vì vậy, việc nói rằng nó có thể được sử dụng hoàn toàn là phỏng đoán. Ngoài ra, việc cố gắng xác định vị trí BlockRank phù hợp với AI Mode hoặc AI Overviews là điều tự nhiên nhưng các mô tả về cách FastSearch và RankEmbed của AI Mode hoạt động khác biệt rất lớn so với những gì BlockRank làm. Vì vậy, không có khả năng BlockRank liên quan đến FastSearch hoặc RankEmbed.

Tại sao BlockRank là một đột phá?

Điều mà bài nghiên cứu nói là đây là một công nghệ đột phá đưa hệ thống xếp hạng tiên tiến tới tầm tay của các cá nhân và tổ chức thông thường sẽ không thể có loại công nghệ xếp hạng chất lượng cao này.

Các nhà nghiên cứu giải thích:

"Phương pháp BlockRank, bằng cách tăng cường hiệu quả và khả năng mở rộng của In-context Retrieval (ICR) trong các mô hình ngôn ngữ lớn (LLM), làm cho việc truy xuất ngữ nghĩa tiên tiến trở nên dễ tính toán hơn và có thể dân chủ hóa việc tiếp cận các công cụ khám phá thông tin mạnh mẽ. Điều này có thể đẩy nhanh nghiên cứu, cải thiện kết quả giáo dục bằng cách cung cấp thông tin liên quan nhanh hơn, và trao quyền cho các cá nhân và tổ chức với khả năng ra quyết định tốt hơn.

Hơn nữa, việc tăng hiệu quả trực tiếp chuyển thành giảm tiêu thụ năng lượng cho các ứng dụng LLM chuyên sâu về truy xuất, góp phần vào phát triển và triển khai AI bền vững môi trường hơn.

Bằng cách cho phép ICR hiệu quả trên các mô hình có thể nhỏ hơn hoặc được tối ưu hóa hơn, BlockRank cũng có thể mở rộng phạm vi tiếp cận của những công nghệ này trong các môi trường hạn chế tài nguyên."

Các SEO và publisher có quyền tự do đưa ra ý kiến về việc liệu điều này có thể được Google sử dụng hay không. Tôi không nghĩ có bằng chứng về điều đó nhưng sẽ thú vị khi hỏi một Googler về vấn đề này.

Google dường như đang trong quá trình làm cho BlockRank có sẵn trên GitHub, nhưng dường như chưa có code nào có sẵn ở đó.

:link: Source: [1], [2], [3].

© Cre: NGHIỆN SEO (Team biên tập).

1 Lượt thích