Những tiết lộ gần đây từ phiên điều trần của một kỹ sư Google đã cung cấp cái nhìn chi tiết hơn về cách hệ thống Ranking của Google hoạt động. Điều này không chỉ củng cố những hiểu biết hiện có mà còn mang đến những thông tin kỹ thuật mới có giá trị.
Một điểm mấu chốt được nhấn mạnh là việc sử dụng các tín hiệu “thủ công” (“hand-crafted signals”). Kỹ sư Google đã làm rõ: “Hand crafted means scaled algorithms that are tuned by search engineers. It doesn’t mean that they are manually ranking websites.”
Điều này cho thấy mặc dù quy trình tự động là trọng tâm, yếu tố chuyên môn và điều chỉnh của con người đóng vai trò sâu sắc trong việc tinh chỉnh các thuật toán xác định Ranking.
Tài liệu cũng nêu rõ 3 loại tín hiệu cốt lõi được gọi là “tín hiệu ABC”, vốn là nền tảng để xác định tính liên quan theo chủ đề (topicality) - mức độ phù hợp cơ bản của tài liệu với truy vấn:
- A - Anchors: Liên quan đến thông tin từ các trang web liên kết đến trang đích.
- B - Body: Đề cập đến sự hiện diện và ngữ cảnh của các từ khóa truy vấn tìm kiếm trong nội dung tài liệu.
- C - Clicks: Bao gồm dữ liệu tương tác của người dùng, cụ thể là “thời gian người dùng ở lại trang trước khi quay lại trang kết quả tìm kiếm (SERP)”.
Thông tin rò rỉ xác nhận rằng: "ABC signals are the key components of topicality (or a base score), which is Google’s determination of how the document is relevant to the query. "
Điều này nhấn mạnh tầm quan trọng không đổi của các yếu tố on-page (Body), tín hiệu off-page (Anchors/liên kết) và tương tác người dùng (Clicks) trong việc thiết lập mức độ liên quan ban đầu cho mục đích Ranking.
Trong khi chất lượng trang được coi là tương đối tĩnh, được mô tả là “Quality Generally static across multiple queries and not connected to a specific query,” thứ hạng Ranking cuối cùng lại chịu ảnh hưởng nặng nề bởi các tín hiệu liên quan động, gắn liền với truy vấn tìm kiếm cụ thể.
Một tiết lộ đáng chú ý khác là sự xuất hiện của eDeepRank. Hệ thống này được mô tả là “an LLM system that uses BERT, transformers. Essentially, eDeepRank tries to take LLM-based signals and decompose them into components to make them more transparent.”
Điều này cho thấy Google đang tích cực tích hợp các mô hình ngôn ngữ tiên tiến như BERT để hiểu rõ hơn về nội dung và truy vấn, đồng thời nỗ lực làm cho các tín hiệu phức tạp này trở nên minh bạch hơn.
Một thông tin củng cố các nguyên tắc SEO truyền thống là PageRank, thuật toán phân tích liên kết ban đầu của Google, vẫn giữ vai trò quan trọng. Nó được mô tả là “a single signal relating to distance from a known good source, and it is used as an input to the Quality score.”
Điều này khẳng định rằng các liên kết từ các nguồn có thẩm quyền vẫn đóng góp vào điểm chất lượng của trang, và từ đó ảnh hưởng đến Ranking.
Phiên điều trần cũng đề cập đến một tín hiệu đã được biên tập lại “(popularity) signal that uses Chrome data.” Mặc dù các chi tiết cụ thể không được công bố, điều này gợi ý mạnh mẽ rằng dữ liệu hành vi người dùng tổng hợp từ trình duyệt Chrome là một yếu tố trong Ranking, có thể phản ánh mức độ sử dụng và ưa thích thực tế của người dùng.
Cuối cùng, kỹ sư này cũng đề cập đến vụ rò rỉ tài liệu của Google trước đây, nói rằng: "There was a leak of Google documents which named certain components of Google’s ranking system, but the documents don’t go into specifics of the curves and thresholds. "8 Điều này đưa ra xác nhận chính thức về vụ rò rỉ, thừa nhận sự tồn tại và việc nêu tên một phần các thành phần, nhưng hạ thấp khả năng sử dụng chúng để đảo ngược kỹ thuật (reverse engineering) chính xác các thuật toán phức tạp.
Tóm lại, thông tin này giúp bạn biết thêm về sự kết hợp giữa các thuật toán được điều chỉnh bởi con người, các tín hiệu nền tảng (ABC, PageRank), AI tiên tiến (eDeepRank/BERT) và dữ liệu hành vi người dùng (Clicks, dữ liệu Chrome) để cùng nhau xác định thứ hạng Ranking trên kết quả tìm kiếm.
Bạn có muốn tìm hiểu thêm về bất kỳ tín hiệu cụ thể nào được đề cập không? Hãy bình luận nội dung này?!
(Source ảnh và tham khảo nội dung từ SEJ)
#NghienSEO (Team biên tập)