Cách Google Phát Hiện Phiên Bản Gốc Của Duplicate Content – P1

Chúng ta đều biết rằng Google sẽ không giáng hình phạt cho duplicate content (nội dung trùng lặp) trên web, nhưng Google sẽ tìm cách xác định phiên bản nào nên được đánh giá cao hơn các phiên bản khác.

Vào năm 2018, Dejan SEO đã có phát biểu về duplicate content trong bài viết mang tên Link inversion, the least known major ranking factor như sau: “Nếu có nhiều phiên bản cho cùng một văn bản (document) trên web, thì URL có authority cao sẽ trở thành phiên bản canonical và các URL còn lại sẽ là phiên bản duplicate”.

Tuy nhiên, patent (bằng sáng chế) từ Google tên Identifying a primary version of a document hầu như không khẳng định quan điểm trên từ Dejan SEO, nhưng cho biết đã tìm ra cách để phân biệt các duplicate content trên những domain khác nhau dựa trên quy tắc quyền ưu tiên (priority rule) trong việc xác định duplicate content nào nằm trong URL có authority cao nhất đối với một văn bản.

Trích dẫn từ patent như sau:
“Hệ thống và phương pháp sẽ xác định phiên bản gốc từ tất cả phiên bản khác nhau cho cùng một văn bản. Hệ thống sẽ quyết định quyền ưu tiên về authority cho mỗi phiên bản văn bản (document version) dựa trên quy luật quyền ưu tiên và thông tin liên quan đến phiên bản văn bản đó, đồng thời lựa chọn đâu là phiên bản gốc dựa trên quyền ưu tiên về authority và thông tin liên quan đến phiên bản văn bản đó.

Phương pháp bao gồm: xác định lượng lớn các phiên bản văn bản khác nhau của một văn bản cụ thể (bằng hệ thống máy tính); xác định loại metadata đầu tiên được liên kết với mỗi phiên bản văn bản từ lượng lớn các phiên bản văn bản khác nhau (bằng hệ thống máy tính), trong đó loại metadata đầu tiên sẽ bao gồm data có chức năng mô tả một nguồn và nguồn đó cung cấp từng phiên bản văn bản trong lượng lớn các phiên bản văn bản khác nhau; xác định loại metadata thứ hai được liên kết với mỗi phiên bản văn bản từ lượng lớn các phiên bản văn bản khác nhau (bằng hệ thống máy tính), trong đó loại metadata thứ hai mô tả đặc tính (feature) của từng phiên bản văn bản trong lượng lớn các phiên bản văn bản khác nhau, thay vì nguồn của phiên bản văn bản; áp dụng quy tắc quyền ưu tiên cho loại metadata đầu tiên và thứ hai (bằng hệ thống máy tính) đối với mỗi phiên bản văn bản thuộc lượng lớn các phiên bản văn bản khác nhau nhằm tạo ra giá trị ưu tiên (priority value); chọn lựa phiên bản văn bản cụ thể (bằng hệ thống máy tính) từ lượng lớn các phiên bản văn bản khác nhau, dựa trên các giá trị ưu tiên được tạo ra cho mỗi phiên bản văn bản thuộc lượng lớn các phiên bản văn bản khác nhau; cung cấp phiên bản văn bản cụ thể (bằng hệ thống máy tính) để hiển thị.”

Trích dẫn trên không hề củng cố cho quan điểm rằng phiên bản gốc của văn bản được xem là canonical và tất cả các link trỏ tới văn bản đó là redirect về phiên bản gốc.

Trong khi đó, patent Representative document selection for a set of duplicate documents chia sẻ rằng sẽ có một trong những URL duplicate content được chọn làm trang đại diện (representative page), không dùng cụm “canonical” như sau:

“Các văn bản trùng lặp (có nội dung giống nhau) sẽ được phát hiện bởi hệ thống quét của web. Khi xuất hiện một văn bản vừa được quét thì một tập hợp các văn bản đã được quét trước đó sẽ bị nhận dạng nếu chia sẻ nội dung giống với văn bản vừa được quét. Thông tin nhằm xác định văn bản mới được quét và tập hợp các văn bản được chọn sẽ trộn lẫn thành thông tin để xác định một tập hợp văn bản mới. Tập hợp mới đó vừa bao gồm, vừa loại trừ văn bản trùng lặp, dựa trên chỉ số không phụ thuộc vào truy vấn (query-independent metric) đối với mỗi văn bản. Một văn bản đại diện đơn lẻ (representative document) cho cả một tập hợp văn bản được xác định dựa theo các điều kiện biết trước.

Phương pháp chọn lựa văn bản đại diện từ tập hợp các văn bản trùng lặp bao gồm: chọn văn bản đầu tiên từ lượng lớn văn bản dựa trên cơ sở rằng văn bản đầu tiên đó được gắn liền với điểm số không phụ thuộc truy vấn (query-independent score), ở đó mỗi văn bản tương ứng nằm trong lượng lớn văn bản đó sẽ có fingerprint nhằm xác định nội dung của văn bản tương ứng. Fingerprint của mỗi văn bản tương ứng nằm trong lượng lớn văn bản chứa nội dung giống với từng văn bản khác, đồng thời văn bản đầu tiên trong lượng lớn văn bản này được gắn với điểm số không phụ thuộc truy vấn. Ngoài ra, phương pháp còn dựa trên điểm số không phụ thuộc truy vấn để index văn bản đầu tiên nhằm tạo ra cái gọi là văn bản đầu tiên được index (indexed first document). Đối với lượng lớn các văn bản, chỉ có indexed first document được bao gồm trong chỉ mục văn bản (document index).”

(Fb Trình Nguyễn)