Cách Google Phát Hiện Phiên Bản Gốc Của Duplicate Content – P2

P1: https://www.facebook.com/groups/nghienseo/permalink/632064940796846/
VÌ SAO MỘT PHIÊN BẢN TỪ MỘT TẬP HỢP NỘI DUNG TRÙNG LẶP CÓ THỂ ĐƯỢC XEM LÀ PHIÊN BẢN GỐC?
Các lý do có thể kể đến như sau:
(1) Việc bao gồm nhiều phiên bản khác nhau của cùng một văn bản sẽ không cung cấp thêm thông tin hữu ích cho người dùng.
(2) Kết quả chứa nhiều phiên bản khác nhau của cùng một văn bản có thể lấn át những nội dung đa dạng khác.
(3) Khi có nhiều phiên bản khác nhau của một văn bản đang hiện diện trong các kết quả tìm kiếm thì người dùng sẽ không biết phiên bản nào là hoàn thiện, có authority cao nhất và dễ truy cập nhất, gây mất thời gian để so sánh các phiên bản.
Đây là ba lý do vì sao patent về duplicate content khẳng định lý tưởng nhất là nên xác định một phiên bản gốc từ nhiều phiên bản khác nhau của một văn bản xuất hiện trên web. Bộ máy tìm kiếm cũng muốn cung cấp “kết quả tìm kiếm phù hợp và đáng tin cậy nhất”.
CÁCH THỨC HOẠT ĐỘNG
Những phiên bản khác nhau của một văn bản sẽ được xác định từ nhiều nguồn khác nhau, ví dụ database trực tuyến, website, hệ thống thư viện data…
Với mỗi phiên bản văn bản, quyền ưu tiên về authority sẽ được quyết định dựa trên:
(1)Thông tin metadata liên quan đến phiên bản document đó, ví dụ:
– Nguồn (Source)
– Độc quyền xuất bản (Exclusive right to publish)
– Quyền cấp phép (Licensing right)
– Thông tin citation (Citation information)
– Từ khóa (Keyword)
– Thứ hạng trang (Page rank)
(2) Ở bước thứ hai, các phiên bản văn bản được xác định xem có đạt yêu cầu về độ dài không (bằng cách dùng thước đo độ dài). Phiên bản có mức độ ưu tiên về authority cao và chiều dài đạt yêu cầu sẽ được xem là phiên bản gốc của văn bản.
Nếu không có phiên bản nào thỏa mãn cả về authority và độ dài thì phiên bản gốc sẽ được quyết định dựa trên tổng lượng thông tin gắn với mỗi phiên bản văn bản.
Do tác phẩm hàn lâm phải tuân thủ quy định nghiêm ngặt về định dạng nên các văn bản như bài viết báo chí, báo cáo hội nghị, nghiên cứu học thuật và hồ sơ citation của các văn bản đó sẽ có thông tin metadata nhằm mô tả nội dung và nêu nguồn của văn bản. Vì thế, các tác phẩm đó sẽ là ứng cử viên sáng giá cho hệ thống con xác định (identification subsystem).
Metadata được xem xét trong suốt quá trình này có thể bao gồm các yếu tố như:
– Tên tác giả (Author name)
– Tiêu đề (Title)
– Người xuất bản (Publisher)
– Ngày xuất bản (Publication date)
– Địa điểm xuất bản (Publication location)
– Từ khóa (Keyword)
– Thứ hạng trang (Page rank)
– Thông tin citation (Citation information)
– Các phương tiện xác định bài viết (Article identifier) như Digital Object Identifier, PubMed Identifier, SICI, ISBN…
– Định vị mạng lưới (Network location), ví dụ URL
– Số lượng tham chiếu (Reference count)
– Số lượng trích dẫn (Citation count)
– Ngôn ngữ (Language)
Patent về duplicate content khai thác sâu hơn về phương pháp phát hiện phiên bản gốc của một văn bản như sau:
“Quy tắc về quyền ưu tiên sẽ tạo ra giá trị số (ví dụ điểm số) để phản ánh authority, mức độ hoàn thiện hoặc dễ dàng để truy cập vào một phiên bản văn bản. Trong một ví dụ, quy tắc ưu tiên sẽ xác định mức độ ưu tiên về authority được gán cho một phiên bản văn bản thông qua nguồn của phiên bản văn bản đó dựa trên danh sách ưu tiên nguồn (source-priority). Danh sách này liệt kê các nguồn, trong đó mỗi nguồn có quyền ưu tiên về authority tương ứng. Quyền ưu tiên của một nguồn có thể dựa trên các yếu tố bên ngoài như danh tiếng của nguồn, tần suất cập nhật… Mỗi phiên bản văn bản vì thế mà gắn với một mức độ ưu tiên về authority. Mối liên kết đó được lưu trữ theo cấu trúc bảng, cây hoặc các cấu trúc dữ liệu khác.
Patent bao gồm một bảng, thể hiện danh sách source-priority; đồng thời có các phương pháp thay thế khác, cho biết “thước đo quyền ưu tiên nhằm xác định liệu một phiên bản văn bản có mức độ ưu tiên đạt điều kiện (qualified priority) hay không sẽ căn cứ vào giá trị về mức độ ưu tiên đạt điều kiện”.
“Giá trị về mức độ ưu tiên đạt điều kiện (qualified priority value) là ngưỡng để xác định liệu một phiên bản văn bản có authority, hoàn thiện hoặc dễ truy cập không, dựa trên quy tắc về quyền ưu tiên. Khi quyền ưu tiên được gán cho một phiên bản văn bản lại lớn hơn hoặc bằng với giá trị về mức độ ưu tiên đạt điều kiện thì văn bản đó sẽ mang tính authority cao, hoàn thiện và dễ dàng truy cập hơn, dựa trên quy tắc về quyền ưu tiên. Ngoài ra, mức độ ưu tiên đạt điều kiện có thể căn cứ vào thước đo tương đối, ví dụ các ưu tiên về một tập hợp các phiên bản văn bản. Chỉ có mức độ ưu tiên cao nhất mới được xem là mức độ ưu tiên đạt điều kiện”.

(Fb Trình Nguyễn)