John Mueller của Google đã trả lời một câu hỏi về một trang web đã nhận được hàng triệu yêu cầu từ Googlebot cho các trang không tồn tại, với một URL không tồn tại nhận được hơn 2 triệu lượt truy cập, về cơ bản là các yêu cầu trang cấp độ DDoS. Mối lo ngại của nhà xuất bản về ngân sách thu thập dữ liệu và thứ hạng dường như đã trở thành hiện thực, vì trang web sau đó đã bị giảm khả năng hiển thị xuất hiện trên tìm kiếm.
Các trang noindex bị xóa và chuyển thành 410
Mã phản hồi máy chủ 410 (410 Gone) thuộc gia đình của mã phản hồi 400 (400 response) cho biết một trang không khả dụng. Phản hồi 404 có nghĩa là một trang không khả dụng và không khẳng định liệu URL có trở lại trong tương lai hay không, nó chỉ nói rằng trang không khả dụng.
Mã trạng thái 410 Gone có nghĩa là trang đã biến mất và có thể sẽ không bao giờ trở lại. Không giống như mã trạng thái 404, 410 báo hiệu cho trình duyệt hoặc trình thu thập dữ liệu rằng trạng thái thiếu của tài nguyên là có chủ ý và bất kỳ liên kết nào đến tài nguyên đó nên được xóa.
Người đặt câu hỏi đang theo dõi một câu hỏi mà họ đã đăng 3 tuần trước trên Reddit, nơi họ lưu ý rằng họ có khoảng 11 triệu URL lẽ ra không thể khám phá được mà họ đã xóa hoàn toàn và bắt đầu phục vụ mã phản hồi 410. Sau một tháng rưỡi, Googlebot vẫn tiếp tục quay lại tìm kiếm các trang bị thiếu. Họ bày tỏ lo ngại về ngân sách thu thập dữ liệu và các tác động tiếp theo đến thứ hạng của họ.
Mueller vào thời điểm đó đã chuyển họ đến một trang hỗ trợ của Google.
Mất hạng khi google tiếp tục truy cập trang web ở mức độ Ddos
3 tuần sau, mọi thứ không được cải thiện và họ đã đăng một câu hỏi tiếp theo, lưu ý rằng họ đã nhận được hơn năm triệu yêu cầu cho các trang không tồn tại. Họ đã đăng một URL thực tế trong câu hỏi của mình nhưng tôi đã ẩn danh nó, nếu không thì nó là nguyên văn.
Nội dung của một người hỏi:
“Googlebot tiếp tục thu thập dữ liệu một cách mạnh mẽ một URL duy nhất (với các chuỗi truy vấn), mặc dù nó đã trả về trạng thái 410 (Gone) trong khoảng 2 tháng nay.
Chỉ trong 30 ngày qua, chúng tôi đã thấy khoảng 5,4 triệu yêu cầu từ Googlebot. Trong số đó, khoảng 2,4 triệu được chuyển đến URL này:
https://example.net/software/virtual-dj/ với chuỗi truy vấn ?feature.Chúng tôi cũng đã thấy sự sụt giảm đáng kể về khả năng hiển thị của mình trên Google trong giai đoạn này, và tôi không thể không tự hỏi liệu có mối liên hệ nào không - có điều gì đó không ổn. Trang bị ảnh hưởng là:
https://example.net/software/virtual-dj/?feature=…Lý do Google phát hiện ra tất cả các URL này ngay từ đầu là do chúng tôi vô tình để lộ chúng trong một tải trọng JSON được tạo bởi Next.js - chúng không phải là các liên kết thực tế trên trang web.
Chúng tôi đã thay đổi cách hoạt động của “nhiều tính năng” (sử dụng chuỗi truy vấn ?mf và chuỗi truy vấn đó nằm trong robots.txt)
Liệu có vấn đề gì không khi thêm một cái gì đó như thế này vào robots.txt của chúng tôi?
Disallow: /software/virtual-dj/?feature=*
Mục tiêu chính: ngăn chặn việc thu thập dữ liệu quá mức này làm ngập nhật ký của chúng tôi và có khả năng gây ra các tác dụng phụ không mong muốn.”
John Mueller của Google xác nhận rằng đó là hành vi bình thường của Google khi tiếp tục quay lại kiểm tra xem một trang bị thiếu đã trở lại hay chưa. Đây là hành vi mặc định của Google dựa trên kinh nghiệm rằng các nhà xuất bản có thể mắc lỗi và do đó họ sẽ định kỳ quay lại để xác minh xem trang đã được khôi phục hay chưa. Điều này nhằm mục đích là một tính năng hữu ích cho các nhà xuất bản có thể vô tình xóa một trang web.
Mueller trả lời:
“Google cố gắng thu thập lại các trang đã từng tồn tại trong một thời gian rất dài, và nếu bạn có nhiều trang như vậy, bạn có thể sẽ thấy nhiều hơn. Đây không phải là vấn đề - việc các trang biến mất là ổn, ngay cả khi có rất nhiều trang. Điều đó nói rằng, việc không cho phép thu thập dữ liệu bằng robots.txt cũng ổn, nếu các yêu cầu làm phiền bạn.”
Lưu ý quan trọng cho việc này
Mueller cảnh báo rằng giải pháp được đề xuất là thêm robots.txt có thể vô tình làm hỏng việc hiển thị cho các trang không được cho là bị thiếu.
Về cơ bản, ông ấy khuyên người đặt câu hỏi nên:
- Kiểm tra kỹ xem các URL ?feature= có đang được sử dụng trong bất kỳ mã frontend hoặc tải trọng JSON nào cung cấp năng lượng cho các trang quan trọng hay không.
- Sử dụng Chrome DevTools để mô phỏng điều gì sẽ xảy ra nếu các URL đó bị chặn — để phát hiện lỗi sớm.
- Theo dõi Search Console để tìm Soft 404s để phát hiện bất kỳ tác động không mong muốn nào đến các trang nên được lập chỉ mục.
John Mueller tiếp tục:
“Điều chính tôi sẽ chú ý là tất cả những thứ này thực sự trả về 404/410, chứ không phải một số trong số chúng được sử dụng bởi một cái gì đó như JavaScript trên các trang mà bạn muốn được lập chỉ mục (vì bạn đã đề cập đến tải trọng JSON).
Rất khó để nhận ra khi bạn không cho phép thu thập dữ liệu một tài nguyên được nhúng (dù được nhúng trực tiếp vào trang, hoặc được tải theo yêu cầu) – đôi khi trang tham chiếu nó ngừng hiển thị và không thể được lập chỉ mục chút nào.
Nếu bạn có các trang được hiển thị phía máy khách bằng JavaScript, tôi sẽ cố gắng tìm ra nơi các URL đã từng được tham chiếu (nếu bạn có thể) và chặn các URL trong công cụ dành cho nhà phát triển Chrome để xem điều gì sẽ xảy ra khi bạn tải trang.
Nếu bạn không thể tìm ra chúng ở đâu, tôi sẽ không cho phép một phần trong số chúng, và theo dõi các lỗi Soft-404 trong Search Console để xem có điều gì xảy ra rõ ràng ở đó không.
Nếu bạn không sử dụng hiển thị phía máy khách bằng JavaScript, bạn có thể bỏ qua đoạn này :-).”
Sự khác biệt giữa lý do rõ ràng và nguyên nhân thực tế
John Mueller của Google đã đúng khi đề xuất một chẩn đoán sâu hơn để loại trừ các lỗi từ phía nhà xuất bản. Một lỗi của nhà xuất bản đã bắt đầu chuỗi sự kiện dẫn đến việc lập chỉ mục các trang trái với mong muốn của nhà xuất bản. Vì vậy, việc yêu cầu nhà xuất bản kiểm tra xem liệu có lý do hợp lý hơn để giải thích cho việc mất khả năng hiển thị tìm kiếm hay không là hợp lý. Đây là một tình huống cổ điển mà một lý do rõ ràng không nhất thiết là lý do đúng. Có sự khác biệt giữa việc là một lý do rõ ràng và là nguyên nhân thực tế. Vì vậy, lời khuyên của Mueller là không từ bỏ việc tìm ra nguyên nhân là một lời khuyên tốt.
Đọc cuộc thảo luận gốc [tại đây].
Tài liệu về GoogleBot: [1]
Author: #NghienSEO (Team biên tập)