Google đã xác nhận rằng hầu hết các Page web vẫn không cần lo lắng về ngân sách thu thập (Crawl budget) dữ liệu trừ khi họ có hơn 1 triệu Page. Tuy nhiên, có một vài điểm mới đáng lưu tâm.
Gary Illyes của Google, đã tiết lộ trên một podcast gần đây rằng tốc độ hoạt động của cơ sở dữ liệu (database) của bạn quan trọng hơn số lượng Page bạn có.
Bản cập nhật này được đưa ra 5 năm sau khi Google chia sẻ hướng dẫn tương tự về ngân sách thu thập dữ liệu. Lời khuyên của Google vẫn không thay đổi mặc dù có những thay đổi đáng kể trong ngành công nghệ Web.
Nguyên tắc 1 triệu Page thì Google vẫn giữ nguyên Crawl Budget
Trong podcast Search Off the Record (link ở cuối bài), Illyes vẫn giữ vững quan điểm lâu nay của Google khi người đồng dẫn chương trình Martin Splitt hỏi về ngưỡng ngân sách thu thập dữ liệu.
Nguyên văn của Gary Illyes tuyên bố:
“Tôi có thể nói 1 triệu Page có lẽ là ổn.”
Từ “có lẽ” rất quan trọng. Mặc dù Google sử dụng một triệu Page làm hướng dẫn chung, yếu tố hiệu quả cơ sở dữ liệu mới có nghĩa là ngay cả các Page của trang web nhỏ hơn cũng có thể gặp phải sự cố thu thập dữ liệu nếu cơ sở hạ tầng của họ không hiệu quả.
Điều đáng ngạc nhiên là con số này không thay đổi kể từ năm 2020. Web đã phát triển đáng kể, với sự gia tăng của JavaScript, nội dung động (dynamic content) và các thể loại website phức tạp hơn. Tuy nhiên, ngưỡng của Google vẫn giữ nguyên như vậy.
Tốc độ cơ sở dữ liệu của bạn mới là Điều Quan trọng
Đây là tin tức lớn: Illyes tiết lộ rằng cơ sở dữ liệu chậm cản trở việc thu thập dữ liệu nhiều hơn là việc có số lượng lớn trang.
Illyes giải thích:
“Nếu bạn đang thực hiện các lệnh gọi cơ sở dữ liệu tốn kém, điều đó sẽ tiêu tốn rất nhiều tài nguyên của máy chủ.”
Một trang web có 500.000 page nhưng truy vấn cơ sở dữ liệu chậm có thể gặp nhiều vấn đề về thu thập dữ liệu hơn một trang web có 2 triệu page tĩnh được tải nhanh.
Điều này có nghĩa là gì? Bạn cần đánh giá hiệu suất cơ sở dữ liệu của mình, không chỉ đếm số lượng Page. Các trang web có nội dung động, truy vấn phức tạp hoặc dữ liệu thời gian thực phải ưu tiên tốc độ và hiệu suất.
Kẻ ngốn tài nguyên thực sự ở đây là: Lập chỉ mục (Indexing), Không phải Thu thập dữ liệu (Crawling)
Illyes đã chia sẻ một quan điểm trái ngược với những gì nhiều chuyên gia SEO tin tưởng.
Ông nói:
“Không phải việc thu thập dữ liệu đang ngốn tài nguyên, mà là việc lập chỉ mục và có khả năng là phân phối hoặc những gì bạn đang làm với dữ liệu khi bạn xử lý dữ liệu đó.”
Hãy xem xét ý nghĩa của điều này. Nếu việc thu thập dữ liệu không tiêu tốn nhiều tài nguyên, thì việc chặn Googlebot có thể không hữu ích. Thay vào đó, hãy tập trung vào việc làm cho nội dung của bạn dễ dàng hơn để Google xử lý sau khi nó đã được thu thập.
Chúng ta đã đến đây sẽ nên làm thế nào?
Podcast đã cung cấp một số bối cảnh về quy mô. Năm 1994, World Wide Web Worm chỉ index 110.000 trang, trong khi WebCrawler lập chỉ mục 2 triệu Page. Illyes gọi những con số này là “dễ thương” so với ngày nay.
Điều này giúp giải thích tại sao mốc một triệu Page vẫn không thay đổi. Những gì từng có vẻ khổng lồ trong thời kỳ đầu của web giờ đây chỉ là một trang web cỡ trung bình. Hệ thống của Google đã mở rộng để quản lý điều này mà không thay đổi ngưỡng.
Tại sao ngưỡng thu thập này vẫn ổn định
Google đã và đang cố gắng giảm dấu chân thu thập dữ liệu của mình. Illyes tiết lộ tại sao đó lại là một thách thức.
Ông giải thích:
“Bạn đã tiết kiệm được 7 byte từ mỗi yêu cầu bạn thực hiện và sau đó sản phẩm mới này sẽ thêm lại 8 byte.”
Sự giằng co giữa các cải tiến hiệu quả và các tính năng mới này giúp giải thích tại sao ngưỡng ngân sách thu thập dữ liệu vẫn được nhất quán. Trong khi cơ sở hạ tầng của Google phát triển, phép toán cơ bản về thời điểm ngân sách thu thập dữ liệu trở nên quan trọng vẫn không thay đổi.
Bạn nên làm gì bây giờ
Dựa trên những điều này, bạn nên tập trung vào:
Các trang web dưới 1 triệu trang:
Tiếp tục với chiến lược hiện tại của bạn. Ưu tiên nội dung xuất sắc và trải nghiệm người dùng. Ngân sách thu thập dữ liệu không phải là mối quan tâm đối với bạn.
Các trang web lớn hơn:
Nâng cao hiệu quả cơ sở dữ liệu là ưu tiên mới của bạn. Xem xét:
- Thời gian thực hiện truy vấn (Query execution time)
- Hiệu quả bộ nhớ đệm (Caching effectiveness)
- Tốc độ tạo nội dung động (Speed of dynamic content generation)
Tất cả các trang web:
Chuyển hướng tập trung từ ngăn chặn thu thập dữ liệu sang tối ưu hóa lập chỉ mục. Vì việc thu thập dữ liệu không phải là vấn đề tài nguyên, hãy hỗ trợ Google xử lý nội dung của bạn hiệu quả hơn.
Kiểm tra Technical SEO thuộc yếu tố chính:
- Hiệu suất truy vấn cơ sở dữ liệu (Database query performance)
- Thời gian phản hồi của máy chủ (Server response times)
- Tối ưu hóa phân phối nội dung (Content delivery optimization)
- Triển khai bộ nhớ đệm đúng cách (Proper caching implementation)
Góc nhìn tương lai việc này
Hướng dẫn nhất quán về ngân sách thu thập dữ liệu của Google cho thấy rằng một số nguyên tắc cơ bản của SEO thực sự là nền tảng. Hầu hết các trang web không cần phải lo lắng về Crawl Budget.
Tuy nhiên, cái nhìn sâu hơn về hiệu quả cơ sở dữ liệu đã thay đổi cuộc trò chuyện đối với các trang web lớn hơn. Vấn đề không chỉ là số lượng Page bạn có; mà là bạn phân phối chúng hiệu quả như thế nào.
5 năm nữa, ngưỡng một triệu Page có thể vẫn còn đó. Nhưng các trang web tối ưu hóa hiệu suất cho cơ sở dữ liệu của họ ngay hôm nay sẽ được chuẩn bị cho bất cứ điều gì xảy ra tiếp theo.
Nghe toàn bộ tập podcast ở link này: How Googlebot Crawls the Web.
Author: #NghienSEO (Team biên tập)