John Mueller của Google nói: 20% nội dung của site không được index là điều bình thường

Ngày 13/8, J. Mueller đã đăng đàn trên youtube Google Search Central để trả lời vấn đề: tại sao khoảng 20% nội dung site không được index; chất lượng tổng thể của toàn trang web ảnh hưởng đến index như thế nào?

🚩 TẠI SAO KHOẢNG 20% NỘI DUNG TRÊN SITE KHÔNG ĐƯỢC INDEX?

⏩ Nguyên nhân 1: Server/hosting quá tải.
Khi server/host quá tải, không xử lý kịp các truy vấn đến website thì sẽ dẫn đến lỗi “500 Internal Server Error Message”, ngắn gọn là lỗi 500.
Lỗi này sẽ ảnh hưởng đến Crawl Budget (tạm dịch: Hạn mức thu thập dữ liệu), khi đó ta sẽ nhận được một số thông báo trên Google Search Console như:
  • Discovered but not crawled (phát hiện nhưng không được thu thập).
  • Discovered – currenly not indexed (phát hiện – hiện tại không được lập chỉ mục).
  • Crawled – currenly not indexed (đã thu thập – hiện tại không được lập chỉ mục).
Crawl Budge: số lượng các trang/bài viết trên website mà Googlebot thu thập và index trong một khoảng thời gian nhất định. Nếu số lượng các trang/bài viết vượt quá Crawl Budge thì sẽ có những trang/bài viết không được index.
⏩ Nguyên nhân 2: lỗi kỹ thuật (technical factors)
Lỗi kỹ thuật trên web/server cũng là nguyên nhân dẫn đến nội dung của bạn không được index.
Tuy nhiên đây là một nhân tố tương đối nhỏ bởi vì đại đa số các website bây giờ đều đã được build khá chuẩn.
Nếu như sử dụng các CMS (content management system) phổ biến như WordPress, Wix, Magento,… thì rất khó để xảy ra lỗi kỹ thuật (If you’re using a common CMS then it’s really hard to do something really wrong – John Mueller).

🚩 CHẤT LƯỢNG TỔNG THỂ CỦA WEBSITE TÁC ĐỘNG ĐẾN VIỆC INDEX NHƯ THẾ NÀO?

Trong suốt phần trình bày, Mueller nhắc rất nhiều đến chất lượng tổng thể của toàn trang web. Có thể nói chất lượng tổng thể website quyết định đến việc Google crawl & index.
Vậy Google đánh giá chất lượng toàn diện của web ra sao và điều đó ảnh hưởng như thế nào?
⏩ Dưới đây là phần giải thích của John chuối:
  • Về phương diện chất lượng, Google xem xét rất kỹ chất lượng của website, sau đó sẽ quyết định có nên crawl và index phần còn lại (20%) của website hay không.
(With regards to the quality, when it comes to understanding the quality of the website, that is something that we take into account quite strongly with regards to crawling and indexing of the rest of the website)
  • Tuy nhiên, điều trên không áp dụng cho các URL đơn lẻ.
(But that’s not something that’s necessarily related to the individual URL)
  • Nếu thí chủ đang có 5 trang không được index, điều này không có nghĩa là 5 trang này bị xem là chất lượng thấp. Mà chủ yếu là bởi vì Google cho rằng chất lượng tổng thể của web đang hơi thấp nên ngu gì mà tiếp tục crawl & index toàn bộ.
(So if you have five pages that are not indexed at the moment, it’s not that those five pages are the ones we would consider low quality. It’s more that …overall, we consider this website maybe to be a little bit lower quality. And therefore we won’t go off and index everything on this site)
  • Cũng bởi vì 5 trang đó không được index nên Google cũng sẽ không biết (đúng hơn là đếch quan tâm) low hay high quality.
⏩ Vậy khi đó tôi phải làm như thế nào hả John?
Thí chủ chớ lo, trong trường hợp website nhỏ, thí chủ hãy xem xét lại các phần không được index, và cố gắng làm sao để nâng cao chất lượng của toàn bộ website. Đừng quá sa đà vào các lỗi kỹ thuật.
(if you have a smaller site and you’re seeing a significant part of your pages are not being indexed, then I would take a step back and try to reconsider the overall quality of the website and not focus so much on technical issues for those pages)
Còn trong trường hợp website lớn thì… John chưa nói =((

🚩 20% NỘI DUNG SITE KHÔNG ĐƯỢC INDEX LÀ CHUYỆN BÌNH THƯỜNG

Tiếp tục phần thảo luận, John chuối bảo là không có gì ngạc nhiên khi mà 20% nội dung trên site không được index, đó là tỷ lệ bình thường ở phố huyện mà thôi =))
⏩ Theo John Mueller:
Việc không index mọi thứ trên website là chuyện rất rất bình thường.
Tùy vào từng website (lớn-TB-nhỏ) mà tỷ lệ có thể là 20%, 15%, 10%,… không được index. Nói chung là tùy. Và sẽ không bao giờ có web nào được Google index 100% mọi thứ cả!
(It’ll go up and down and it’s never going to be the case that we index 100% of everything that’s on a website)
Vì vậy, nếu chỉ có 80% nội dung web được index thì hãy coi đó là bình thường, không phải lỗi lầm gì cả. Tùy vào tâm trạng vui hay buồn của Google mà con số đó có thể thay đổi (That’s sometimes just how it is for the moment)

🚩 TÓM LẠI: ĐỪNG LO LẮNG NẾU NHƯ KHÔNG ĐƯỢC INDEX

  • Tỷ lệ ~20% nội dung web không được index là bình thường.
  • Chất lượng tổng thể của web quyết định đến số lượng nội dung được index.
  • Lỗi kỹ thuật thường không ảnh hưởng quá nhiều đến việc index.
  • 20% chỉ là con số phổ biến. Tùy từng web mà nó có thể nhỏ hơn hoặc lớn hơn.
  • Website nhỏ thì không cần quá lo lắng về crawl budget.

👉 Video trình bày của John tại đây: https://youtu.be/92x8eJNOKYo?t=1646 <– Ae cứ việc hỏi hay ném đá lão thoải mái =))

Ghi nguồn #nghienseo khi bạn đưa lại thông tin này.