FAQs: Tại sao các trang web của tôi không được index?

Câu hỏi tuần này đến từ Xaris, người hỏi:

“Tại sao, mặc dù tôi đã tạo và liên kết sitemap một cách chính xác với trang web của khách hàng, và tôi đã kiểm tra mọi thứ, nhưng tôi vẫn gặp vấn đề về index với một số bài viết, không phải tất cả, ngay cả sau nhiều lần yêu cầu Google và Google Search Console. Vấn đề có thể là gì? Tôi không thể tìm ra.”

Chắc chắn là chưa được index?

Khía cạnh đầu tiên cần kiểm tra là liệu trang đó có thực sự chưa được index hay chỉ đơn giản là không xếp hạng tốt.

Có thể trang đó dường như chưa được index vì bạn không thể tìm thấy nó bằng các keyword mà bạn cho là phù hợp. Tuy nhiên, điều đó không có nghĩa là nó không được index.

Với mục đích của câu hỏi này, tôi sẽ đưa ra lời khuyên về cách xử lý cả hai trường hợp.

Vấn đề có thể là gì?

Có nhiều lý do khiến một trang có thể không được index hoặc không xếp hạng tốt trên Google. Hãy cùng thảo luận về những lý do chính.

1. Vấn đề kỹ thuật

Có những lý do kỹ thuật, cả lỗi và quyết định có ý thức, có thể ngăn Googlebot tiếp cận trang của bạn và index nó.

Bot bị chặn trong Robots.txt

Google cần có khả năng tiếp cận nội dung của một trang để hiểu giá trị của trang đó và cuối cùng phục vụ nó như một kết quả tìm kiếm cho các truy vấn liên quan.

Nếu Googlebot bị chặn truy cập các trang này thông qua robots.txt, điều đó có thể giải thích tại sao nó không index chúng.

Nó vẫn có thể index một trang mà nó không thể truy cập, nhưng nó sẽ không thể xác định nội dung của trang và do đó sẽ phải sử dụng các tín hiệu bên ngoài như backlink để xác định mức độ liên quan của nó.

Nếu nó không thể crawl trang, ngay cả khi nó biết trang đó tồn tại thông qua sitemap, nó vẫn sẽ khiến trang đó khó xếp hạng.

Trang không thể được Render

Tương tự, nếu bot có thể crawl trang nhưng không thể render nội dung, nó có thể chọn không index trang đó. Nó chắc chắn sẽ khó xếp hạng trang đó tốt vì nó sẽ không thể đọc nội dung của trang.

Trang có thẻ No-Index

Một vấn đề rõ ràng, nhưng thường bị bỏ qua, là một thẻ noindex đã được áp dụng cho trang. Điều này sẽ trực tiếp hướng dẫn Googlebot không index trang đó.

Đây là một chỉ thị, tức là một điều mà Googlebot cam kết thực hiện.

Chặn Bot trên máy chủ

Có thể có một vấn đề ở cấp máy chủ của bạn đang ngăn Googlebot crawl trang web của bạn.

Có thể có các quy tắc được đặt ở cấp máy chủ hoặc CDN của bạn đang ngăn Googlebot crawl trang web của bạn một lần nữa và khám phá các trang mới này.

Đây là một vấn đề khá phổ biến khi các nhóm không am hiểu về SEO chịu trách nhiệm bảo trì kỹ thuật của một trang web.

Mã phản hồi máy chủ không phải 200

Các trang bạn đã thêm vào sitemap có thể đang trả về mã trạng thái máy chủ khiến Googlebot bối rối.

Ví dụ, nếu một trang trả về mã 4XX, mặc dù bạn có thể thấy nội dung trên trang, Googlebot có thể quyết định đó không phải là một trang trực tiếp và sẽ không index nó.

Trang tải, load chậm

Có thể các trang web của bạn đang tải rất chậm. Do đó, nhận thức về chất lượng của chúng có thể bị giảm sút.

Cũng có thể chúng đang mất quá nhiều thời gian để tải đến mức các bot phải ưu tiên các trang mà chúng crawl đến mức các trang mới hơn của bạn không được crawl.

2. Chất lượng trang

Cũng có những vấn đề với chính nội dung của trang web có thể ngăn một trang được index.

Liên kết nội bộ thấp cho thấy trang có giá trị thấp

Một trong những cách Google sẽ xác định xem một trang có đáng xếp hạng cao hay không là thông qua các liên kết nội bộ trỏ đến nó. Các liên kết giữa các trang trên trang web của bạn có thể vừa biểu thị nội dung của trang được liên kết đến, vừa cho biết liệu trang đó có phải là một phần quan trọng của trang web của bạn hay không. Một trang có ít liên kết nội bộ có thể không đủ giá trị để xếp hạng tốt.

Các trang không thêm giá trị

Một trong những lý do chính khiến một trang không được index bởi Google là nó không được coi là có chất lượng đủ cao.

Google sẽ không crawl và index mọi trang mà nó có thể. Google sẽ ưu tiên nội dung độc đáo, hấp dẫn.

Nếu các trang của bạn là thin content, hoặc không thực sự thêm giá trị cho internet, chúng có thể không được index mặc dù về mặt kỹ thuật chúng có thể được index.

Chúng là các bản sao hoặc gần như bản sao

Tương tự, nếu Google nhận thấy các trang của bạn là các phiên bản trùng lặp chính xác hoặc rất gần của các trang hiện có, nó có thể sẽ không index các trang mới của bạn.

Ngay cả khi bạn đã báo hiệu rằng trang đó là duy nhất bằng cách đưa nó vào XML sitemap của bạn và sử dụng thẻ canonical tự tham chiếu, Google vẫn sẽ tự đánh giá xem một trang có đáng được index hay không.

3. Hành động thủ công

Cũng có khả năng trang web của bạn đã bị áp dụng một hành động thủ công, và đó là lý do tại sao Google không index nó.

Ví dụ, nếu các trang bạn đang cố gắng khiến Google index là những gì nó coi là “các trang liên kết mỏng,” bạn có thể không thể xếp hạng chúng do bị phạt thủ công.

Các hành động thủ công tương đối hiếm và thường ảnh hưởng đến các khu vực trang web rộng hơn, nhưng đáng để kiểm tra report Hành động thủ công của Search Console để loại trừ điều này.

Xác định vấn đề

Biết được nguyên nhân gây ra vấn đề của bạn chỉ là một nửa trận chiến. Hãy cùng xem cách bạn có thể thu hẹp vấn đề và sau đó cách bạn có thể khắc phục nó.

Kiểm tra Bing Webmaster Tools

Gợi ý đầu tiên của tôi là kiểm tra xem trang của bạn có được index trong Bing hay không.

Bạn có thể không tập trung nhiều vào Bing trong chiến lược SEO của mình, nhưng đây là một cách nhanh chóng để xác định xem đây có phải là vấn đề tập trung vào Google hay không, như một hành động thủ công hoặc xếp hạng kém, thay vì một cái gì đó trên trang web của bạn đang ngăn trang đó được index.

Truy cập Bing Webmaster Tools và nhập trang vào công cụ Kiểm tra URL của nó. Từ đây, bạn sẽ thấy liệu Bing có index trang đó hay không. Nếu có, thì bạn biết đây là điều chỉ ảnh hưởng đến Google.

Kiểm tra report “pages” của Google Search Console

Tiếp theo, hãy truy cập Google Search Console. Kiểm tra trang và xem liệu nó có thực sự được đánh dấu là chưa được index hay không. Nếu nó không được index, Google sẽ đưa ra lời giải thích lý do tại sao.

Ví dụ, có thể trang đó là:

Bị loại trừ bởi “Noindex”

Nếu Google phát hiện thẻ noindex trên trang, nó sẽ không index trang đó. Trong kết quả công cụ Kiểm tra URL, nó sẽ cho bạn biết rằng “trang không được index: Bị loại trừ bởi thẻ ‘noindex’”

Nếu đây là kết quả bạn nhận được cho các trang của mình, bước tiếp theo của bạn sẽ là xóa thẻ noindex và gửi lại trang để Googlebot crawl.

Đã phát hiện – Hiện chưa được index (Discovered – Currently Not Indexed)

Công cụ kiểm tra có thể cho bạn biết “trang không được index: Hiện chưa được index.”

Nếu đó là trường hợp, bạn biết chắc chắn rằng đó là vấn đề index, chứ không phải vấn đề xếp hạng kém, đang khiến trang của bạn không xuất hiện trong Google Search.

Google giải thích rằng một URL xuất hiện là “Đã phát hiện – hiện chưa được index” là:

“Trang đã được Google tìm thấy, nhưng chưa được crawl. Thông thường, Google muốn crawl URL nhưng điều này được cho là sẽ làm quá tải trang web; do đó Google đã lên lịch lại việc crawl. Đây là lý do tại sao ngày crawl cuối cùng trống trong report.”

Nếu bạn đang thấy trạng thái này, có khả năng cao là Google đã xem xét các trang khác trên trang web của bạn và cho rằng chúng không đáng để thêm vào index, và do đó, không dành tài nguyên để crawl các trang khác mà nó biết vì nó mong đợi chúng có chất lượng thấp.

Để khắc phục vấn đề này, bạn cần báo hiệu chất lượng và mức độ liên quan của một trang cho Googlebot. Đã đến lúc xem xét kỹ lưỡng trang web của bạn và xác định xem có lý do nào khiến Google có thể coi các trang của bạn có chất lượng thấp hay không.

Đã crawl – Hiện chưa được index (Crawled – Currently Not Indexed)

Nếu trang được kiểm tra của bạn trả về trạng thái “Đã crawl – hiện chưa được index,” điều này có nghĩa là Google biết về trang đó, đã crawl nó, nhưng không thấy giá trị trong việc thêm nó vào index.

Nếu bạn nhận được mã trạng thái này, tốt nhất bạn nên tìm cách cải thiện chất lượng của trang.

Trùng lặp, Google chọn Canonical khác với người dùng (Duplicate, Google Chose Different Canonical Than User)

Bạn có thể thấy một cảnh báo cho trang bạn đã kiểm tra, cho biết trang này là “Trùng lặp, Google chọn canonical khác với người dùng.”

Điều này có nghĩa là nó coi URL là một bản sao gần giống của một trang hiện có, và nó đang chọn trang khác để hiển thị trong SERPs thay vì trang được kiểm tra, mặc dù bạn đã đặt thẻ canonical một cách chính xác.

Cách để khuyến khích Google hiển thị cả hai trang trong SERPs là đảm bảo chúng là duy nhất, có đủ content để hữu ích cho người đọc.

Về cơ bản, bạn cần cung cấp cho Google một lý do để index cả hai trang.

Khắc phục vấn đề

Mặc dù các trang của bạn có thể không được index vì một hoặc nhiều lý do khác nhau, nhưng các cách khắc phục đều khá giống nhau.

Có khả năng là có một vấn đề kỹ thuật với trang web, như thẻ canonical sai hoặc chặn robots.txt, đã ngăn chặn việc crawl và index chính xác một trang.

Hoặc, có một vấn đề về chất lượng của trang, khiến Google không coi nó đủ giá trị để được index.

Bắt đầu bằng cách xem xét các nguyên nhân kỹ thuật tiềm ẩn. Điều này sẽ giúp bạn nhanh chóng xác định xem đây có phải là một bản sửa lỗi “nhanh” mà bạn hoặc các nhà phát triển của bạn có thể thay đổi hay không.

Khi bạn đã loại trừ các vấn đề kỹ thuật, bạn rất có thể đang xem xét các vấn đề về chất lượng.

Tùy thuộc vào những gì bạn hiện cho rằng đang khiến trang không xuất hiện trong SERPs, có thể là do chính trang đó có vấn đề về chất lượng, hoặc một phần lớn hơn của trang web của bạn có vấn đề.

Nếu là trường hợp trước, hãy xem xét E-E-A-T, tính độc đáo của trang trong phạm vi internet, và cách bạn có thể báo hiệu tầm quan trọng của trang, chẳng hạn như thông qua các backlink liên quan.

Nếu là trường hợp sau, bạn có thể muốn thực hiện Audit Content để giúp bạn thu hẹp các cách cải thiện nhận thức tổng thể về chất lượng trên trang web của bạn.

Tóm tắt

Sẽ cần một chút điều tra để xác định xem trang của bạn có thực sự không được index hay không, hoặc liệu Google chỉ đơn giản là không chọn xếp hạng cao cho các truy vấn mà bạn cảm thấy phù hợp.

Khi bạn đã xác định được điều đó, bạn có thể bắt đầu thu hẹp xem đó là vấn đề kỹ thuật hay vấn đề chất lượng đang ảnh hưởng đến các trang của bạn.

Đây là một vấn đề khó chịu, nhưng các cách khắc phục khá hợp lý, và cuộc điều tra hy vọng sẽ tiết lộ thêm nhiều cách để cải thiện việc crawl và index trang web của bạn.

Notes:
- Trong bài có sử dụng từ Trang đồng nghĩa với từ Page.

- Và sử dụng 1 số thuật ngữ thông dụng khác.

© Cre: NGHIỆN SEO (Team biên tập).

3 Lượt thích