Fix lỗi Crawled - currently not indexed trong GSC

nghienseo · 26 Tháng Hai 2025 03:08

Trạng thái “Crawled - Currently Not Indexed” hoặc tiếng Việt là “Đã thu thập - hiện tại chưa được lập chỉ mục” trong Google Search Console nghĩa là Google đã thu thập dữ liệu trang của bạn nhưng chưa thêm nó vào chỉ mục tìm kiếm. Do đó, trang sẽ không xuất hiện trong kết quả tìm kiếm. Đây là một vấn đề phổ biến đối với các trang mới hoặc ít quan trọng, nhưng việc giải quyết nó có thể cải thiện đáng kể khả năng index để hiển thị cho người dùng tìm kiếm.

Phân tích toàn diện về “Crawled - Currently Not Indexed”

Hiểu về vấn đề

Khi Google thu thập dữ liệu một trang, nó truy cập và đọc nội dung để hiểu trang đó nói về gì. Tuy nhiên, không phải tất cả các trang đã thu thập dữ liệu đều được lập chỉ mục. Các lý do phổ biến bao gồm:

Nội dung kém chất lượng hoặc mỏng (Thin content): Các trang có nội dung tối thiểu hoặc giá trị thấp có thể không được ưu tiên để lập chỉ mục.
Nội dung trùng lặp: Nếu một trang là bản sao của trang khác, Google có thể chọn không lập chỉ mục để tránh dư thừa.
Lỗi thu thập dữ liệu: Các vấn đề kỹ thuật như lỗi 404, lỗi máy chủ, hoặc chuyển hướng có thể ngăn chặn việc thu thập dữ liệu không đúng cách.
Bị chặn bởi robots.txt hoặc thẻ meta: Nếu robots.txt chặn Googlebot hoặc trang có thẻ meta “noindex”, Google sẽ không lập chỉ mục.
Liên kết nội bộ kém: Các trang không được liên kết tốt trong website có thể được coi là ít quan trọng (chưa nói tình trạng trang mồ côi).
Trang mới hoặc vừa được cập nhật: Đôi khi, Google cần thời gian để xử lý và lập chỉ mục các trang mới hoặc được cập nhật.

Các bước để giải quyết “Crawled - Currently Not Indexed”

1. Đảm bảo chất lượng nội dung

Sự độc đáo và giá trị: Đảm bảo nội dung là duy nhất và có giá trị cho người dùng.
Tối ưu hóa từ khóa: Sử dụng từ khóa liên quan một cách tự nhiên trong tiêu đề, tiêu đề phụ, và văn bản.
Cập nhật thường xuyên: Giữ nội dung tươi mới bằng cách cập nhật định kỳ.
Đa dạng hóa định dạng: Kết hợp hình ảnh, video, và các phương tiện khác để nâng cao trải nghiệm người dùng.

2. Kiểm tra lỗi thu thập dữ liệu

Sử dụng phần “Crawl” trong Google Search Console để xác định và sửa lỗi như 404.
Kiểm tra website định kỳ bằng các công cụ như Screaming Frog.

3. Xác minh robots.txt và thẻ meta

Đảm bảo robots.txt không chặn các trang quan trọng.
Loại bỏ thẻ meta “noindex” từ các trang bạn muốn lập chỉ mục.

4. Cải thiện liên kết nội bộ

Liên kết đến trang từ các phần liên quan khác của website.
Đảm bảo navigation website rõ ràng và bao gồm các trang quan trọng.
Duy trì sơ đồ website XML cập nhật và gửi qua Google Search Console.

5. Yêu cầu lập chỉ mục

Sử dụng Công cụ Kiểm tra URL trong Google Search Console để yêu cầu lập chỉ mục.
Lưu ý rằng việc này không đảm bảo lập chỉ mục nhưng ưu tiên thu thập dữ liệu.

6. Theo dõi và điều chỉnh

Kiểm tra định kỳ báo cáo “Index Coverage” trong Google Search Console.
Sử dụng Google Analytics để theo dõi sự cải thiện về lưu lượng truy cập.
Điều chỉnh chiến lược dựa trên dữ liệu.

Xem xét bổ sung

Đối với website lớn (trên 10.000 trang), tập trung vào việc cải thiện liên kết nội bộ và chất lượng nội dung. Cập nhật thường xuyên để truyền tín hiệu cho Google rằng nội dung đang hoạt động và liên quan.

Vấn đề phổ biến và giải pháp

Vấn đề	Giải pháp
Nội dung kém chất lượng hoặc mỏng (dạng thin content)	Cải thiện nội dung với thông tin chi tiết, duy nhất và từ khóa liên quan.
Nội dung trùng lặp	Sử dụng thẻ canonical hoặc tổng hợp các trang trùng lặp.
Lỗi thu thập dữ liệu (ví dụ, 404, 500)	Sửa liên kết hỏng, giải quyết lỗi máy chủ và gửi lại để thu thập dữ liệu.
Bị chặn bởi robots.txt hoặc thẻ meta	Điều chỉnh robots.txt và loại bỏ thẻ “noindex”.
Liên kết nội bộ kém	Thêm liên kết từ các trang liên quan và cập nhật sơ đồ website.
Trang mới hoặc vừa được cập nhật	Yêu cầu lập chỉ mục qua Công cụ Kiểm tra URL.

Tóm lại

Sửa lỗi “Crawled - Currently Not Indexed” đòi hỏi một cách tiếp cận đa chiều, tập trung vào chất lượng nội dung, technical SEO, và tương tác tích cực với các công cụ của Google Search Console (GSC). Bằng cách đảm bảo nội dung chất lượng cao, giải quyết lỗi thu thập dữ liệu, xác minh quyền truy cập, cải thiện liên kết, yêu cầu lập chỉ mục, và theo dõi tiến trình, chủ website có thể tăng khả năng các trang được lập chỉ mục. Cập nhật và điều chỉnh định kỳ dựa trên dữ liệu có thể tối ưu hóa hơn nữa khả năng hiển thị và tăng thêm lưu lượng người dùng truy cập.

Tài liệu tham khảo:

[1]. How To Fix “Crawled – Currently Not Indexed” in GSC | Onely
[2]. What is ‘Crawled - currently not indexed’ in Search Console? Yoast
[3]. How to Fix “Crawled - Currently Not Indexed” Error in Google Search Console » Rank Math
[4]. How to Fix Crawled Currently Not Indexed - Search Console

#fixerror #fixCrawled #fixgooglesearchconsole #GoogleSearchConsole, SEO #CrawledNotIndexed, #LỗiCrawl, #YêuCầuChỉMục

Cre by #NghienSEO (Team biên tập)

member · 5 Tháng Năm 2025 08:32

Cách xử lý triệt để lỗi Not indexed (chưa lập chỉ mục) trên GSC

Gần đây thấy khá nhiều ae hỏi về vấn đề index (lập chỉ mục) trên GSC. Sẵn hướng dẫn một số bạn thì mình tổng hợp lại vài kinh nghiệm sửa lỗi cho ae luôn.

Trên GSC mục Page indexing được chia làm 2 nhóm chính: Indexed (xanh) và Not indexed (xám).

Trước tiên bạn cần hiểu cơ chế cách thức hoạt động của Gồ đối với dữ liệu các website:

Discover > Crawl > Index > Serve (Rank).
Phát hiện > Thu thập (quét) > Lập chỉ mục > Phân phát (Xếp hạng).

Tiếp theo bạn cần nắm sơ qua về lý thuyết của 2 nhóm Indexed và Not indexed.

1. Indexed (đã lập chỉ mục):

Ý nghĩa:

Là các URL đã được Gồ thu thập thông tin, đã đưa vào kho chỉ mục, có khả năng hiển thị trên kết quả tìm kiếm SERP.
Gồ đánh giá trang có đủ chất lượng hoặc không có lỗi kỹ thuật nghiêm trọng.
Số trang được lập chỉ mục càng cao (so với tổng số trang hợp lệ) càng tốt. Chứng tỏ web hoạt động tốt trong mắt Gồ.

Các nguyên tắc tối ưu chính:

Kiểm tra: Robots.txt, noindex, canonical: tránh chặn Gồ lập chỉ mục nhầm.
Sitemap: tạo, cập nhật XML sitemap, submit lên GSC để giúp Gồ hiểu website rõ hơn.
Đảm bảo trang ko có lỗi kỹ thuật, có nội dung chất lượng, đáp ứng intent của người dùng.
Inlink: xây dựng liên kết nội bộ hợp lý, giúp Gồ bot dễ thu thập thông tin.

2. Not indexed (chưa được lập chỉ mục):

Là các URL KHÔNG được lập chỉ mục bởi Gồ. Vì nhiều lý do, chi tiết từng lý do ở phần “Why pages aren’t indexed?” (Lý do trang không được lập chỉ mục).

Nguyên tắc xử lý chung cho nhóm Not indexed:

Đi vào từng nhóm nguyên nhân cụ thể, rà từng URL xem thực tế URL đó thuộc loại nào, có nên cho index hay không, bị vấn đề gốc (root cause) gì mà ko được index bởi nhóm lý do này.
Xử lý nguyên nhân gốc (nếu cần). Vd: nếu vấn đề đó là chủ đích (chặn index, thao tác redirect, găn canonical…) thì đừng làm gì cả. Nếu trang đó ko cần index thì kệ bà nó, hoặc có thể chặn luôn trên robots. Nếu trang cần index thì tìm xem tại sao nó chưa index để xử, rồi ép index lại cho nó, GSC inspect và các tool ép bên thứ 3.
Validate (Xác thực) cho nhóm vấn đề đó sau khi done bước 2, để Gồ crawl và đọc lại và cập nhật kết quả mới nhất.

Chi tiết từng nguyên nhân Not indexed và hướng xử lý:

1. Discovered - Currently Not Indexed:

(Đã phát hiện thấy – hiện chưa được lập chỉ mục)

Gồ đã thấy URL nhưng chưa thu thập dữ liệu (Crawl), thường do website có quá nhiều trang hoặc crawl budget bị giới hạn.

Check robots, sitemap, thẻ noindex, Crawl stats có bất thường?

2. Crawled - Currently Not Indexed:

(Đã thu thập dữ liệu – hiện chưa được lập chỉ mục)

Gồ đã thu thập nhưng chưa lập chỉ mục do nội dung yếu hoặc bị coi là không quan trọng.

Kiểm tra chất lượng nội dung, lỗi kỹ thuật, thin, trùng lặp, ăn thịt, trải nghiệm kém…

3. Excluded by Noindex Tag

(Bị loại trừ bởi thẻ ‘noindex’)

URL có gắn thẻ noindex nên không được Gồ lập chỉ mục.

Check lại xem có chủ đích gắn thẻ noindex ko, nếu đúng thì kệ, nếu ko thì gỡ ra để đc index.

4. Blocked by Robots.txt

(Bị chặn bằng tệp robots.txt)

Hiện bị chặn bằng lệnh Disallow trên file Robots.

Check lại xem có chủ đích chặn robots, nếu đúng thì kệ, nếu ko thì bỏ chặn để đc index.

5. Duplicate, Google chose different canonical than user

(Trang trùng lặp, Google đã chọn một trang chính tắc khác với lựa chọn của người dùng)

URL này có khai báo canonical, nhưng Gồ chọn URL khác phù hợp hơn để làm chính tắc và index nó chứ ko index URL này. Thường xảy ra khi bạn cố tính set canonical chỉ để thao túng thứ hạng chứ ko phải vì nội dung thực sự tương đồng. Đôi khi chỉ là lỗi kỹ thuật trùng lặp về có và không có dấu “/” ở cuối URL.

Check xem đã đồng nhất có hoặc không dấu “/” cuối URL, đảm bảo các URL khác nhau thì tách biệt về mặt nội dung và set thẻ canonical chuẩn.

6. Duplicate Without User-Selected Canonical

(Trang trùng lặp, người dùng chưa chọn trang chính tắc)

URL bị đánh giá là trùng lặp (duplicate) nhưng chưa có thẻ canonical.

Thường bị ở mấy trang /feed/, /page/ nếu chưa có thẻ canonical về trang chính. Gắn canonical chuẩn và (hoặc) chặn luôn trên robots nếu ko muốn crawl/index.

7. Alternate page with proper canonical tag

(Trang thay thế có thẻ chính tắc thích hợp)

URL có trỏ canonical về url khác nên ko đc index.

Check xem có đúng ý định redirect ko, đúng thì oke, ko thì chỉnh lại.

8. Page with Redirect

(Trang có lệnh chuyển hướng)

URL đang bị redirect qua url khác nên ko đc index.

Check xem có đúng ý định redirect ko, đúng thì kệ, ko thì gỡ hoặc chỉnh lại.

9. Redirect error

(Lỗi chuyển hướng)

Có thể các lỗi: chuyển hướng chuỗi và vòng lặp, chuyển hướng đến URL không hợp lệ.

Gỡ chuyển hướng vòng lặp, chuyển hướng đến đúng URL hợp lệ.

10. Server error (5xx)

(Lỗi máy chủ (5xx))

URL bị lỗi Server 5xx nên ko đc index.

Xử lý lỗi Server, đảm bảo code 200 rồi push index lại.

11. Not Found (404)

(Không tìm thấy (404))

URL ko tồn tại, mã code 404.

Check xem URL này còn ko, 404 là đúng chủ đích chưa. Nếu trang còn dùng thì phải chỉnh về 200. Nếu ko dùng thì kệ, hoặc chặn robots.

12. Soft 404

(404 mềm)

URL ko có nội dung chính, chỉ có header/sidebar/footer…, trang sản phẩm trống, hoặc trang danh mục ko có sản phẩm nào. Tức lẽ ra trang này nên là code 404 nhưng hiện tại đang 200.

Xem trang còn dùng ko để bổ sung nội dung, nếu ko dùng thì trả về 404, chặn robots khỏi crawl.

Ngoài ra còn 1 nhóm Indexed nhưng lại bị chặn trên robots:

Indexed, though blocked by robots.txt

(Đã lập chỉ mục mặc dù bị chặn bởi robots.txt)

Gồ đã lập chỉ mục, đã đưa vào nhóm Indexed (xanh) mặc dù nhóm này đang được set lệnh chặn trên file robots.

Check xem chặn đúng ý định chưa để điều chỉnh. Nếu đúng là cần chặn thì check xem thực tế có đang index trên SERP không bằng site:URL để deindex, gửi lệnh Removals cho nhóm URL này để Gồ cập nhật lại nhóm Indexed. Ngược lại nếu ko cần chặn thì phải tắt Disallow để Gồ crawl bình thường.

Sau khi rà sửa từng nhóm lỗi xong thì nhớ thực hiện bước 3 theo nguyên tắc xử lý chung mình có nói ở trên: Validate (Xác thực) để Gồ đọc và cập nhật lại kết quả mới.

Bạn cần hiểu là nhóm Not indexed (xám) luôn tồn tại đối với bất kỳ website nào, chỉ khác nhau về số lượng thôi. Và thực ra mớ này là Thông báo (Notices) chứ ko hoàn toàn là Lỗi (Errors) nên đừng kỳ vọng phải xử lý hết tụi nó về 0.

Thêm nữa, tùy vào loại website, cấu trúc link và các nhóm URL ở từng giai đoạn khác nhau mà số lượng Indexed (xanh) và Not indexed (xám) có sự tăng giảm tương ứng. Không phải lúc nào index nhiều cũng là tốt, thường là ngược lại.

Vì vậy bạn cần quay lại tìm hiểu thật kỹ Cơ chế Gồ hoạt động, cách nó thu thập và lập chỉ mục các nội dung website ra sao. Sau đó bạn phải thực sự hiểu rõ các nhóm URL trên website của mình, loại nào nên index loại nào không.

Chỉ khi đó bạn mới có thể điều khiển được và kiểm soát chính xác việc index các URL trên website của mình.

Một lưu ý là bộ dữ liệu này của GSC lưu trữ cho các website không được cập nhật thường xuyên, thời gian cập nhật lại khá lâu (tùy Crawl budget từng web). Vì vậy sau khi fix xong bạn phải submit và kiên nhẫn đợi, thường xuyên kiểm tra, điều chỉnh rồi submit lại nhiều đợt. Có thể submit lại Sitemap và fetch lại robots khi có sự thay đổi để nhắc Gồ vào đọc nhanh hơn.

Hi vọng vài kinh nghiệm nhỏ giúp ae hiểu và xử lý tốt hơn vấn đề index trên website. Cảm ơn ae.

Xem ảnh bài viết tại link này.

Author: Bá An - Group Nghiện SEO