Hướng dẫn xử lý tham số URL từ chuyên gia SEO

Bài viết gốc của tác giả Jes Scholz được đăng trên Search Engine Journal (SEJ): The Expert SEO Guide To URL Parameter Handling


Các tham số URL có thể là cơn ác mộng trong SEO. Cùng tìm hiểu làm cách nào xử lý chúng để cải thiện việc thu thập và lập chỉ mục của Google.

Trong thế giới SEO , các tham số URL gây ra một vấn đề đáng kể.

Trong khi các lập trình viên và người phân tích dữ liệu có thể đánh giá cao tiện ích của chúng, các chuỗi truy vấn này lại là vấn đề đau đầu của người làm SEO.

Vô số kết hợp tham số có thể chia tách một ý định người dùng duy nhất thành hàng nghìn biến thể URL. Điều này có thể gây ra sự phức tạp cho việc thu thập dữ liệu, lập chỉ mục, khả năng hiển thị và cuối cùng dẫn đến lưu lượng truy cập thấp hơn.

Vấn đề không đơn giản chỉ là loại bỏ chúng, điều quan trọng là phải nắm vững cách quản lý các tham số URL này theo cách thân thiện với SEO.

Tham số URL là gì?

Tham số URL, còn được gọi là chuỗi truy vấn hoặc biến URI, là phần của URL theo sau ký hiệu ‘?’. Chúng bao gồm một cặp khóa (key) và giá trị (value), được phân tách bằng dấu ‘=’. Nhiều tham số có thể được thêm vào một trang và được phân tách bằng dấu ‘&’.

Các trường hợp sử dụng tham số phổ biến nhất là:

  • Theo dõi (tracking) – Ví dụ ?utm_medium=social, ?sessionid=123 hoặc ?affiliateid=abc

  • Sắp xếp – Ví dụ ?sort=lowest-price, ?order=highest-rated hoặc ?so=latest

  • Lọc – Ví dụ ?type=widget, colour=purple hoặc ?price-range=20-50

  • Định dạng/Định danh – Ví dụ ?product=small-purple-widget, categoryid=124 hoặc itemid=24AU

  • Phân trang – Ví dụ: ?page=2, ?p=2 hoặc viewItems=10-30

  • Tìm kiếm – Ví dụ: ?query=users-query, ?q=users-query hoặc ?search=drop-down-option

  • Dịch – Ví dụ, ?lang=fr hoặc ?language=de

Vấn đề về SEO với các tham số URL

1. Tham số tạo nội dung trùng lặp

Thông thường, các tham số URL không tạo ra thay đổi đáng kể nào đối với nội dung của trang.

Phiên bản được sắp xếp lại của trang thường không khác nhiều so với bản gốc. URL trang có thẻ theo dõi hoặc ID phiên giống hệt với bản gốc.

Ví dụ: tất cả các URL sau đây đều sẽ trả về một tập hợp các tiện ích.

Đó là khá nhiều URL cho cùng một nội dung – giờ hãy tưởng tượng điều này trên mọi danh mục trên trang web của bạn. Số lượng URL trùng lặp có thể rất lớn!

Vấn đề là các công cụ tìm kiếm coi mọi URL dựa trên tham số là một trang mới. Vì vậy, chúng coi nhiều biến thể của cùng một trang, tất cả đều hiển thị cùng một nội dung và tất cả đều nhắm mục tiêu đến cùng một mục đích tìm kiếm hoặc chủ đề ngữ nghĩa.

Mặc dù sự trùng lặp như vậy khó có thể khiến trang web bị loại hoàn toàn khỏi kết quả tìm kiếm, nhưng nó sẽ dẫn đến tình trạng trùng lặp từ khóa và có thể làm giảm đánh giá của Google về tổng thể chất lượng trang web của bạn vì các URL tăng thêm này không mang lại giá trị thực sự nào.

2. Các tham số làm giảm hiệu quả thu thập dữ liệu

Việc thu thập các trang tham số dư thừa sẽ làm Googlebot mất tập trung, làm giảm khả năng lập chỉ mục các trang liên cần SEO trên trang web của bạn và làm quá tải máy chủ.

Google đã tóm tắt vấn đề này một cách hoàn hảo.

“Các URL quá phức tạp, đặc biệt là các URL chứa nhiều tham số, có thể gây ra sự cố cho trình thu thập thông tin bằng cách tạo ra số lượng URL không cần thiết trỏ đến nội dung giống hệt hoặc tương tự nhau trên trang web của bạn.

Do đó, Googlebot có thể sử dụng nhiều băng thông hơn mức cần thiết hoặc có thể không thể lập chỉ mục hoàn toàn toàn bộ nội dung trên trang web của bạn.”

3. Tham số chia tách tín hiệu xếp hạng trang

Nếu bạn có nhiều phiên bản nội dung trang giống nhau, các liên kết và chia sẻ trên mạng xã hội có thể xuất hiện ở nhiều phiên bản khác nhau.

Điều này làm loãng tín hiệu xếp hạng của bạn. Khi bạn làm cho trình thu thập thông tin bối rối, nó sẽ không chắc chắn nên lập chỉ mục trang nào trong số các trang cạnh tranh cho truy vấn tìm kiếm.

4. Các tham số làm cho UR Lchính nhận ít lượt click hơn

Hãy nhìn nhận thực tế: URL tham số rất xấu xí. Chúng khó đọc và có vẻ không đáng tin cậy. Do đó, chúng ít có khả năng được nhấp (click) vào hơn.

Điều này có thể ảnh hưởng đến hiệu suất của trang. Không chỉ vì CTR ảnh hưởng đến thứ hạng mà còn vì nó ít được nhấp hơn trong các AI chatbot, phương tiện truyền thông xã hội, trong email, khi sao chép-dán vào diễn đàn hoặc bất kỳ nơi nào khác có thể hiển thị toàn bộ URL.

Mặc dù điều này chỉ có thể có tác động nhỏ đến việc khuếch đại một trang, nhưng mọi tweet, lượt thích, chia sẻ, email, liên kết và đề cập đều quan trọng đối với tên miền.

Khả năng đọc URL kém có thể góp phần làm giảm mức độ tương tác với thương hiệu.

Đánh giá mức độ của vấn đề tham số

Điều quan trọng là phải biết mọi thông số được sử dụng trên trang web của bạn. Nhưng có khả năng là các nhà phát triển của bạn không cập nhật danh sách.

Vậy làm sao bạn tìm được tất cả các tham số cần xử lý? Hoặc hiểu cách công cụ tìm kiếm thu thập dữ liệu và lập chỉ mục các trang như vậy? Biết giá trị mà chúng mang lại cho người dùng?

Thực hiện theo năm bước sau:

  • Chạy trình thu thập thông tin : Với một công cụ như Screaming Frog, bạn có thể tìm kiếm “?” trong URL.
  • Xem lại tệp nhật ký của bạn : Xem liệu Googlebot có đang thu thập dữ liệu từ các URL dựa trên tham số hay không.
  • Xem báo cáo lập chỉ mục trang của Google Search Console : Trong các mẫu lập chỉ mục và các loại trừ không được lập chỉ mục có liên quan, hãy tìm kiếm ‘?’ trong URL.
  • Tìm kiếm với toán tử nâng cao site: inurl: : Biết cách Google lập chỉ mục các tham số bạn tìm thấy bằng cách đặt khóa vào kết hợp truy vấn site:example.com inurl:key.
  • Xem trong báo cáo tất cả các trang của Google Analytics : Tìm kiếm “?” để xem từng tham số bạn tìm thấy được người dùng sử dụng như thế nào. Hãy đảm bảo kiểm tra xem các tham số truy vấn URL có bị loại trừ trong cài đặt chế độ xem không.

Có được dữ liệu này, giờ đây bạn có thể quyết định cách xử lý tốt nhất từng tham số của trang web.

Giải pháp SEO để thuần hóa các tham số URL

Bạn có sáu công cụ trong kho vũ khí SEO của mình để xử lý các tham số URL ở cấp độ chiến lược.

Giới hạn URL dựa trên tham số

Một đánh giá đơn giản về cách thức và lý do tạo ra các tham số có thể mang lại chiến thắng nhanh chóng cho SEO.

Bạn thường sẽ tìm ra cách để giảm số lượng URL tham số và do đó giảm thiểu tác động tiêu cực đến SEO. Có bốn vấn đề phổ biến để bắt đầu đánh giá của bạn.

1. Loại bỏ các tham số không cần thiết

Hãy yêu cầu bên lập trình web cung cấp danh sách các tham số của mọi trang web và chức năng của chúng. Rất có thể bạn sẽ phát hiện ra các tham số không còn thực hiện chức năng có giá trị nữa.

Ví dụ, người dùng có thể được xác định tốt hơn bằng cookie so với sessionID. Tuy nhiên, tham số sessionID vẫn có thể tồn tại trên trang web của bạn vì nó đã được sử dụng trước đây.

Hoặc bạn có thể phát hiện ra rằng bộ lọc trong điều hướng đa chiều của bạn hiếm khi được người dùng áp dụng.

Bất kỳ thông số nào do kỹ thuật không tối ưu gây ra cần phải được loại bỏ ngay lập tức.

2. Ngăn chặn các giá trị rỗng

Chỉ nên thêm tham số vào URL khi chúng có chức năng. Không cho phép thêm khóa tham số nếu giá trị trống.

Trong ví dụ trên, key2 và key3 không mang lại giá trị nào, theo cả nghĩa đen lẫn nghĩa bóng.

3. Chỉ sử dụng chìa khóa một lần

Tránh áp dụng nhiều tham số có cùng tên nhưng giá trị khác nhau.

Đối với các tùy chọn có nhiều lựa chọn, tốt hơn là kết hợp các giá trị sau một khóa duy nhất.

4. Cố định thứ tự tham số URL

Nếu cùng một tham số URL được sắp xếp ở vị trí khác nhau, các công cụ tìm kiếm sẽ hiểu là một URL khác.

Do đó, thứ tự tham số không quan trọng theo góc nhìn nội dung trùng lặp. Nhưng mỗi kết hợp đó đều làm tiêu tốn ngân sách thu thập thông tin và chia tách tín hiệu xếp hạng.

Tránh những vấn đề này bằng cách yêu cầu nhà phát triển viết một tập lệnh để luôn đặt các tham số theo thứ tự nhất quán, bất kể người dùng chọn chúng như thế nào.

Theo tôi, bạn nên bắt đầu với bất kỳ tham số dịch nào, tiếp theo là định danh, phân trang, sau đó lọc và sắp xếp lại hoặc tìm kiếm, và cuối cùng là theo dõi.

Ưu điểm :

  • Đảm bảo thu thập dữ liệu hiệu quả hơn.
  • Giảm thiểu vấn đề nội dung trùng lặp.
  • Hợp nhất các tín hiệu xếp hạng vào ít trang hơn.
  • Phù hợp với mọi loại tham số.

Nhược điểm :

  • Thời gian triển khai kỹ thuật vừa phải.

Thuộc tính liên kết Rel=”Canonical”

image

Thuộc tính liên kết rel=“canonical” chỉ ra rằng một trang có nội dung giống hệt hoặc tương tự với trang khác. Điều này khuyến khích các công cụ tìm kiếm hợp nhất các tín hiệu xếp hạng vào URL được chỉ định là canonical.

Bạn có thể rel=canonical các URL dựa trên tham số của mình thành URL thân thiện với SEO để theo dõi, xác định hoặc sắp xếp lại các tham số.

Nhưng chiến thuật này không phù hợp khi nội dung trang tham số không đủ gần với nội dung chuẩn, chẳng hạn như phân trang, tìm kiếm, dịch hoặc một số tham số lọc.

Ưu điểm :

  • Triển khai kỹ thuật tương đối dễ dàng.
  • Rất có khả năng bảo vệ chống lại vấn đề nội dung trùng lặp.
  • Hợp nhất các tín hiệu xếp hạng vào URL chuẩn.

Nhược điểm :

  • Lãng phí thời gian thu thập thông tin trên các trang tham số.
  • Không phù hợp với mọi loại tham số.
  • Được các công cụ tìm kiếm hiểu là một gợi ý mạnh mẽ chứ không phải là một chỉ thị.

Thẻ Meta Robots Noindex

image

Các URL có thẻ “noindex” cũng có khả năng được thu thập ít thường xuyên hơn và nếu thẻ này tồn tại trong thời gian dài thì cuối cùng Google sẽ không theo dõi các liên kết của trang .

Ưu điểm :

  • Triển khai kỹ thuật tương đối dễ dàng.
  • Rất có khả năng bảo vệ chống lại vấn đề nội dung trùng lặp.
  • Phù hợp với tất cả các loại tham số mà bạn không muốn lập chỉ mục.
  • Xóa các URL dựa trên tham số hiện có khỏi chỉ mục.

Nhược điểm :

  • Sẽ không ngăn cản các công cụ tìm kiếm thu thập dữ liệu URL, nhưng sẽ khuyến khích chúng làm như vậy ít thường xuyên hơn.
  • Không hợp nhất các tín hiệu xếp hạng.
  • Được các công cụ tìm kiếm hiểu là một gợi ý mạnh mẽ chứ không phải là một chỉ thị.

Chặn index bằng Robots.txt

image

Tệp robots.txt là thứ mà các công cụ tìm kiếm nhìn vào đầu tiên trước khi thu thập dữ liệu trang web của bạn. Nếu họ thấy có điều gì đó không được phép, họ thậm chí sẽ không truy cập vào đó.

Bạn có thể sử dụng tệp này để chặn trình thu thập thông tin truy cập vào mọi URL dựa trên tham số (với Disallow: /?) hoặc chỉ vào các chuỗi truy vấn cụ thể mà bạn không muốn lập chỉ mục.

Ưu điểm :

  • Triển khai kỹ thuật đơn giản.
  • Cho phép thu thập dữ liệu hiệu quả hơn.
  • Tránh vấn đề trùng lặp nội dung.
  • Phù hợp với tất cả các loại tham số mà bạn không muốn thu thập.

Nhược điểm :

  • Không hợp nhất các tín hiệu xếp hạng.
  • Không xóa các URL hiện có khỏi chỉ mục.

Chuyển từ URL động sang URL tĩnh

Nhiều người cho rằng cách tối ưu để xử lý các tham số URL là tránh chúng ngay từ đầu.

Xét cho cùng, các thư mục con quan trọng hơn các tham số để giúp Google hiểu cấu trúc trang web và các URL tĩnh dựa trên từ khóa luôn là nền tảng của SEO.

Để đạt được điều này, bạn có thể sử dụng chức năng ghi lại URL phía máy chủ để chuyển đổi các tham số thành URL thư mục con.

Ví dụ, URL:

www.example.com/view-product?id=482794

Sẽ trở thành:

www.example.com/widgets/purple

Cách tiếp cận này hiệu quả đối với các tham số dựa trên từ khóa mô tả, chẳng hạn như các tham số xác định danh mục, sản phẩm hoặc bộ lọc cho các thuộc tính liên quan đến công cụ tìm kiếm. Nó cũng hiệu quả đối với nội dung đã dịch.

Nhưng nó trở thành vấn đề đối với các thành phần không liên quan đến từ khóa của điều hướng đa diện , chẳng hạn như giá chính xác. Có một bộ lọc như vậy dưới dạng URL tĩnh, có thể lập chỉ mục không mang lại giá trị SEO.

Đây cũng là một vấn đề đối với các tham số tìm kiếm, vì mọi truy vấn do người dùng tạo ra sẽ tạo ra một trang tĩnh cạnh tranh để xếp hạng so với trang chuẩn - hoặc tệ hơn là hiển thị cho trình thu thập thông tin các trang có nội dung chất lượng thấp bất cứ khi nào người dùng tìm kiếm một mục mà bạn không cung cấp.

Nó hơi kỳ lạ khi áp dụng vào phân trang (mặc dù không phải là hiếm gặp do WordPress), điều này sẽ cung cấp một URL như

www.example.com/widgets/purple/page2

Rất lạ khi sắp xếp lại, điều này sẽ đưa ra một URL như

www.example.com/widgets/purple/lowest-price

Và thường không phải là lựa chọn khả thi để theo dõi. Google Analytics sẽ không xác nhận phiên bản tĩnh của tham số UTM.

Quan trọng hơn: Việc thay thế các tham số động bằng URL tĩnh cho những mục như phân trang, kết quả hộp tìm kiếm trên trang hoặc sắp xếp không giải quyết được vấn đề nội dung trùng lặp, ngân sách thu thập thông tin hoặc làm loãng giá trị liên kết nội bộ.

Việc kết hợp tất cả các bộ lọc từ điều hướng theo khía cạnh của bạn dưới dạng URL có thể lập chỉ mục thường dẫn đến các vấn đề về nội dung mỏng . Đặc biệt nếu bạn cung cấp các bộ lọc đa lựa chọn.

Nhiều chuyên gia SEO cho rằng có thể cung cấp cùng một trải nghiệm người dùng mà không ảnh hưởng đến URL. Ví dụ, bằng cách sử dụng POST thay vì GET để sửa đổi nội dung trang. Do đó, bảo toàn trải nghiệm người dùng và tránh các vấn đề về SEO.

Nhưng việc loại bỏ các tham số theo cách này sẽ loại bỏ khả năng người xem đánh dấu trang hoặc chia sẻ liên kết đến trang cụ thể đó – và rõ ràng là không khả thi để theo dõi các tham số và không tối ưu cho việc phân trang.

Vấn đề cốt lõi là đối với nhiều trang web, việc tránh hoàn toàn các tham số là điều không thể nếu bạn muốn cung cấp trải nghiệm người dùng lý tưởng. Đây cũng không phải là phương pháp SEO tốt nhất.

Vì vậy, chúng ta còn lại điều này. Đối với các tham số mà bạn không muốn được lập chỉ mục trong kết quả tìm kiếm (phân trang, sắp xếp lại, theo dõi, v.v.), hãy triển khai chúng dưới dạng chuỗi truy vấn. Đối với các tham số mà bạn muốn được lập chỉ mục, hãy sử dụng đường dẫn URL tĩnh.

Ưu điểm :

Chuyển trọng tâm của trình thu thập thông tin từ URL dựa trên tham số sang URL tĩnh có khả năng xếp hạng cao hơn.

Nhược điểm :

  • Đầu tư đáng kể thời gian phát triển để viết lại URL và chuyển hướng 301.
  • Không ngăn chặn được vấn đề nội dung trùng lặp.
  • Không hợp nhất các tín hiệu xếp hạng.
  • Không phù hợp với mọi loại tham số.
  • Có thể dẫn đến vấn đề nội dung mỏng.
  • Không phải lúc nào cũng cung cấp URL có thể liên kết hoặc đánh dấu.

Thực hành tốt nhất để xử lý tham số URL cho SEO

Vậy bạn nên áp dụng chiến thuật SEO nào trong sáu chiến thuật này?

Câu trả lời không thể là tất cả.

Điều đó không chỉ tạo ra sự phức tạp không cần thiết mà các giải pháp SEO thường còn xung đột với nhau.

Ví dụ, nếu bạn triển khai robots.txt disallow, Google sẽ không thể thấy bất kỳ thẻ meta noindex nào. Bạn cũng không nên kết hợp thẻ meta noindex với thuộc tính liên kết rel=canonical.

John Mueller, Gary Ilyes và Lizzi Sassman của Google thậm chí còn không thể quyết định được cách tiếp cận. Trong một tập Search Off The Record , họ đã thảo luận về những thách thức mà các tham số đặt ra cho việc thu thập dữ liệu.

Họ thậm chí còn đề xuất đưa công cụ xử lý tham số trở lại trong Google Search Console. Google, nếu bạn đang đọc bài viết này, hãy đưa nó trở lại!

Điều rõ ràng là không có một giải pháp hoàn hảo nào. Có những trường hợp hiệu quả thu thập dữ liệu quan trọng hơn việc hợp nhất các tín hiệu thẩm quyền.

Cuối cùng, điều gì phù hợp với trang web của bạn sẽ phụ thuộc vào ưu tiên của bạn.

image

Cá nhân tôi áp dụng kế hoạch tấn công sau đây để xử lý tham số thân thiện với SEO:

Nghiên cứu ý định của người dùng để hiểu những thông số nào nên thân thiện với công cụ tìm kiếm, URL tĩnh.

Triển khai xử lý phân trang hiệu quả bằng cách sử dụng tham số ?page=.

Đối với tất cả các URL dựa trên tham số còn lại, hãy chặn thu thập thông tin bằng lệnh disallow robots.txt và thêm thẻ noindex làm bản sao lưu.

Kiểm tra lại xem có URL dựa trên tham số nào được gửi trong sơ đồ trang web XML không.

Bất kể bạn chọn chiến lược xử lý tham số nào để triển khai, hãy đảm bảo ghi lại tác động của những nỗ lực của bạn lên KPI.

7 Lượt thích

Bài này hay và ít người chia sẻ và đề cập đến đấy em ^^