Recap Event: Backlink tàng hình & content tàng hình

I. VẤN ĐỀ

  1. Google Index rất nhiều bài viết nhưng các content đó hoàn toàn không tồn tại trên website. Khi truy cập từ Google vào các bài viết đó thì bị redirect sang trang khác. Nếu copy URL bài viết được index trên Google và truy cập trực tiếp vào bằng trình duyệt khác thì báo lỗi 404 - Nội dung không tồn tại.

  2. Website truy cập bình thường, nội dung không có gì lạ nhưng try cập từ Google Search thì bị redirect qua trang khác, các top keywords khi click vào kết quả search bị đẩy về site khác.

  3. Bị chèn backlink vào website nhưng view-source không thấy, check bằng các tool như ahrefs, semrush… cũng không thấy.

II. CƠ CHẾ

(1) Referer: một trường trong HTTP Header khi user gửi request lên server, trường này chứa giá trị của URL bạn đã truy cập trước đó để đến được với URL hiện tại đang xem nội dung. Ví dụ: khi chúng ta bấm vào kết quả search trên Google và truy cập vào website thì truy cập vào website lúc này có Referer là hxxps://google[.]com[.]vn

(2) User-Agent: một trường trong HTTP Header cho biết thông tin thiết bị của người dùng đang sử dụng để truy cập vào website. Ví dụ: iphone, windows, linux, macbook, android… Với các truy cập từ Google, User-Agent sẽ chứa chuỗi “googlebot” => Dựa vào đây để nhận diện được truy cập của GoogleBot

(3) Cách Google Index nội dung lên SERP: Truy cập site => Đọc nội dung website => phân tích nội dung => lập index bài viết => Google sẽ index những nội dung mà Google “đọc” được khi truy cập website

Kết hợp (2) & (3) => tấn công làm cho website tồn tại 2 phiên bản nội dung khác nhau. Phiên bản bình thường dành cho người dùng truy cập bình thường, phiên bản content độc hại chỉ xuất hiện khi xác định đó là truy cập của Google bot. Điều này khiến cho Google đọc nội dung độc hại và tiến hành index chúng dù người dùng truy cập vẫn thấy nội dung hợp lệ bình thường.

Nếu chèn bài viết bằng cách viết bài bình thường trên website thì sẽ không phân loại được truy cập của người hay của bot, và cũng dễ bị phát hiện => bypass bằng cách khi phát hiện ra truy cập của bot thì kết nối ra website khác để tải nội dung về và hiển thị lên => Bài viết dù không tồn tại trên website nhưng vẫn hiển thị khi bot truy cập và được index => Đây gọi là Content tàng hình

Cơ chế tương tự áp dụng cho backlink, thay vì chèn bài viết thì chèn vào header/footer và kiểm tra điều kiện, chỉ hiện lên khi xác định đây là truy cập của Google bot => Đây gọi là backlink tàng hình.

Về cơ chế lấy nội dung từ website khác về để hiển thị (được gọi là Master Server): giúp khó phát hiện cũng như linh hoạt: mỗi lần truy cập sẽ hiện nội dung khác nhau, tuỳ theo Master Server quyết định trả nội dung gì về.

Các nội dung do Master Server trả về chứa rất nhiều external/internal link để liên kết tới các bài viết độc hại khác trong hệ sinh thái của chúng để index chéo lẫn nhau => tạo ra số lượng link khổng lồ và khiến Googlebot đi vào vòng lặp vô tận cho đến khi hết Crawling Budget của site.

III. HẬU QUẢ

  • Website dễ dàng rớt top, rớt traffic đột ngột.

  • Rất khó xác định nguyên nhân nếu chưa gặp qua, dễ bị cuốn vào audit SEO

  • Kiểm tra bằng mắt thường không thể thấy

  • Kiểm tra bằng các công cụ audit onpage cũng không thấy => liên quan cơ chế hoạt động của tool

  • Không chặn bot mà chỉ hiện thị người dùng 1 kiểu rất bình thường, hiển thị cho bot content tàng hình => khi nhận thức được thì site đã rớt

  • Nếu website bị hack chỉ đặt backlink tàng hình chứ không chèn content tàng hình => cực kì khó phát hiện, website cứ liên tục out top không rõ nguyên nhân.

IV. NGUYÊN NHÂN

  • Website/server tồn tại lỗ hổng cho phép attacker chiếm quyền điều khiển và chèn mã độc can thiệp vào mã nguồn website.

  • Khoảng 2 tháng trở lại đây bùng nổ là do có nhiều nhóm hacker trên thế giới (đặc biệt là Trung Quốc) đã phát triển công cụ tấn công tự động quy mô lớn, khai thác vào các lỗi bảo mật của WordPress, Laravel, IIS … Các công cụ này sẽ tự động rà quét, tấn công và chèn mã độc vào các website, sau đó báo cáo kết quả về cho Master Server

  • Các website đã bị tấn công được tận dung vào các mục đích:

  1. Giao cho các team SEO khai thác backlink

  2. Bán các gói backlink edu, gov … trên các diễn đàn underground, hội nhóm telegram…

  3. Bán quyền truy cập vào các mã độc (Web Shell) để tự khai thác.

V. KHẮC PHỤC

  • Buộc phải xác định và xoá được được tất cả các mã độc, backdoor.

  • Truy theo dấu vết mã độc để xác định lỗ hổng của website/hệ thống.

  • Tiến hành cập nhật bản vá, nâng cấp để khắc phục điểm yếu

  • Thường xuyên backup, theo dõi website vì lỗ hổng hôm nay chưa xuất hiện nhưng ngày mai có thể được công bố và bị khai thác, không thể nào ngăn chặn một cách chủ động hoàn toàn được, vì mỗi lỗ hổng có một cách khai thác khác nhau.

Cheers,

Author: Nguyễn Hưng - Nghiện SEO

Link bài viết có video: https://www.facebook.com/groups/nghienseo/posts/1329635487706451/