Cách sử dụng Xuất dữ liệu hàng loạt (Bulk Data Export) của Search Console

Trong tháng 2/2023 Daniel Waisberg (Search Advocate tại Google) đã trình bày một video chuyên sâu về xuất dữ liệu hàng loạt (Bulk Data Export), một tính năng cho phép bạn xuất, lưu trữ và phân tích dữ liệu Search Console. Giải pháp này sẽ giúp việc quản lý khối lượng dữ liệu lớn trở nên dễ dàng hơn.

Highlight

  • Google Search Console giới thiệu tính năng xuất dữ liệu hàng loạt (Bulk Data Export) cho phép người dùng quản lý và phân tích khối lượng dữ liệu lớn thông qua Google BigQuery.

  • Để thực hiện hiệu quả bạn phải làm quen với Google Platform, BigQuery và Search Console. Có thể sẽ phát sinh thêm chi phí khi trích xuất dữ liệu hàng loạt.

  • Lợi ích của tính năng nâng cao này là bạn có thể trích xuất dữ liệu không giới hạn, gồm công cụ giám sát qua BigQuery. Để ngừng tích lũy dữ liệu bạn cần phải hủy kích hoạt.

Tổng quan về các cách xuất dữ liệu phổ biến hiện tại

Trước khi giới thiệu tính năng mới này chúng ta cùng xem lại hiện tại có những tính năng xuất dữ liệu nào nhé.

  • Phương pháp 1: Đây là cách dễ nhất đó là thông qua Giao diện Google Search Console bạn có thể xuất trực tiếp tối đa 1.000 hàng dữ liệu chỉ bằng một nhấp chuột đơn giản vào nút xuất.
  • Phương pháp 2: Sử dụng Looker Studio và API sẽ là giải pháp tiếp theo, chúng phù hợp những ai yêu cầu khối lượng dữ liệu lớn. Cả hai kênh đều cho phép truy xuất dữ liệu hiệu suất, dữ liệu kiểm tra URL, sơ đồ trang web (sitemaps), và dữ liệu trang web với giới hạn lên đến 50.000 hàng.

Giới thiệu Xuất dữ liệu hàng loạt (Bulk Data Export)

Phương pháp xuất dữ liệu tiên tiến nhất hiện nay từ Search Console (có thể sẽ là giải pháp cuối cùng) là xuất dữ liệu hàng loạt.

Với tính năng này bạn có thể trích xuất lượng lớn dữ liệu thông qua Google BigQerry mà không bị giới hạn số lượng hàng. Và tất nhiên đây sẽ là giải pháp “cứu cánh” cho các website lớn có nhiều trang hoặc lưu lượng truy cập khủng.

Waisberg phát biểu rằng “Bulk Data Export là quá trình xuất hàng ngày theo lịch trình đối với dữ liệu hiệu suất Search Console của bạn. Nó sẽ bao gồm tất cả dữ liệu được Search Console sử dụng để tạo báo cáo hiệu suất. Dữ liệu xuất sang Google BigQuery, nơi bạn có thể chạy các truy vấn SQL để phân tích dữ liệu nâng cao hay thậm chí xuất sang các hệ thống khác.”

Cách thiết lập xuất dữ liệu hàng loạt

Với sức mạnh và lợi ích mang lại thì việc ứng dụng sẽ phức tạp hơn các cách hiện tại, tuy nhiên bạn sẽ được hướng dẫn từng bước dưới đây. Trước tiên bạn cần nắm rõ kiến thức hiện có về Google Cloud Platform, BigQuery và Search Console. Và một điều nữa là nó có thể không miễn phí. Vì vậy hãy cân nhắc và xem xét các khoản phí tiềm ẩn trước khi thiết lập một lần xuất mới.

Hai bước thiết lập dữ liệu hàng loạt liên quan đến Google Cloud và Search Console:

Bước 1: Trong Google Cloud

  1. Mở Google Cloud Console của bạn và chuyển sang dự án bạn đang cần xuất dữ liệu sang.
  2. Chọn thanh bên chuyển hướng APIs & Services > Bật APIs & Services và bật BigQuery API (nếu chưa được bật).

Thiết lập xuất dữ liệu hàng loạt trong Google Cloud 1

Thiết lập xuất dữ liệu hàng loạt trong Google Cloud

  1. Tại thanh bên Chọn IAM & Admin, chuyển hướng IAM và nhấp vào + GRANT ACCESS và dán search-console-data-export@system.gserviceaccount.com vào mục New Principals (Nguyên tắc mới).

Thiết lập dữ liệu hàng loạt trong Google Cloud 2 Thiết lập dữ liệu hàng loạt trong Google Cloud 3

  1. Cấp hai vai trò cho tài khoản này: Người dùng công việc BigQuery (BigQuery User) và Trình chỉnh sửa dữ liệu BigQuery (BigQuery Data Editor), sau đó nhấn Lưu.

Thiết lập dữ liệu hàng loạt trong Google Cloud 3

Bước 2: Trong Search Console

Thiết lập xuất dữ liệu hàng loạt trong Search Console

  1. Chọn Cài đặt > xuất dữ liệu hàng loạt (Bulk data export).
  2. Nhập ID dự án Google Cloud của bạn vào trường ID dự án Cloud.
  3. Chọn một tên tập dữ liệu (dataset name). Mặc định là ‘searchconsole’.
  4. Chọn một vị trí cho tập dữ liệu của bạn. Điều này cần chắn vì sẽ khó thay đổi sau này.
  5. Nhấp vào Tiếp tục để bắt đầu xuất. Lần xuất đầu tiên sẽ diễn ra tối đa 48 giờ sau khi cấu hình thành công.
  6. Sau khi tạo bản, đặt hết hạn phân vùng (partition expiration) nếu cần nhưng tránh thay đổi lược đồ (schema).
  7. Đối với dữ liệu lịch sử trước khi thiết lập ban đầu, hãy sử dụng API Search Console hoặc báo cáo.

Giám sát & quản lý xuất dữ liệu

Hệ thống xuất dữ liệu mới có tính năng tích hợp sẵn cho phép bạn theo dõi quá trình xuất dữ liệu bằng BigQuery. Ví dụ: Bạn có thể theo dõi trích xuất (export) bằng bảng nhật ký (log table) trích xuất.

Lưu ý rằng, dữ liệu sẽ tiếp tục được tích lũy vô thời hạn trừ khi bạn đặt thời gian hết hạn. Quá trình trích xuất sẽ tiếp tục cho đến khi được hủy kích hoạt theo cách thủ cộng hoặc Search Console gặp sự cố. Trong trường hợp có bất kỳ lỗi nào, Search Console sẽ thông báo cho tất cả chủ sở hữu sản phẩm.

Tổng kết

Tính năng xuất dữ liệu hàng loạt có thể nâng cao cách bạn quản lý lượng lớn dữ liệu Search Console. 

Nguồn: Youtube

Author: Nguyễn Duy Lâm – Group Nghiện SEO

4.5/5 - (2 bình chọn)