GPTBot đã thu thập thông tin trên Internet: Giải pháp ngăn chặn?

OpenAI hiện đã thu thập thông tin trên Internet bằng GPTBot. Điều này có nghĩa là chủ sở hữu trang web sẽ phải tự nguyện ngăn chặn quyền truy cập của OpenAI vào trang web của mình, thay vì để GPTBOT thu thập cho việc đào tạo.

Trong bối cảnh tranh cãi về việc thu thập thông tin trang web trên Internet mà không có sự đồng ý, OpenAI đã phát hành GPTBot để tự động thu thập dữ liệu từ các trang web. Robot này sẽ thu thập dữ liệu công khai để đào tạo các mô hình trí tuệ nhân tạo (AI) một cách minh bạch và có trách nhiệm, đó là theo lời của công ty openai =)).

Theo tài liệu công bố, OpenAI nói rằng trình thu thập dữ liệu web sẽ loại bỏ các nguồn cần phải đăng nhập bằng tường lửa và cũng loại bỏ thông tin cá nhân cụ thể (PII) hoặc văn bản vi phạm chính sách của họ. Nhà sáng tạo GPT cho rằng việc cho phép sử dụng robot có thể giúp cải thiện độ chính xác và khả năng của các hệ thống AI trong tương lai. Đoạn code để nhận diện GPTBot như sau:

User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

Mặt khác, bạn cũng có thể loại bỏ quyền truy cập của GPTBot vào trang web của bạn bằng cách thêm GPTBot vào robot.txt của trang web. Điều này có nghĩa là chủ sở hữu trang web sẽ phải tự nguyện tắt quyền truy cập của OpenAI vào trang web của họ, thay vì chọn tham gia cho việc đào tạo.

User-agent: GPTBot
Disallow: /

Mặc dù OpenAI đã công nhận việc thu thập thông tin từ Internet để đào tạo các mô hình ngôn ngữ lớn như GPT-4, nhưng vẫn có vẻ như đây chỉ là một cách tiếp cận không hoàn chỉnh để giải quyết các vấn đề đạo đức xoay quanh việc sao chép dữ liệu từ các trang web khác.

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

Một vài cộng đồng bàn tán rằng: “OpenAI thậm chí còn không trích dẫn có mức độ kiểm duyệt. Nó đang tạo ra một công trình phái sinh mà không trích dẫn, do đó làm mờ đi điều đó,” một người dùng đã bày tỏ. Hơn nữa, OpenAI không công nhận các trang web mà họ đã sử dụng để xây dựng các mô hình của mình.

Gần đây, OpenAI cũng đã đăng ký nhãn hiệu cho ‘GPT-5’, gợi ý rằng công ty đang đào tạo phiên bản tiếp theo của GPT-4, theo nhiều báo cáo sẽ gần với trí tuệ nhân tạo tổng hợp (AGI), là mục tiêu của công ty trong suốt thời gian qua. GPTBot rõ ràng sẽ giúp công ty thu thập thêm dữ liệu từ khắp Internet để đào tạo mô hình này. Tuy nhiên, công ty cũng đã ngưng sử dụng Bộ phân loại trí tuệ nhân tạo (AI) của mình để phát hiện văn bản được tạo ra bởi GPT.

Author: #NghiệnSEO (Tổng hợp từ openai và nhiều nguồn khác)

5/5 - (1 bình chọn)