Ngày 17/4, Tổ chức Wikimedia Foundation (đơn vị vận hành Wikipedia) thông báo họ sẽ phát hành bộ dữ liệu văn bản Wikipedia dành riêng cho mục đích huấn luyện trí tuệ nhân tạo, thông qua nền tảng Kaggle – cộng đồng dữ liệu nổi tiếng thuộc sở hữu của Google.
Bộ dữ liệu sẽ khởi đầu với phiên bản tiếng Anh và tiếng Pháp, được định dạng ở dạng JSON, loại bỏ các đoạn mã markdown, tham chiếu và định dạng không cần thiết. Đây là bước đi nhằm cung cấp dữ liệu chuẩn hóa, giúp các nhà phát triển AI không còn phải “cào” trực tiếp từ trang Wikipedia – vốn đang khiến hệ thống của tổ chức quá tải.
Từ tháng 1/2024 đến nay, lưu lượng truy cập không phải con người vào Wikipedia đã tăng 50%, chủ yếu đến từ các hệ thống AI tự động thu thập dữ liệu (bot). Với tư cách là một tổ chức phi lợi nhuận sống nhờ vào quyên góp, Wikimedia không thể tiếp tục chịu đựng chi phí phát sinh do băng thông quá tải.
Theo bà Brenda Flynn – phụ trách đối tác tại Kaggle – việc hợp tác này sẽ giúp dữ liệu Wikipedia tiếp tục được tiếp cận tự do, nhưng một cách gọn gàng, chuẩn hóa và hợp pháp hơn.
Trong bối cảnh AI bùng nổ, dữ liệu văn bản để huấn luyện mô hình ngôn ngữ trở thành tài nguyên thiết yếu, tương tự như dầu mỏ trong cách mạng công nghiệp. Tuy nhiên, nhiều công ty công nghệ đã bị chỉ trích vì xem nhẹ tác quyền và thu thập nội dung không xin phép, từ các nguồn như Chegg, Stack Overflow cho đến các trang tin tức và diễn đàn.
Wikipedia thì khác. Nội dung tại đây được chia sẻ theo giấy phép Creative Commons BY-SA, cho phép sử dụng và chỉnh sửa thương mại miễn phí, miễn là ghi nguồn và giữ nguyên giấy phép. Dù vậy, vẫn có một bộ phận người đóng góp không hài lòng khi nội dung mình viết ra bị khai thác để huấn luyện AI mà không rõ ràng mục đích hoặc lợi ích quay lại cộng đồng.
Wikimedia Foundation cho biết bộ dữ liệu này được phát hành thông qua chương trình “Structured Content” của Wikipedia Enterprise, gói dịch vụ trả phí dành cho người dùng có nhu cầu tái sử dụng dữ liệu với quy mô lớn. Tuy nhiên, ngay cả khi dùng miễn phí trên Kaggle, các nhà phát triển AI vẫn phải tuân thủ điều kiện ghi nguồn và giấy phép đi kèm.