Mỹ Khang Mỹ Khang
19/04/2025 06:27:59

Wikipedia phát hành bộ dữ liệu riêng để huấn luyện AI

Trước áp lực từ lượng bot truy cập khổng lồ nhằm thu thập dữ liệu để huấn luyện AI, Wikipedia đã chính thức hợp tác với nền tảng Kaggle (thuộc Google) để phát hành bộ dữ liệu chuẩn hóa dành riêng cho các nhà phát triển AI. Đây là nỗ lực nhằm giảm tải cho hệ thống và định hướng việc sử dụng dữ liệu minh bạch, đúng giấy phép.

Wikipedia huấn luyện AI, dữ liệu Wikipedia AI, Kaggle và Wikimedia, bot thu thập dữ liệu, giấy phép Creative Commons

Ngày 17/4, Tổ chức Wikimedia Foundation (đơn vị vận hành Wikipedia) thông báo họ sẽ phát hành bộ dữ liệu văn bản Wikipedia dành riêng cho mục đích huấn luyện trí tuệ nhân tạo, thông qua nền tảng Kaggle – cộng đồng dữ liệu nổi tiếng thuộc sở hữu của Google.

Bộ dữ liệu sẽ khởi đầu với phiên bản tiếng Anh và tiếng Pháp, được định dạng ở dạng JSON, loại bỏ các đoạn mã markdown, tham chiếu và định dạng không cần thiết. Đây là bước đi nhằm cung cấp dữ liệu chuẩn hóa, giúp các nhà phát triển AI không còn phải “cào” trực tiếp từ trang Wikipedia – vốn đang khiến hệ thống của tổ chức quá tải.

Từ tháng 1/2024 đến nay, lưu lượng truy cập không phải con người vào Wikipedia đã tăng 50%, chủ yếu đến từ các hệ thống AI tự động thu thập dữ liệu (bot). Với tư cách là một tổ chức phi lợi nhuận sống nhờ vào quyên góp, Wikimedia không thể tiếp tục chịu đựng chi phí phát sinh do băng thông quá tải.

Theo bà Brenda Flynn – phụ trách đối tác tại Kaggle – việc hợp tác này sẽ giúp dữ liệu Wikipedia tiếp tục được tiếp cận tự do, nhưng một cách gọn gàng, chuẩn hóa và hợp pháp hơn.

Trong bối cảnh AI bùng nổ, dữ liệu văn bản để huấn luyện mô hình ngôn ngữ trở thành tài nguyên thiết yếu, tương tự như dầu mỏ trong cách mạng công nghiệp. Tuy nhiên, nhiều công ty công nghệ đã bị chỉ trích vì xem nhẹ tác quyền và thu thập nội dung không xin phép, từ các nguồn như Chegg, Stack Overflow cho đến các trang tin tức và diễn đàn.

Wikipedia thì khác. Nội dung tại đây được chia sẻ theo giấy phép Creative Commons BY-SA, cho phép sử dụng và chỉnh sửa thương mại miễn phí, miễn là ghi nguồn và giữ nguyên giấy phép. Dù vậy, vẫn có một bộ phận người đóng góp không hài lòng khi nội dung mình viết ra bị khai thác để huấn luyện AI mà không rõ ràng mục đích hoặc lợi ích quay lại cộng đồng.

Wikimedia Foundation cho biết bộ dữ liệu này được phát hành thông qua chương trình “Structured Content” của Wikipedia Enterprise, gói dịch vụ trả phí dành cho người dùng có nhu cầu tái sử dụng dữ liệu với quy mô lớn. Tuy nhiên, ngay cả khi dùng miễn phí trên Kaggle, các nhà phát triển AI vẫn phải tuân thủ điều kiện ghi nguồn và giấy phép đi kèm.

 


   
0 bình luận     0 lượt thích

Mạng xã hội Men TV - Men Trending Vietnam hướng đến chia sẻ và lan tỏa lối sống tích cực, giàu nghị lực, bản lĩnh của người đàn ông Việt Nam.
Cơ quan chủ quản: VN TELECOM
Địa chỉ: Tầng 6 Toà nhà Đa năng, Số 169 Nguyễn Ngọc Vũ, Quận Cầu Giấy, TP. Hà Nội
Giấy phép hoạt động mạng xã hội số 715/GP-BTTTT do Bộ TTTT cấp ngày 28/12/2015.
Chịu trách nhiệm nội dung: Nguyễn Sĩ Nông.
Văn phòng TP.HCM: 416/43/32 Dương Quảng Hàm, Phường 5, Quận Gò Vấp, TP. Hồ Chí Minh.
Hotline: 0901.868.399
Truyền thông: 0932196959(Mr. Hiếu Thượng)
Email: mentv.social@gmail.com