Tech News Daily Tech News Daily
19/04/2025 06:51:43

Thuật ngữ “khoa học ma” ra đời từ lỗi quét tài liệu của AI

Một cụm từ nghe có vẻ rất chuyên môn – vegetative electron microscopy – thực chất chỉ là kết quả của một lỗi nhỏ khi quét tài liệu cũ. Nhưng điều bất ngờ là trí tuệ nhân tạo đã học theo và lan truyền sai lầm đó ngày càng sâu rộng trong giới khoa học và công chúng.

AI tạo lỗi, khoa học giả, vegetative electron microscopy, lỗi quét tài liệu, hóa thạch số, CommonCrawl, mô hình ngôn ngữ sai sót

Thật khó tin khi một lỗi nhỏ từ một bài báo khoa học xuất bản vào năm 1959 lại có thể tạo ra một khái niệm khoa học không hề tồn tại – rồi từ đó lan rộng qua các bài báo, công cụ AI và thậm chí cả những tạp chí bình duyệt. “Vegetative electron microscopy” là một ví dụ điển hình cho kiểu sai sót tưởng chừng vô hại nhưng lại trở thành “hóa thạch số” – một lỗi số hóa được ghi nhớ và lặp đi lặp lại bởi các mô hình ngôn ngữ trí tuệ nhân tạo. Theo trang Retraction Watch, nguyên nhân bắt nguồn từ cách phần mềm quét văn bản cũ đã hiểu nhầm bố cục hai cột, dẫn đến việc gộp hai dòng không liên quan thành một cụm từ nghe rất “hàn lâm” nhưng hoàn toàn vô nghĩa.

Thật trớ trêu, cụm từ này đã bắt đầu xuất hiện lại gần đây trong nhiều bài nghiên cứu khoa học, đặc biệt là từ Iran. Theo các nhà nghiên cứu, một lỗi dịch thuật từ tiếng Farsi có thể đã tiếp tay cho việc “tái sinh” thuật ngữ này, khi từ “vegetative” và “scanning” trong tiếng Ba Tư chỉ khác nhau một chấm nhỏ. Chính sự trùng hợp này đã giúp cụm từ sai quay trở lại, và lần này được AI học theo, lặp lại trong các phản hồi và văn bản sinh ra bởi mô hình ngôn ngữ.

Nhóm nghiên cứu đã thử nghiệm bằng cách đưa một phần nội dung gốc từ các bài báo cũ vào các mô hình AI khác nhau, và kết quả cho thấy hầu hết các mô hình mới, bao gồm cả GPT-4o và Claude 3.5, đều tiếp tục hoàn tất câu bằng cụm từ sai này. Trong khi đó, những mô hình cũ như GPT-2 hay BERT lại không mắc lỗi, từ đó cho thấy “nhiễm bẩn dữ liệu” xảy ra trong giai đoạn huấn luyện các mô hình gần đây. Nguồn dữ liệu khả nghi nhất chính là CommonCrawl – một kho dữ liệu khổng lồ thu thập từ internet, vốn được sử dụng phổ biến trong đào tạo các hệ thống AI hiện nay.

Điều đáng lo ngại hơn là khi các tập dữ liệu huấn luyện của AI có quy mô quá lớn, việc phát hiện và sửa lỗi như thế này trở nên gần như bất khả thi. Ngoài ra, nhiều công ty AI hiện nay từ chối chia sẻ nguồn dữ liệu họ dùng để huấn luyện, khiến việc kiểm tra chéo và cải thiện chất lượng mô hình gặp rất nhiều trở ngại. Vấn đề còn phức tạp hơn khi nhiều tạp chí khoa học cũng trở nên dễ dãi trong việc kiểm định nội dung. Một số nhà xuất bản ban đầu thậm chí còn cố gắng bảo vệ cho tính hợp lý của thuật ngữ sai này, trước khi phải đính chính sau khi bị chỉ trích.

AI tạo lỗi, khoa học giả, vegetative electron microscopy, lỗi quét tài liệu, hóa thạch số, CommonCrawl, mô hình ngôn ngữ sai sót

Một trường hợp khác cũng khiến dư luận ngỡ ngàng là một bài viết bị thu hồi do chứa hình ảnh mô phỏng cơ quan sinh dục chuột – hoàn toàn do AI tạo ra – và không có bất kỳ cơ sở khoa học nào. Hiện tượng “khoa học rác” đang ngày càng phổ biến trên Google Scholar, tạo ra rủi ro thông tin nghiêm trọng cho cả giới nghiên cứu và công chúng.

Trí tuệ nhân tạo vẫn là một công cụ tiềm năng trong lĩnh vực khoa học, nhưng nếu không được kiểm soát chặt chẽ, nó có thể trở thành phương tiện khuếch tán thông tin sai lệch mà khó ai có thể gỡ bỏ. Những lỗi tưởng chừng như nhỏ nhặt đang ngày càng được “khắc sâu” vào tri thức số, và một khi chúng đã thành hình trong các mô hình AI, việc xóa bỏ chúng là vô cùng gian nan.


   
0 bình luận     0 lượt thích

Mạng xã hội Men TV - Men Trending Vietnam hướng đến chia sẻ và lan tỏa lối sống tích cực, giàu nghị lực, bản lĩnh của người đàn ông Việt Nam.
Cơ quan chủ quản: VN TELECOM
Địa chỉ: Tầng 6 Toà nhà Đa năng, Số 169 Nguyễn Ngọc Vũ, Quận Cầu Giấy, TP. Hà Nội
Giấy phép hoạt động mạng xã hội số 715/GP-BTTTT do Bộ TTTT cấp ngày 28/12/2015.
Chịu trách nhiệm nội dung: Nguyễn Sĩ Nông.
Văn phòng TP.HCM: 416/43/32 Dương Quảng Hàm, Phường 5, Quận Gò Vấp, TP. Hồ Chí Minh.
Hotline: 0901.868.399
Truyền thông: 0932196959(Mr. Hiếu Thượng)
Email: mentv.social@gmail.com