OpenAI vừa công bố một bước tiến vượt bậc trong khả năng lý luận toán học của trí tuệ nhân tạo: một mô hình ngôn ngữ lớn (LLM) thử nghiệm đã đạt 35/42 điểm trong đề thi Olympic Toán học quốc tế (IMO) năm 2025 – vượt ngưỡng cần thiết để giành huy chương vàng.
Thông tin được kỹ sư Alexander Wei chia sẻ cuối tuần qua trên nền tảng X (Twitter). Theo đó, mô hình có tên mã "Strawberry" đã được "thi" theo đúng chuẩn IMO: hai buổi làm bài, mỗi buổi 4,5 tiếng, không sử dụng Internet hay công cụ hỗ trợ, và phải trình bày lời giải bằng ngôn ngữ tự nhiên.
“Chúng tôi muốn đánh giá khả năng tư duy sáng tạo thực sự của LLM, không chỉ đơn thuần là ghi nhớ hay bắt chước,” Wei chia sẻ. “Mục tiêu là kiểm tra xem mô hình có thể xây dựng các chuỗi lập luận logic phức tạp như một nhà toán học thực thụ hay không.”
Mô hình giải đúng 5 trong số 6 bài toán, với điểm số được chấm độc lập bởi ba giám khảo từng đoạt huy chương IMO. Theo kỹ sư Noam Brown của OpenAI, điều đáng chú ý là “mô hình đã duy trì được dòng tư duy logic trong thời gian dài – điều từng là điểm yếu cố hữu của AI.”
CEO Sam Altman cũng lên tiếng xác nhận đây là một phần trong quá trình hướng tới trí tuệ nhân tạo tổng quát (AGI), đồng thời làm rõ rằng mô hình này vẫn đang ở giai đoạn nghiên cứu và chưa có kế hoạch thương mại hóa trong thời gian ngắn hạn.
Olympic Toán học quốc tế là một trong những kỳ thi học thuật khắt khe nhất thế giới dành cho học sinh dưới 20 tuổi, bao gồm các lĩnh vực như hình học, đại số, tổ hợp và số học sơ cấp. Trong nhiều năm, khả năng giải đề IMO từng được xem là “vùng cấm” với các hệ thống AI.
Theo Business Insider, bước tiến này không chỉ thể hiện tốc độ phát triển nhanh chóng của AI trong lĩnh vực toán học, mà còn cho thấy tiềm năng rất lớn của các mô hình ngôn ngữ trong việc xử lý tư duy logic và sáng tạo – vốn là nền tảng cho nhiều lĩnh vực học thuật và khoa học.