Nếu bạn cảm giác mấy ngày gần đây mảng dịch AI trở nên sôi động bất thường thì không nhầm đâu. Ngay sau khi OpenAI công bố ChatGPT Translate, Google cũng nhanh chóng giới thiệu TranslateGemma, một họ mô hình dịch ngôn ngữ hoàn toàn mới, dựa trên nền tảng Gemma 3.
Theo Google, đây là một “bước tiến lớn” trong lĩnh vực dịch thuật mở, khi các mô hình TranslateGemma có thể xử lý tới 55 ngôn ngữ, bao gồm hầu hết các ngôn ngữ phổ biến như Tây Ban Nha, Pháp, Trung Quốc hay Hindi.

Khác với ChatGPT Translate – vốn tập trung vào trải nghiệm người dùng và khả năng giữ đúng giọng điệu, ngữ cảnh – TranslateGemma rõ ràng được sinh ra cho lập trình viên và nhà phát triển. Google không làm một trang web dịch, mà cung cấp thẳng các mô hình AI để ai cũng có thể tải về, tinh chỉnh và tích hợp vào sản phẩm của mình.
TranslateGemma hiện có ba phiên bản, tương ứng với quy mô tham số khác nhau: 4B, 12B và 27B. Điều đáng chú ý là theo Google, bản 12B thậm chí còn vượt trội hơn cả mô hình Gemma 3 27B gốc khi đánh giá trên thang đo WMT24++, một benchmark chuyên cho dịch máy.
Với dân kỹ thuật, điều này cực kỳ quan trọng. Một mô hình nhỏ hơn nhưng cho hiệu năng cao đồng nghĩa với tốc độ nhanh hơn, độ trễ thấp hơn và chi phí hạ tầng rẻ hơn, mà vẫn giữ được độ chính xác.
Google cũng nói rõ định hướng sử dụng cho từng phiên bản. Bản 4B được tối ưu để chạy trên thiết bị di động, bản 12B phù hợp với laptop người dùng phổ thông, còn bản 27B thì cần sức mạnh phần cứng lớn, ví dụ như một GPU NVIDIA H100 trên môi trường đám mây.
Không chỉ dịch văn bản thuần túy, TranslateGemma còn thể hiện khá tốt ở mảng dịch chữ trong hình ảnh. Trong các bài test với bộ dữ liệu Vistra, mô hình này cho kết quả tốt hơn mong đợi, dù Google thừa nhận nó không được huấn luyện chuyên biệt cho tác vụ đó.

Về mặt kỹ thuật, Google tiết lộ họ đạt được “mật độ trí tuệ” cao như vậy nhờ một quy trình huấn luyện hai giai đoạn. Đầu tiên là Supervised Fine-Tuning, nơi Gemma 3 được đào tạo bằng các bản dịch do con người thực hiện kết hợp với dữ liệu tổng hợp chất lượng cao từ Gemini.
Sau đó là giai đoạn Reinforcement Learning, sử dụng nhiều mô hình đánh giá khác nhau cùng các thước đo nâng cao như MetricX-QE và AutoMQM. Mục tiêu là hướng mô hình đến các bản dịch tự nhiên hơn, đúng ngữ cảnh hơn, chứ không chỉ đúng nghĩa.
Hiện tại, toàn bộ các mô hình TranslateGemma đã được phát hành công khai trên Kaggle và Hugging Face. Bất kỳ ai cũng có thể tải về để thử nghiệm, tinh chỉnh hoặc xây dựng sản phẩm dịch thuật của riêng mình.
Nếu đặt lên bàn cân, ChatGPT Translate và TranslateGemma rõ ràng đi theo hai hướng khác nhau. Một bên nhắm đến người dùng cuối, một bên nhắm đến hệ sinh thái phát triển. Nhưng điểm chung là cả Google lẫn OpenAI đều đang cho thấy: cuộc đua dịch ngôn ngữ bằng AI vừa mới bước sang một giai đoạn mới.
Nếu bạn muốn, mình có thể viết thêm một bài so sánh nhanh TranslateGemma vs ChatGPT Translate theo góc nhìn người dùng và developer để ghép thành một series.