Google vừa công bố một tính năng mới có tên “bộ nhớ đệm ẩn” (implicit caching) trong dịch vụ Gemini API. Đây là một cách thông minh để giảm chi phí sử dụng trí tuệ nhân tạo (AI), đặc biệt khi người dùng gửi nhiều yêu cầu có nội dung lặp lại.
Tính năng này hoạt động tự động, không cần lập trình viên phải thiết lập gì thêm. Khi hệ thống phát hiện phần mở đầu của một yêu cầu trùng với những yêu cầu trước đó, nó sẽ tận dụng thông tin đã xử lý sẵn và giảm chi phí cho người dùng. Theo Google, nếu yêu cầu giống nhau, người dùng có thể tiết kiệm đến 75% chi phí.
Trước đây, Google từng cung cấp một phiên bản bộ nhớ đệm nhưng buộc lập trình viên phải tự xác định các yêu cầu lặp lại – cách làm này vừa thủ công vừa mất thời gian. Nhiều người phàn nàn rằng hệ thống này không hiệu quả, đôi khi khiến hóa đơn API tăng bất ngờ. Sau các phản ánh này, đội ngũ Gemini đã cam kết cải thiện.
Giờ đây, với bộ nhớ đệm ẩn, hệ thống tự động nhận biết các phần giống nhau trong yêu cầu mà không cần lập trình viên can thiệp. Tính năng này mặc định được bật cho hai phiên bản AI mới nhất của Google là Gemini 2.5 Pro và Gemini 2.5 Flash.
Theo tài liệu của Google, tính năng này sẽ áp dụng nếu phần đầu của yêu cầu có ít nhất 1.024 token đối với 2.5 Flash hoặc 2.048 token đối với 2.5 Pro. (Một ngàn token tương đương khoảng 750 từ.)
Google cũng khuyên các nhà phát triển nên đặt phần thông tin lặp lại ở đầu yêu cầu, còn phần thay đổi thì đưa xuống dưới, để tăng cơ hội hệ thống nhận ra và kích hoạt giảm giá.
Tuy nhiên, hiện tại Google chưa công bố số liệu kiểm chứng từ bên thứ ba để chứng minh mức tiết kiệm này là chính xác, nên cộng đồng lập trình viên vẫn đang theo dõi xem tính năng mới thực sự hiệu quả đến đâu.
Dù còn cần thời gian kiểm nghiệm, “bộ nhớ đệm ẩn” được xem là bước đi đúng hướng, giúp các nhà phát triển giảm chi phí khi sử dụng AI – một vấn đề đang được rất nhiều người quan tâm.