Ngày 12/3, Google chính thức công bố hai nền tảng AI dành cho robot: Gemini Robotics và Gemini Robotics-ER. Đây được xem là bước tiến quan trọng trong việc phát triển robot thông minh, giúp chúng tương tác với môi trường xung quanh linh hoạt và chính xác hơn.
Trong đó, Gemini Robotics là mô hình Thị giác - Ngôn ngữ - Hành động (Vision-Language-Action - VLA), cho phép robot nhận diện hình ảnh, hiểu lệnh bằng ngôn ngữ tự nhiên và thực hiện hành động tương ứng. Công nghệ này giúp robot có thể cầm nắm đồ vật, di chuyển trong không gian thực tế và thực hiện các nhiệm vụ phức tạp.
Google DeepMind đã chia sẻ nhiều đoạn video cho thấy khả năng ấn tượng của Gemini Robotics. Các robot có thể gấp giấy origami, cất kính vào hộp hay cho đồ ăn vào túi zip và kéo khóa chỉ bằng các câu lệnh đơn giản. Điều đặc biệt là chúng có thể thích nghi nhanh khi có sự thay đổi bất ngờ, như một vật thể rơi khỏi tay hoặc bị di chuyển bởi con người.
Theo Google, AI điều khiển robot cần có ba yếu tố cốt lõi:
“Gemini Robotics là một bước tiến quan trọng trong cả ba khía cạnh này, mở ra tương lai của những robot đa năng và hữu ích hơn,” Google nhấn mạnh.
Song song với Gemini Robotics, Google cũng giới thiệu Gemini Robotics-ER – một phiên bản nâng cấp với khả năng suy luận thực tế (Embodied Reasoning - ER). Mô hình này giúp robot nhận thức không gian tốt hơn, phân tích hình ảnh 3D và thậm chí học hỏi trực tiếp từ con người.
Ví dụ, khi nhìn thấy một cốc cà phê, robot có thể suy luận cách cầm cốc và tự động thực hiện động tác chính xác. Nếu không thể tạo ra mã lệnh phù hợp, nó sẽ quan sát con người làm mẫu, sau đó tự học theo chỉ sau vài lần quan sát.
Gemini Robotics-ER cũng tích hợp với hệ thống an toàn và có khả năng phản hồi mọi tình huống. Để đảm bảo robot hoạt động đúng hướng, Google DeepMind còn phát triển bộ dữ liệu Asimov và xây dựng một “hiến pháp robot”, giúp AI tuân theo các quy tắc đạo đức và an toàn.
Theo báo cáo của Goldman Sachs Research, phần cứng robot hiện đã đạt mức sẵn sàng cho thương mại hóa với những cải tiến về camera, cảm biến, bộ truyền động và pin. Tuy nhiên, phần mềm điều khiển vẫn là rào cản lớn. Một nghiên cứu trên Foreign Policy tháng 1/2025 nhận định rằng "bộ não AI" của robot chiếm đến 80% giá trị của nó, và đây chính là lĩnh vực Mỹ đang có lợi thế vượt trội.
Với sự ra đời của Gemini Robotics, Google đang từng bước giải quyết bài toán về phần mềm, giúp robot trở nên thông minh, linh hoạt và gần gũi hơn trong cuộc sống hàng ngày.