Mô hình AI mới nhất của Google có khả năng sử dụng trình duyệt web tương tự con người

Tập đoàn công nghệ Google vừa chính thức giới thiệu một đột phá mới trong lĩnh vực trí tuệ nhân tạo (AI) với mô hình Gemini 2.5 Computer Use, được thiết kế chuyên biệt để tương tác và điều hướng các trang web thông qua trình duyệt.

Điểm cốt lõi của công nghệ này là khả năng trao quyền cho các tác nhân AI thực hiện các công việc bên trong những giao diện vốn được xây dựng dành riêng cho con người.

Mô hình Gemini 2.5 Computer Use khai thác tối đa khả năng lý luận và hiểu biết thị giác tiên tiến của AI để phân tích chính xác yêu cầu từ người dùng và tự động hoàn thành một chuỗi các tác vụ phức tạp. Đơn cử như việc điền thông tin và gửi một biểu mẫu trực tuyến một cách hoàn chỉnh. Công cụ này được kỳ vọng sẽ trở nên đặc biệt hữu ích trong các lĩnh vực như kiểm thử giao diện người dùng (UI testing) hoặc điều hướng các nền tảng cũ, vốn không có giao diện lập trình ứng dụng (API) hay bất kỳ kết nối trực tiếp nào.

Trước khi được công bố rộng rãi, Google đã âm thầm sử dụng các phiên bản tiền thân của mô hình này cho nhiều tính năng "tác nhân" (agentic features) khác nhau, bao gồm cả AI Mode và dự án nghiên cứu nguyên mẫu mang tên Project Mariner. Dự án Mariner đã ứng dụng các tác nhân AI để tự động hóa các thao tác trong trình duyệt, chẳng hạn như tự động thêm các mặt hàng vào giỏ hàng trên một trang web mua sắm chỉ dựa trên một danh sách nguyên liệu đã cung cấp.

Việc Google ra mắt mô hình mới diễn ra chỉ một ngày sau khi đối thủ chính OpenAI tổ chức sự kiện Dev Day thường niên, nơi họ cũng công bố các ứng dụng mới cho ChatGPT và tiếp tục nhấn mạnh tính năng ChatGPT Agent có khả năng hoàn thành các tác vụ phức tạp thay cho người dùng. Trong khi đó, một đối thủ đáng gờm khác là Anthropic cũng đã giới thiệu phiên bản "sử dụng máy tính" cho mô hình AI Claude từ năm ngoái, cho thấy một cuộc đua ngày càng quyết liệt trong lĩnh vực AI tương tác với máy tính.

Google cũng đã đăng tải một số video trình diễn công cụ mới, mặc dù lưu ý rằng tốc độ thực hiện trong các video đã được tăng nhanh gấp ba lần. Gã khổng lồ công nghệ khẳng định rằng mô hình Gemini 2.5 Computer Use của họ đã chứng minh được sự "vượt trội hơn các đối thủ hàng đầu trên nhiều tiêu chuẩn đo lường về web và di động."

Tuy nhiên, có một điểm khác biệt lớn cần lưu ý: không giống như ChatGPT Agent của OpenAI hay công cụ sử dụng máy tính của Anthropic, mô hình AI mới của Google hiện tại chỉ có quyền truy cập vào trình duyệt web, chứ không phải toàn bộ môi trường máy tính cá nhân. Google lý giải rằng điều này cho thấy mô hình "chưa được tối ưu hóa cho việc kiểm soát cấp độ hệ điều hành máy tính để bàn" và hiện tại chỉ hỗ trợ 13 hành động cơ bản, bao gồm các thao tác cốt lõi như mở trình duyệt web, gõ văn bản và kéo thả các phần tử trên màn hình.

Hiện tại, các nhà phát triển đã có thể bắt đầu tiếp cận Gemini 2.5 Computer Use thông qua Google AI Studio và Vertex AI. Song song với đó, một bản demo cũng đang được cung cấp trên nền tảng Browserbase, nơi người dùng có thể theo dõi cách mô hình này tự động hoàn thành các tác vụ như "Chơi một ván game 2048" hoặc "Duyệt qua Hacker News để tìm các chủ đề thảo luận đang thịnh hành." Sự ra đời của công cụ này báo hiệu một bước tiến quan trọng trong việc chuyển giao quyền thực hiện các thao tác trên giao diện máy tính từ con người sang các tác nhân AI thông minh.