Character.AI vừa hé lộ bước tiến mới trong lĩnh vực video AI với dự án TalkingMachines. Đây là mô hình autoregressive diffusion mới, cho phép tạo ra video nhân vật AI chuyển động miệng và nét mặt theo giọng nói, gần như ngay lập tức, chỉ từ một bức ảnh và tín hiệu âm thanh. Nói cách khác, TalkingMachines có thể giúp người dùng trò chuyện với AI qua video, tương tự trải nghiệm FaceTime.
Tuy nhiên, Character.AI nhấn mạnh rằng công nghệ này vẫn đang trong giai đoạn nghiên cứu. Hiện chỉ có bản báo cáo khoa học và video demo, người dùng chưa thể sử dụng tính năng này trong ứng dụng Character.AI.
TalkingMachines được xây dựng trên nền tảng Diffusion Transformer (DiT) – công nghệ tạo ảnh chi tiết từ “nhiễu trắng”, rồi tinh chỉnh dần cho đến khi đạt kết quả hoàn hảo. Điểm đột phá là Character.AI đã tối ưu tốc độ, giúp quá trình này diễn ra gần như thời gian thực.
Để đạt được điều này, TalkingMachines sử dụng hàng loạt kỹ thuật tiên tiến:
Character.AI khẳng định TalkingMachines không chỉ dừng lại ở việc tạo cử động khuôn mặt. Đây là bước tiến hướng tới các nhân vật AI có thể giao tiếp trực tiếp bằng cả hình ảnh và âm thanh. Mô hình cũng hỗ trợ đa phong cách, từ người thật chân thực, phong cách anime, cho đến avatar 3D, cho phép tạo ra trải nghiệm trò chuyện trực tuyến tự nhiên hơn bao giờ hết.
Dù vậy, tính năng này chưa có mặt trong ứng dụng Character.AI, và vẫn đang trong quá trình nghiên cứu. Nếu được ra mắt, Character.AI sẽ trở thành một trong những công ty tiên phong mang lại trải nghiệm FaceTime với AI – một dấu mốc quan trọng trong cuộc đua AI toàn cầu.
TalkingMachines có tiềm năng tạo ra những cách giao tiếp hoàn toàn mới, biến tương tác với AI thành trải nghiệm sống động, không chỉ qua chữ viết mà còn bằng hình ảnh và âm thanh, gần như một cuộc trò chuyện thật sự.