Character.AI hé lộ TalkingMachines tạo video trò chuyện như FaceTime

Character.AI vừa công bố nghiên cứu TalkingMachines – mô hình AI có thể tạo video nhân vật trò chuyện theo thời gian thực chỉ từ ảnh và giọng nói. Công nghệ này hứa hẹn mở ra kỷ nguyên giao tiếp “kiểu FaceTime” với AI, dù hiện tại vẫn đang ở giai đoạn nghiên cứu.

Character.AI, TalkingMachines, video AI, FaceTime, Diffusion Transformer

Character.AI vừa hé lộ bước tiến mới trong lĩnh vực video AI với dự án TalkingMachines. Đây là mô hình autoregressive diffusion mới, cho phép tạo ra video nhân vật AI chuyển động miệng và nét mặt theo giọng nói, gần như ngay lập tức, chỉ từ một bức ảnh và tín hiệu âm thanh. Nói cách khác, TalkingMachines có thể giúp người dùng trò chuyện với AI qua video, tương tự trải nghiệm FaceTime.

Tuy nhiên, Character.AI nhấn mạnh rằng công nghệ này vẫn đang trong giai đoạn nghiên cứu. Hiện chỉ có bản báo cáo khoa học và video demo, người dùng chưa thể sử dụng tính năng này trong ứng dụng Character.AI.

Công nghệ đứng sau TalkingMachines

TalkingMachines được xây dựng trên nền tảng Diffusion Transformer (DiT) – công nghệ tạo ảnh chi tiết từ “nhiễu trắng”, rồi tinh chỉnh dần cho đến khi đạt kết quả hoàn hảo. Điểm đột phá là Character.AI đã tối ưu tốc độ, giúp quá trình này diễn ra gần như thời gian thực.

Để đạt được điều này, TalkingMachines sử dụng hàng loạt kỹ thuật tiên tiến:

Flow-Matched Diffusion: Huấn luyện AI trên nhiều dạng chuyển động, từ biểu cảm gương mặt tinh tế cho đến cử chỉ lớn, giúp nhân vật AI di chuyển tự nhiên hơn.
Audio-Driven Cross Attention: Cho phép AI không chỉ “nghe” lời nói mà còn hiểu được nhịp điệu, khoảng ngắt, âm điệu trong giọng nói, từ đó đồng bộ cử động miệng, gật đầu hay chớp mắt với âm thanh.
Sparse Causal Attention: Tối ưu xử lý khung hình video để giảm chi phí tính toán.
Asymmetric Distillation: Giúp tạo video theo thời gian thực, mang đến trải nghiệm như một cuộc gọi FaceTime.

Character.AI khẳng định TalkingMachines không chỉ dừng lại ở việc tạo cử động khuôn mặt. Đây là bước tiến hướng tới các nhân vật AI có thể giao tiếp trực tiếp bằng cả hình ảnh và âm thanh. Mô hình cũng hỗ trợ đa phong cách, từ người thật chân thực, phong cách anime, cho đến avatar 3D, cho phép tạo ra trải nghiệm trò chuyện trực tuyến tự nhiên hơn bao giờ hết.

Dù vậy, tính năng này chưa có mặt trong ứng dụng Character.AI, và vẫn đang trong quá trình nghiên cứu. Nếu được ra mắt, Character.AI sẽ trở thành một trong những công ty tiên phong mang lại trải nghiệm FaceTime với AI – một dấu mốc quan trọng trong cuộc đua AI toàn cầu.

TalkingMachines có tiềm năng tạo ra những cách giao tiếp hoàn toàn mới, biến tương tác với AI thành trải nghiệm sống động, không chỉ qua chữ viết mà còn bằng hình ảnh và âm thanh, gần như một cuộc trò chuyện thật sự.