DeepSeek đã gây sốc vào tháng trước khi tuyên bố rằng mô hình AI của họ chỉ sử dụng khoảng 1/10 sức mạnh tính toán so với mô hình Llama 3.1 của Meta, thay đổi hoàn toàn quan niệm về việc AI tiêu tốn bao nhiêu năng lượng và tài nguyên để phát triển.
Nếu thông tin này là đúng, nó có thể có tác động lớn đến tác động môi trường của AI. Các ông lớn công nghệ đang gấp rút xây dựng các trung tâm dữ liệu AI khổng lồ, với kế hoạch một số trung tâm sẽ tiêu thụ điện năng tương đương với các thành phố nhỏ. Việc sản xuất lượng điện năng lớn như vậy gây ra ô nhiễm, làm dấy lên lo ngại về việc cơ sở hạ tầng phục vụ AI mới có thể làm trầm trọng thêm biến đổi khí hậu và chất lượng không khí.
Việc giảm thiểu năng lượng cần thiết để huấn luyện và vận hành các mô hình AI có thể giảm bớt căng thẳng đó. Tuy nhiên, vẫn còn quá sớm để đánh giá liệu DeepSeek có phải là một bước ngoặt trong việc giảm thiểu dấu chân môi trường của AI hay không. Điều này phụ thuộc vào cách các đối thủ lớn phản ứng với những đột phá của công ty khởi nghiệp Trung Quốc này, đặc biệt là khi họ có kế hoạch xây dựng các trung tâm dữ liệu mới.
“Có sự lựa chọn trong vấn đề này.”
“Điều này cho thấy AI không nhất thiết phải tiêu tốn quá nhiều năng lượng,” Madalsa Singh, nghiên cứu sinh sau tiến sĩ tại Đại học California, Santa Barbara, chuyên nghiên cứu về hệ thống năng lượng, cho biết.
Cuộc bàn tán về DeepSeek bắt đầu với việc công ty này ra mắt mô hình V3 vào tháng 12, với chi phí huấn luyện cuối cùng chỉ là 5,6 triệu USD và cần 2,78 triệu giờ GPU để huấn luyện trên chip H800 cũ của Nvidia, theo báo cáo kỹ thuật từ công ty. Để so sánh, mô hình Llama 3.1 405B của Meta — dù sử dụng chip H100 mới và hiệu quả hơn — đã cần khoảng 30,8 triệu giờ GPU để huấn luyện. (Chúng ta không biết chính xác chi phí, nhưng ước tính cho Llama 3.1 405B rơi vào khoảng 60 triệu USD và từ 100 triệu đến 1 tỷ USD cho các mô hình tương đương.)
Sau đó, DeepSeek đã ra mắt mô hình R1 vào tuần trước, mà nhà đầu tư mạo hiểm Marc Andreessen gọi là “món quà sâu sắc cho thế giới.” Trợ lý AI của công ty này nhanh chóng leo lên vị trí cao nhất trên các cửa hàng ứng dụng của Apple và Google. Vào thứ Hai, thông tin về việc DeepSeek có thể tạo ra một sự thay thế cho Llama, Gemini và ChatGPT với chi phí chỉ bằng một phần nhỏ đã khiến cổ phiếu của các đối thủ lao dốc.
DeepSeek cho biết họ đã giảm được lượng điện tiêu thụ bằng cách sử dụng phương pháp huấn luyện hiệu quả hơn. Về mặt kỹ thuật, công ty sử dụng chiến lược “không mất phụ trợ.” Singh giải thích rằng phương pháp này đơn giản là chọn lọc phần nào của mô hình cần huấn luyện; bạn không cần huấn luyện toàn bộ mô hình cùng một lúc. Nếu coi mô hình AI như một công ty dịch vụ khách hàng lớn với nhiều chuyên gia, Singh cho biết, phương pháp này giống như việc chỉ mời các chuyên gia phù hợp để giúp đỡ.
Mô hình này cũng tiết kiệm năng lượng trong quá trình suy luận, khi mô hình thực hiện các tác vụ thực tế, thông qua một phương pháp gọi là "key value caching" và nén dữ liệu. Nếu bạn đang viết một bài nghiên cứu, có thể tưởng tượng phương pháp này giống như việc tham khảo các thẻ chỉ mục với tóm tắt cấp cao thay vì phải đọc toàn bộ báo cáo đã được tóm tắt.
Điều Singh đặc biệt lạc quan là các mô hình của DeepSeek chủ yếu là mã nguồn mở, ngoại trừ dữ liệu huấn luyện. Với cách tiếp cận này, các nhà nghiên cứu có thể học hỏi lẫn nhau nhanh chóng và mở ra cơ hội cho các công ty nhỏ tham gia vào ngành công nghiệp. Nó cũng tạo tiền lệ cho sự minh bạch và trách nhiệm hơn, giúp các nhà đầu tư và người tiêu dùng có thể đánh giá chính xác hơn về tài nguyên cần thiết để phát triển một mô hình.
“Chúng ta đã chứng minh rằng những khả năng AI tiên tiến không cần tiêu tốn tài nguyên lớn như vậy, điều này sẽ mở ra không gian cho việc lập kế hoạch cơ sở hạ tầng bền vững hơn,” Singh nói. “Điều này cũng có thể khuyến khích các phòng thí nghiệm AI hiện tại như OpenAI, Anthropic, Google Gemini phát triển các thuật toán và kỹ thuật hiệu quả hơn và vượt qua phương pháp đơn giản là thêm nhiều dữ liệu và sức mạnh tính toán vào các mô hình.”
Tuy nhiên, vẫn còn nhiều sự hoài nghi xung quanh DeepSeek. “Chúng tôi đã đào sâu tìm hiểu về DeepSeek, nhưng rất khó để tìm ra thông tin cụ thể về mức độ tiêu thụ năng lượng của chương trình,” Carlos Torres Diaz, người đứng đầu nghiên cứu năng lượng tại Rystad Energy, cho biết trong một email.
Nếu những gì công ty tuyên bố về việc tiêu thụ năng lượng là đúng, điều này có thể giảm đáng kể mức tiêu thụ năng lượng của các trung tâm dữ liệu. Và trong khi các công ty công nghệ lớn đã ký kết nhiều thỏa thuận mua năng lượng tái tạo, nhu cầu điện năng ngày càng tăng từ các trung tâm dữ liệu vẫn có thể gây cạn kiệt tài nguyên năng lượng tái tạo từ các lưới điện.
Mặc dù các mô hình AI tiết kiệm năng lượng có thể mang lại nhiều lợi ích về môi trường, nhưng có một vấn đề cần xem xét là hiện tượng "nghịch lý Jevons." Theo đó, khi một công nghệ trở nên hiệu quả hơn, khả năng sử dụng nó lại càng tăng. Điều này có thể dẫn đến sự gia tăng tiêu thụ tài nguyên và gây hại cho môi trường.
"Vấn đề là, nếu chúng ta có thể giảm mức tiêu thụ năng lượng của AI xuống 100 lần, liệu có nghĩa là sẽ có 1.000 nhà cung cấp dữ liệu mới tham gia vào và nói rằng, ‘Wow, điều này thật tuyệt, chúng ta sẽ xây dựng thêm 1.000 lần những gì đã dự tính’?” Philip Krein, giáo sư nghiên cứu kỹ thuật điện và máy tính tại Đại học Illinois Urbana-Champaign, nhận xét.
Vẫn còn quá sớm để đưa ra kết luận về sự ảnh hưởng của DeepSeek đối với dự báo tiêu thụ điện năng trong tương lai, nhưng đây là một vấn đề cần theo dõi trong 10 năm tới.