Các tập đoàn công nghệ lớn liên tiếp tung ra các công cụ có khả năng tạo và chỉnh sửa video ngày càng tinh vi, mở ra thị trường được dự báo tăng trưởng rất nhanh trong những năm tới.
Google giới thiệu Gemini Omni, mô hình AI mới có khả năng tạo video từ văn bản, hình ảnh hoặc âm thanh bằng các câu lệnh ngôn ngữ tự nhiên, kể cả qua giọng nói. Ảnh: youtube.com
Tại hội nghị thường niên Google I/O vừa diễn ra tại Mỹ, Google đã giới thiệu Gemini Omni, mô hình AI mới có khả năng tạo video từ văn bản, hình ảnh hoặc âm thanh bằng các câu lệnh ngôn ngữ tự nhiên, kể cả qua giọng nói. Công cụ này còn cho phép chỉnh sửa video đã tạo bằng cách thay đổi hành động, bổ sung nhân vật, điều chỉnh góc quay hoặc phong cách hình ảnh.
Theo ông Koray Kavukcuoglu, Giám đốc kiến trúc AI của Google, Gemini Omni kết hợp khả năng hiểu các quy luật vật lý với kiến thức về lịch sử, khoa học và bối cảnh văn hóa của hệ thống Gemini. Google kỳ vọng công cụ mới sẽ vượt xa thế hệ Veo3 được hãng ra mắt trước đó.
Việc tạo video bằng AI đòi hỏi năng lực xử lý cao hơn nhiều so với văn bản hoặc âm thanh, khiến đây trở thành lĩnh vực đặc biệt tốn kém. OpenAI từng gây chú ý mạnh với công cụ Sora 2 nhờ khả năng tạo video rất chân thực, nhưng vẫn gặp khó khăn trong việc thương mại hóa do chi phí tính toán quá lớn. Tại Mỹ, công ty khởi nghiệp Runway hiện nổi lên như một đối thủ đáng chú ý của Google.
Được thành lập năm 2018 tại New York, Runway vừa huy động thêm 315 triệu USD và hiện được định giá hơn 5 tỷ USD. Công ty này đang phát triển các “mô hình thế giới”, cho phép AI học cách vận hành của môi trường thực thay vì chỉ học mô tả bằng văn bản. Runway hiện có khách hàng trong lĩnh vực điện ảnh và quảng cáo, trong đó có Lionsgate và AMC Networks, đồng thời mở rộng sang lĩnh vực robot và mô phỏng hình ảnh thực tế.
Tuy nhiên, các đối thủ lớn nhất hiện nay của Mỹ được cho là đang đến từ Trung Quốc. Các công ty như ByteDance với SeeDance, Kuaishou với Kling, Alibaba với HappyHorse hay MiniMax với Hailuo đang phát triển rất nhanh nhờ chi phí sử dụng thấp hơn và tốc độ tung ra phiên bản mới nhanh hơn đáng kể.
Theo giới phân tích, lợi thế lớn của các công ty Trung Quốc nằm ở khả năng khai thác lượng dữ liệu video khổng lồ trong nước; giúp các công cụ AI video của Trung Quốc nhanh chóng cải thiện chất lượng đồng bộ âm thanh, theo dõi chuyển động và ổn định hình ảnh. Một số doanh nghiệp Trung Quốc hiện còn cung cấp mô hình tính phí linh hoạt theo lượt sử dụng hoặc đăng ký giá rẻ nhằm mở rộng nhanh thị phần toàn cầu.
Giới phân tích nhận định cuộc đua phát triển AI tạo video đang trở thành một mặt trận công nghệ mới giữa Mỹ và Trung Quốc, khi lĩnh vực này đang bùng nổ nhờ nhu cầu rất lớn trong quảng cáo, giải trí, thương mại điện tử và nền kinh tế sáng tạo. Theo số liệu của Grand View Research, thị trường AI tạo video toàn cầu đã đạt gần 800 triệu USD năm 2025 và có thể tăng lên khoảng 3,5 tỷ USD vào năm 2033, với tốc độ tăng trưởng trung bình khoảng 20% mỗi năm.
Dù vậy, cả Mỹ và Trung Quốc hiện đều đối mặt sức ép ngày càng lớn liên quan các vấn đề đạo đức và bản quyền trong tạo video bằng AI; khi người dùng sử dụng công cụ AI để tạo video có hình ảnh các ngôi sao nổi tiếng. Trong bối cảnh nguy cơ giả mạo hình ảnh và thông tin ngày càng tăng, nhiều công ty công nghệ đang phát triển các giải pháp truy vết nội dung AI.