Đầu tháng 12, Google đã công bố mô hình AI Gemini dự kiến sẽ được tích hợp cho một loạt sản phẩm của công ty, từ chatbot Bard đến các mẫu điện thoại Pixel. Theo Google, Gemini là mô hình có khả năng tổng quát xuất sắc nhất mà họ từng phát triển. Thậm chí, Google còn tuyên bố rằng Gemini sẽ giúp AI “hữu ích hơn cho mọi người dùng”.
Theo Google, Gemini sẽ có ba phiên bản: Ultra, Pro và Nano - mỗi loại được thiết kế cho những mục đích sử dụng khác nhau. Song chúng đều sẽ là các mô hình đa phương thức, nghĩa là tất cả các phiên bản Gemini sau này đều có thể xử lý nhiều loại dữ liệu đầu vào như văn bản, mã, âm thanh, hình ảnh... Hiện chỉ có bản Ultra có những khả năng này.
Trong khi Gemini Ultra được thiết kế cho các nhu cầu hiệu suất xử lý cực kỳ cao như trong các trung tâm dữ liệu, Gemini Nano lại được điều chỉnh nhỏ gọn, phù hợp với các sản phẩm điện thoại thông minh (smartphone).
Còn phiên bản Gemini Pro sẽ được tích hợp vào Bard. Đây dự kiến là phiên bản “vừa đủ” nhất của Gemini: xử lý thông tin nhanh, hiệu quả trong khi đảm bảo thực hiện các tác vụ phức tạp tốt nhất có thể.
Việc nâng cấp sẽ được triển khai theo hai giai đoạn. Trong giai đoạn đầu tiên, Google sẽ tích hợp phiên bản Gemini Pro vào Bard để nâng cao kỹ năng đàm thoại của chatbot này. Điều này sẽ cải thiện khả năng hiểu câu hỏi của Bard, giúp nó đưa ra các câu trả lời phù hợp và có chiều sâu nhất định. Sang giai đoạn hai diễn ra vào đầu năm tới, Bard sẽ được tiếp cận Gemini Ultra - phiên bản mạnh mẽ và có khả năng xử lý dữ liệu tốt nhất. Thay vì chỉ phản hồi người dùng thông qua văn bản như các phiên bản thấp hơn, Gemini Ultra có thể đưa ra các câu trả lời bằng hình ảnh, âm thanh và video.
Google đang nỗ lực đẩy mạnh phát triển các công nghệ AI khi vị thế thống trị của ChatGPT trên thị trường AI tạo sinh là không thể bàn cãi. Hồi đầu năm, Google ra mắt Bard khá đình đám như lời đáp trả đối với ChatGPT của OpenAI. Tuy nhiên, người dùng nhanh chóng nhận thấy phản hồi của Bard còn hạn chế, không chính xác và dễ mắc lỗi. Điều này đã dẫn đến nhiều lời chỉ trích trên mạng xã hội về khả năng kém hơn của Bard so với các đối thủ.
Với Gemini, Google đặt nhiều hy vọng có thể giải quyết những thiếu sót này của Bard, đồng thời chấm dứt sự thống trị thị trường của ChatGPT. Công ty đã đưa ra những tuyên bố khá táo bạo về khả năng của Gemini. Thậm chí, Google cho rằng Gemini sẽ làm lu mờ GPT-4 – mô hình ngôn ngữ lớn của ChatGPT về mọi mặt.
Dù vậy, giới quan sát vẫn đặt câu hỏi liệu Gemini có đủ khả năng để vượt qua ChatGPT hay không.
Ban đầu khi mới đề cập tới Gemini hồi tháng Năm, Google sử dụng khả năng tạo hình ảnh để phân biệt mô hình này với ChatGPT. Nhưng vào ngày 25/9, OpenAI đã thông báo rằng người dùng sẽ có thể nhập các truy vấn bằng giọng nói và hình ảnh vào ChatGPT. Nói cách khác, OpenAI cũng đang thử nghiệm cách tiếp cận mô hình đa phương thức như Gemini.
Tuy nhiên, điểm khác biệt rất đáng chú ý giữa hai mô hình này là kho dữ liệu đào tạo độc quyền khổng lồ của Google. Gemini có thể xử lý dữ liệu được lấy trên một loạt các dịch vụ, bao gồm công cụ tìm kiếm Google Search, nền tảng chia sẻ video YouTube, ứng dụng đọc sách Google Books cùng ứng dụng tra cứu tài liệu nghiên cứu Google Scholar.
Việc sử dụng những dữ liệu độc quyền này để đào tạo các mô hình Gemini có thể mang lại lợi thế khác biệt về độ tinh vi của câu trả lời và suy luận mà mô hình có thể đưa ra cho người dùng. Điều này đặc biệt đáng chú ý nếu các thông tin ban đầu rằng số lượng dữ liệu dùng để đào tạo Gemini nhiều gấp đôi GPT-4 là chính xác.
Rõ ràng, Google đang chịu áp lực phải nhanh chóng cải tiến Bard sau khi phiên bản ban đầu của họ tỏ ra kém cỏi so với các chatbot như ChatGPT. Những đánh giá ban đầu cho rằng Bard có nhiều trục trặc và hạn chế đã làm tổn hại đến danh tiếng của Google trong lĩnh vực AI. Bằng cách nâng cấp với Gemini, Google đặt mục tiêu xây dựng lại hình ảnh của Bard và chứng minh rằng họ có thể cạnh tranh trong lĩnh vực AI tạo sinh.
Tuy nhiên, rủi ro vẫn còn. Giống như tất cả các mô hình ngôn ngữ lớn khác, Gemini có khả năng truyền bá thông tin sai lệch và nội dung độc hại. Google khẳng định rằng họ đã tiến hành thử nghiệm nghiêm ngặt để xác định và ngăn chặn các kết quả có hại phát sinh từ việc mọi người sử dụng Gemini. Song chính công ty cũng thừa nhận đây là một thách thức lớn. Vì bản chất đa phương thức của Gemini có nghĩa là hai dữ liệu đầu vào dường như vô hại - chẳng hạn như văn bản và hình ảnh - có thể được kết hợp để tạo ra kết quả gây nguy hại đối với người dùng.
Nếu Gemini thực sự nâng tầm Bard như hứa hẹn của Google, “ông lớn” này vẫn có thể lấy lại vị thế đã mất trước các đối thủ AI. Với những tiến bộ nhanh chóng hiện thời trong lĩnh vực AI tạo sinh, cuộc đua giành vị thế thống trị vẫn còn rộng mở và kéo dài.