Hơn một năm sau khi ChatGPT ra đời, cuối cùng Google đã có thể ra đòn đáp trả chính thức với đối thủ khi giới thiệu mô hình AI Gemini. Cho dù chatbot AI Bard đã được Google giới thiệu từ lâu nhưng nền tảng công nghệ bên dưới vẫn chỉ là các mô hình AI như LaMDA, PaLM có hiệu suất được xem là không bằng GPT-4 của OpenAI.
Trong khi đó, phiên bản cao cấp nhất, Gemini Ultra được Google quảng bá có hiệu suất vượt trội hơn cả các mô hình AI “tiên tiến nhất”, khi đánh bại GPT-4 của OpenAI với 30 trong tổng số 32 bài kiểm tra tiêu chuẩn về khả năng suy luận và hiểu được hình ảnh.
Nhưng dường như gặp “phốt” trong các sự kiện ra mắt sản phẩm mới đã trở thành thói quen của Google khi trước đây chính chatbot Bard thừa nhận Google lợi dụng vị thế độc quyền trên thị trường quảng cáo, giờ ngay cả mô hình Gemini mới ra mắt cũng vướng phải tai tiếng đáng buồn không kém.
Trước đó để chứng minh cho tuyên bố của mình, Google đã trình diễn khả năng của Gemini khi công bố một đoạn video cho thấy mô hình AI này có khả năng trình bày theo thời gian thực những gì nó có thể thấy hay nghe được từ con người – Google gọi điều này là “đa phương thức” – khả năng xử lý thông tin bằng cả văn bản, video hay âm thanh – một tính năng vượt trội của Gemini.
Tại một thời điểm trong clip demo, thậm chí chatbot AI còn tạo ra một tương tác hài hước sau khi được người hướng dẫn trong clip cho xem một món đồ chơi hình con vịt xanh. Lộ rõ vẻ ngạc nhiên, AI của Gemini kêu lên: “Cái quái gì vậy! Tôi vừa nói về một con vịt xanh, và bây giờ bạn đang ôm một con! Có vẻ như vịt xanh phổ biến hơn tôi nghĩ.“
Clip demo của Google biểu diễn khả năng của Gemini
Tuy nhiên, vào thứ Năm vừa qua, đại diện của Google đã nói với Bloomberg rằng clip demo liên quan đến việc “sử dụng các khung hình ảnh tĩnh từ đoạn phim và nhắc nhở qua văn bản” – nghĩa là quá trình tiếp nhận thông tin của AI đã được con người can thiệp và chỉnh sửa lại. Trước đó một bài đăng trên blog của Google cũng nói về cách quá trình huấn luyện nói trên được thực hiện.
Nói một cách ngắn gọn, AI của Google không hề có khả năng đối thoại và phản ứng cảm xúc theo thời gian thực như trong clip demo. Thay vào đó, mô hình Gemini mới của Google cũng hoạt động theo phương thức tương tự như đối thủ ChatGPT – thông qua các lời nhắc của người dùng và hình ảnh tải lên.
Đáng nói hơn, cho dù đoạn clip demo Gemini được chia sẻ rộng rãi trên các nền tảng của Google, thậm chí CEO Sundar Pichai còn đăng tải nó lên tài khoản X của mình với hơn 7 triệu người theo dõi, nhưng không hề có chú thích nào về các hạn chế của khả năng của Gemini. Thay vào đó, chỉ có dòng chú thích cho biết “độ trễ đã được giảm thiểu và câu trả lời của Gemini đã được rút gọn lại” xuất hiện trong phần mô tả về clip đăng tải trên YouTube.
Thậm chí Phó chủ tịch về Tìm kiếm tại Google DeepMind, Oriol Vinyals còn cho biết trên X: “Mọi lời nhắc của người dùng và câu trả lời trong đoạn video đều là thật, và chỉ được rút gọn lại. Đoạn video minh họa cho những gì trải nghiệm người dùng đa phương thức được tích hợp trong Gemini có thể trông như thế nào”
Kể từ khi được phát hành, đoạn clip demo này đã thực sự gây nên tiếng vang cho Gemini. Khi chia sẻ lại đoạn clip này, một người dùng cho biết Gemini là minh chứng cho thấy một “trí thông minh lớn hơn một phần nhỏ so với người trưởng thành.”