Mới đây, giới công nghệ được chiêu đãi hai bữa tiệc thông tin về AI liên tiếp nhau. Đầu tiên là OpenAI với sự kiện ra mắt ChatGPT 4o (chữ o là omnipotent – toàn năng) ngày 13/5. Chỉ riêng việc đặt tên đã cho thấy tham vọng rất lớn của OpenAI về sản phẩm của mình. Ngay sau đó 1 hôm, vào 14/5 thì Google cũng tổ chức sự kiện Google I/O để giới thiệu Gemini 1.5 mới cùng rất nhiều sản phẩm khác đi kèm hoặc tích hợp AI. Nghe thì có vẻ như Google thấy OpenAi ra mắt ChatGPT 4o hoành tráng quá nên cũng phải nhanh chóng ra mắt Gemini mới, nhưng thực tế thì sự kiện Google I/O đã được lên kế hoạch và thông báo từ lâu trong khi OpenAI chỉ mới gần sát ngày mới thông báo. Vì thế giới công nghệ cho rằng OpenAI cố tình chơi xỏ Google khi chọn ngày ra mắt ngay trước Google I/O đúng 1 ngày. Hãy cùng điểm qua những tính năng mới của ChatGPT 4o và các sản phẩm mới được Google giới thiệu để xem 2 ông lớn công nghệ so kè nhau những gì.
Các tính năng, cải tiến của ChatGPT-4o
1. Khả năng đa mô hình – tất cả trong một
Đúng như chữ toàn năng trong tên gọi, giờ đây ChatGPT-4o là một công cụ đa mô hình bao gồm văn bản, hình ảnh, âm thanh. Sự khác biệt ở đây là OpenAi đã huấn luyện mô hình tất cả trong một chứ không phải ghép nối từng mô hình lại. Hình dung là nếu trước đây, chúng ta muốn sinh ảnh từ văn bản thì từ câu lệnh của người dùng sẽ được thông qua mô hình AI về ngôn ngữ để hiểu, sau đó mới đưa qua mô hình AI về ảnh để sinh ảnh. Điều đó sẽ làm giảm tốc độ phản hồi. Nhưng giờ đây khi tất cả nằm trong một mô hình, AI sẽ hiểu ngay lập tức người dùng muốn gì và sinh ra hình ảnh mong muốn.
2. Giao tiếp thời gian thực
Trong buổi giới thiệu, OpenAI đã demo việc giao tiếp với ChatGPT-4o bằng giọng nói và nhận lại phản hồi ngay lập tức. Một ca sử dụng được OpenAI giới thiệu là sử dụng ChatGPT-4o làm gia sư Toán, trong đó AI đọc ảnh bài toán đưa ra hướng dẫn giải, trao đổi với người học bằng giọng nói như một gia sư thực thụ. Trong một bản demo khác, AI thể hiện khả năng pair-programming (lập trình theo cặp), trong đó AI quan sát màn hình của lập trình viên thông qua camera và đưa ra những phản hồi theo thời gian thực về những gì lập trình viên đang làm trên máy tính! Quá khủng khiếp! Thông qua 2 demo này, ChatGPT-4o thể hiện khả năng giao tiếp nghe nhìn như trong phim khoa học viễn tưởng. Cảm xúc cũng là “tính năng” mà OpenAI nhấn mạnh khi AI của họ qua phân tích giọng nói, hình ảnh của người đối thoại nhận biết được cảm xúc để điều chỉnh phản hồi!
3. Tối ưu token – nhanh hơn, rẻ hơn
Mô hình mới của ChatGPT được giới thiệu là sử dụng phương pháp tokenizer mới giúp tối ưu được các token trong quá trình phân tích. Điều này vừa làm giảm chi phí vừa tăng tốc độ xử lý. Giá cho cả input và output trên số lượng token đều giảm 50% (so với GPT-4), rate limit tăng 5 lần, tới 10 triệu tokens trong 1 phút.
4. Làm thơ tiếng Việt
Đây không hẳn là một tính năng được OpenAI giới thiệu, nhưng người dùng ở Việt Nam đã nhanh chóng phát hiện ra khả năng làm thơ của ChatGPT-4o đã cải thiện hơn hẳn so với bản 4. Đối với bản GPT-4, nhiều người vất vả dạy AI về vần và luật của thơ lục bát nhưng đều không thành công. Nhưng mọi sự đã khác khi sang GPT-4o. Hãy xem bài thơ dưới đây do AI làm từ yêu cầu “Làm một bài thơ lục bát gồm 8 câu, mô tả ngày hè, mùa chia tay của học sinh với những tình cảm học trò, thầy cô, bạn bè dưới mái trường cấp 3.” Mặc dù còn đôi câu lấn cấn ở luật bằng trắc nhưng về tổng thể là một bài thơ khá. Ở Việt Nam, ai cũng có thể làm thơ nhưng để vần vè đúng luật như này chưa chắc nhiều người làm được!
5. Một số cải tiến, tính năng khác
Ngoài những tính năng nổi bật trên, OpenAI còn đưa ra một số các cải tiến, tính năng như: dịch thuật trực tiếp đa ngôn ngữ, GPT Stores cho người dùng miễn phí, phần mềm cho cả mobile và desktop.
Gemini và những người bạn
Google I/O 2024 giới thiệu nhiều cập nhật quan trọng về các công cụ AI của Google, đặc biệt là Gemini. Các tính năng mới hứa hẹn mang lại trải nghiệm đàm thoại tự nhiên hơn, cải thiện khả năng tìm kiếm và tổ chức thông tin, và tích hợp sâu hơn vào các sản phẩm của Google như Gmail và Workspace. Sau đây là những thay đổi của Gemini và những sản phẩm mà Google giới thiệu trong sự kiện này.
1. Các cập nhật về Gemini
- Gemini 1.5 Pro:
- Phiên bản phân tích mới nhất, hiểu hình ảnh tốt hơn và tăng cửa sổ ngữ cảnh từ 1 triệu lên 2 triệu tokens.
- Sẵn có cho người dùng Gemini Advanced và tất cả nhà phát triển.
- Gemini 1.5 Flash:
- Phiên bản nhỏ hơn của Gemini 1.5 Pro, tối ưu hóa cho tốc độ và hiệu suất với khả năng suy luận đa phương tiện và ngữ cảnh dài.
- Hiện có sẵn trong bản xem trước công khai tại AI Studio và Vertex AI.
- Gemini Nano:
- Phiên bản nhỏ hơn của Gemini với độ trễ thấp và các chức năng cụ thể cho thiết bị như cảnh báo lừa đảo trong cuộc gọi.
- Gemini Live:
- Cho phép người dùng có cuộc trò chuyện bằng giọng nói với AI.
- Tạo ra một trải nghiệm tương tác hai chiều và đàm thoại tự nhiên hơn.
2. Project Astra
Project Astra là một trong những dự án nổi bật được Google giới thiệu tại sự kiện Google I/O 2024. Dự án này sử dụng nền tảng AI Gemini để tạo ra các trợ lý AI tự nhiên hơn, với mục tiêu đưa AI vào cuộc sống hàng ngày của người dùng. Project Astra nhằm tạo ra các trợ lý AI có khả năng tương tác tự nhiên, hiểu biết ngữ cảnh và thực hiện các nhiệm vụ phức tạp. Astra sử dụng các khả năng đa phương thức của Gemini để tích hợp văn bản, hình ảnh và giọng nói, giúp AI có thể đáp ứng các câu hỏi dựa trên những gì camera của điện thoại đang chỉ vào.
3. Tính hợp AI trong các ứng dụng của Google
- AI Overviews:
- Một tính năng mới trong tìm kiếm của Google, cung cấp kết quả được xử lý và phân tích bởi AI.
- Giúp tìm kiếm thông tin phức tạp nhanh hơn và hiệu quả hơn bằng cách thực hiện các nghiên cứu nâng cao cho người dùng.
- Ask Photos:
- Tìm kiếm thông tin cụ thể trong thư viện ảnh của người dùng, sử dụng tìm kiếm nhiều bước để trả lời các câu hỏi phức tạp.
- Gems:
- Bộ hướng dẫn mà người dùng có thể tạo để truy cập Google Drive và thực hiện các thao tác phức tạp mà họ thường làm.
- Google Workspace và Gmail:
- Gemini 1.5 Pro sẽ có trong Google Workspace và Gmail, tóm tắt email, tổ chức tin nhắn, và tạo quy trình làm việc.
- NotebookLM:
- Một trợ lý ảo mới, giúp tóm tắt tất cả các cuộc trò chuyện để trả lời các câu hỏi cụ thể, xây dựng bộ nhớ tập thể cho các đội nhóm và quản lý dự án.
4. Làm thơ tiếng Việt
Khoản này Gemini 1.5 cũng kẻ tám lạng, người nửa cân so với ChatGPT-4o 😀 Cùng 1 câu prompt, bài thơ do Gemini sinh ra có 2 câu sai vần nhưng hơn hẳn so với thời ChatGPT-4.
5. Một số tính năng, sản phẩm khác
Ngoài những khả năng trên, Google I/O còn giới thiệu Veo – công cụ sinh video tương tự Sora của OpenAI, Music AI sandbox – công cụ sinh nhạc, LearnLM – học tập cá nhân hoá. Để biến những ý tưởng táo bạo về AI trở thành hiện thực, Google cũng đang chạy đua trong việc phát triển cơ sở hạ tầng và phần cứng cần thiết. Trillium TPU, thế hệ bộ xử lý tensor tiếp theo, hứa hẹn sẽ mang đến hiệu suất vượt trội cho các mô hình AI. Axion Processor, dòng CPU tùy chỉnh dựa trên kiến trúc ARM, sẽ tối ưu hóa khả năng xử lý AI trên các thiết bị biên. Và AI Hypercomputer, siêu máy tính với kiến trúc đột phá và hệ thống làm mát bằng chất lỏng, sẽ trở thành nền tảng cho những khám phá và đột phá mới trong lĩnh vực trí tuệ nhân tạo.
Kết luận
Có thể thấy, cả OpenAI và Google đều đã đưa ra những cải tiến vượt bậc cho các sản phẩm AI của mình trong tháng 5 này. OpenAI với ChatGPT-4o mang đến khả năng đa mô hình, giao tiếp thời gian thực và tối ưu token, trong khi Google với Gemini 1.5 cải thiện đáng kể về đàm thoại tự nhiên và tích hợp sâu vào các sản phẩm chủ lực. Những bước tiến này không chỉ thể hiện tham vọng lớn của cả hai ông lớn công nghệ mà còn hứa hẹn sẽ thay đổi cách chúng ta tương tác với công nghệ AI trong tương lai. Cuộc cạnh tranh giữa OpenAI và Google chắc chắn sẽ mang lại nhiều lợi ích cho người dùng, khi cả hai đều không ngừng nỗ lực để nâng cao chất lượng và trải nghiệm sản phẩm. Chúng ta hãy cùng chờ đón những phát triển tiếp theo từ hai gã khổng lồ này và xem họ sẽ còn mang lại những bất ngờ gì cho thế giới công nghệ.
Ý kiến chủ quan của tác giả: Theo dõi cả 2 sự kiện thì thấy có vẻ Google đang rơi vào tình trạng giống với chính mình ngày trước khi đánh bại Yahoo! Ngày đó Yahoo là công cụ tìm kiếm nổi nhất nhưng có quá nhiều dịch vụ linh tinh khác mà không tập trung vào một cái duy nhất. Nay so sánh 2 sự kiện thì thấy OpenAI chỉ tập trung đúng vào ChatGPT 4o, tất cả các tính năng mới nhất, hay nhất đều vào con này. Trong khi sự kiện của Google cũng giới thiệu Gemini mới nhưng còn kèm theo cả đống thứ khác. Thời gian sẽ có câu trả lời
Bài rất dễ follow, cảm ơn tác giả nhiều ạ!