OpenAI, Google, Anthropic với các động thái AI mới gây bất ngờ

2 tháng trướcBài gốc

Dưới đây là những điểm đáng chú ý:

Trình tạo ảnh hoạt hình của OpenAI gây bão trên internet

Hôm 25.3, OpenAI ra mắt tính năng tạo ảnh hoạt hình ngay trong ChatGPT và nhanh chóng trở thành hiện tượng.

Công cụ mới này, được hỗ trợ bởi mô hình ngôn ngữ lớn GPT-4o, cho phép người dùng tạo hình ảnh trực tiếp trong ChatGPT mà không cần chuyển qua DALL-E. Nó lập tức trở thành trào lưu, với người dùng biến ảnh thực thành chân dung phong cách anime, thường mô phỏng Hayao Miyazaki - nhà sáng lập hãng Studio Ghibl.

Ông Hayao Miyazaki (84 tuổi) nổi tiếng với phong cách vẽ tay tỉ mỉ và cách kể chuyện đầy cảm hứng. Studio Ghibli là hãng phim hoạt hình nổi tiếng của Nhật Bản đứng sau Spirited Away (Vùng đất linh hồn) và những bộ phim được yêu thích khác.

Người hâm mộ Studio Ghibli rất vui mừng khi tính năng mới trên ChatGPT cho phép họ tái tạo các meme phổ biến trên internet hoặc ảnh cá nhân dạng hoạt hình. Tuy nhiên, xu hướng này làm dấy lên những lo ngại về đạo đức liên quan đến việc các công cụ AI được huấn luyện dựa trên những tác phẩm sáng tạo có bản quyền và tác động của điều đó với tương lai của các nghệ sĩ.

Tối 26.3, một số người phát hiện rằng các yêu cầu tạo hình ảnh theo phong cách Studio Ghibli và một số nghệ sĩ khác bị chặn. OpenAI sau đó cho biết công cụ mới sẽ áp dụng "cách tiếp cận thận trọng" khi mô phỏng tính thẩm mỹ của từng nghệ sĩ. Công ty xác nhận đã thêm một "cơ chế từ chối khi người dùng cố gắng tạo hình ảnh theo phong cách của một nghệ sĩ còn sống".

Thế nhưng, OpenAI tuyên bố rằng công cụ này "cho phép mô phỏng phong cách xưởng phim rộng hơn, mà nhiều người đã sử dụng để tạo ra và chia sẻ một số tác phẩm thực sự thú vị và đầy cảm hứng của người hâm mộ".

Ảnh anime do ChatGPT tạo

Nhu cầu sử dụng quá lớn khiến Sam Altman (Giám đốc điều hành OpenAI) tuyên bố sẽ áp dụng giới hạn tốc độ tạm thời trong khi đội ngũ của ông làm việc để cải thiện tính năng hình ảnh.

"Thật tuyệt khi thấy nhiều người thích tạo hình ảnh trong ChatGPT. Nhưng GPU (bộ xử lý đồ họa) của chúng tôi đang quá tải. Phiên bản miễn phí của ChatGPT sẽ chỉ được tạo 3 hình ảnh mỗi ngày trong thời gian tới", Sam Altman thông báo.

Dù vậy, tính năng này không phải là không có vấn đề, khi một số người nhận thấy ChatGPT gặp khó khăn trong việc hiển thị hình ảnh "người phụ nữ quyến rũ". Sam Altman cho biết trên mạng xã hội X rằng đó là một "lỗi" và sẽ được sửa.

Google cho dùng miễn phí "mô hình AI thông minh nhất"

Trong khi OpenAI chiếm sóng truyền thông, Google tuần này đã giới thiệu Gemini 2.5, dòng mô hình AI mới có khả năng "tạm dừng" để suy nghĩ trước khi phản hồi. Google cho biết tất cả mô hình Gemini mới sẽ mặc định có khả năng suy luận logic.

Được Google giới thiệu là "mô hình AI thông minh nhất", phiên bản Gemini 2.5 Pro Experimental là mô hình đa phương thức được thiết kế để xử lý logic, các nhiệm vụ STEM, lập trình và ứng dụng tác vụ tự động. Nó có thể xử lý văn bản, âm thanh, hình ảnh, video và mã lập trình.

STEM là viết tắt của Science, Technology, Engineering, and Mathematics (Khoa học, Công nghệ, Kỹ thuật và Toán học). Đây là nhóm các lĩnh vực giáo dục và nghề nghiệp tập trung vào khoa học tự nhiên, công nghệ, kỹ thuật và toán học, thường được khuyến khích vì vai trò quan trọng trong đổi mới, nghiên cứu và phát triển kinh tế. STEM đặc biệt quan trọng trong thời đại công nghệ số, khi các ngành như AI, dữ liệu lớn (Big Data) và kỹ thuật phần mềm ngày càng phát triển.

Chỉ ít ngày sau khi ra mắt, Google hôm 29.3 thông báo triển khai Gemini 2.5 Pro Experimental bản thử nghiệm cho tất cả người dùng.

Đây là động thái gây bất ngờ dịch vụ này trước đó chỉ dành cho những người đăng ký Gemini Advanced có trả phí, trong đó gói thấp nhất Google One AI Premium giá 19,99 USD/tháng tại Mỹ.

Gemini 2.5 Pro Experimental hiện có trên nền tảng web và sẽ sớm có mặt trên các ứng dụng Android, iOS.

Các tùy chọn mô hình cho người dùng Gemini, trong đó Gemini 2.5 Pro Experimental cũng được cung cấp miễn phí - Ảnh chụp màn hình

Google cho biết muốn "đưa mô hình AI thông minh nhất đến tay càng nhiều người dùng, càng sớm càng tốt". Gemini 2.5 Pro Experimental bản thử nghiệm đang đứng đầu bảng xếp hạng LMArena, đồng thời dẫn đầu cả về điểm chuẩn toán học và khoa học. Google nói đang nỗ lực cải thiện cả hiệu suất lập trình của mô hình này.

LMArena là nền tảng trực tuyến cho phép người dùng so sánh và đánh giá các mô hình ngôn ngữ lớn và chatbot AI khác nhau. Nền tảng này cung cấp các trận đấu ẩn danh và ngẫu nhiên giữa các mô hình AI, cho phép người dùng bỏ phiếu cho mô hình hoạt động tốt hơn mà không cần đăng ký.

LMArena hỗ trợ nhiều chatbot AI nổi bật. Người dùng có thể tương tác với các chatbot này và tham gia vào quá trình đánh giá hiệu suất của chúng.

Ngoài ra, LMArena còn cung cấp bảng xếp hạng các mô hình AI dựa trên hơn 1.000.000 lượt bình chọn từ cộng đồng, giúp người dùng dễ dàng theo dõi và so sánh hiệu suất của các mô hình ngôn ngữ lớn hiện có.

Hiện tại, mô hình vẫn trong giai đoạn thử nghiệm nhưng đã hỗ trợ một số tính năng như thao tác với ứng dụng, tiện tích mở rộng, tải file lên và cả Canvas.

Gemini 2.5 Pro có thể tự suy luận, phân tích các bước logic trong suy nghĩ trước khi đưa ra phản hồi. Mục tiêu là nâng cao hiệu suất, cải thiện độ chính xác, đặc biệt khi xử lý các vấn đề phức tạp.

Gemini 2.5 Pro đạt điểm 18,8% trên bộ dữ liệu Humanity’s Last Exam (HLE). Đây là bộ tiêu chuẩn đánh giá khả năng của các mô hình ngôn ngữ lớn thông qua 3.000 câu hỏi đa dạng về toán học, nhân văn và khoa học tự nhiên. Được phát triển bởi Trung tâm An toàn AI (CAIS) và Scale AI, HLE kiểm tra khả năng suy luận và kiến thức của AI ở mức độ chuyên gia. Bộ câu hỏi này được đóng góp bởi gần 1.000 chuyên gia từ hơn 500 tổ chức trên 50 quốc gia, gồm cả câu hỏi trắc nghiệm và trả lời ngắn, phù hợp cho việc chấm điểm tự động.

Theo người dùng, Gemini 2.5 Pro vượt trội trong việc tạo ra các ứng dụng web có giao diện hấp dẫn, ứng dụng mã tác nhân cũng như chuyển đổi và chỉnh sửa mã nguồn.

Báo cáo mới từ Anthropic về tác động của AI với công việc và nền kinh tế.

Hôm 27.3, Anthropic công bố báo cáo thứ hai trong Economic Index (chỉ số kinh tế) của mình. Đây là dự án theo dõi tác động của AI với công việc và nền kinh tế.

Báo cáo này phân tích 1 triệu cuộc trò chuyện ẩn danh từ mô hình Claude 3.7 Sonnet của Anthropic và liên kết chúng với hơn 17.000 nhiệm vụ trong cơ sở dữ liệu O*NET.

O*NET (Occupational Information Network) là một cơ sở dữ liệu trực tuyến do Bộ Lao động Mỹ phát triển, cung cấp thông tin chi tiết về các công việc và kỹ năng cần thiết trong nền kinh tế Mỹ.

Đặc điểm chính của O*NET

Chứa dữ liệu về hơn 1.000 nghề nghiệp trong nền kinh tế Mỹ.

Mô tả chi tiết các kỹ năng, kiến thức, khả năng, nhiệm vụ và hoạt động liên quan đến từng công việc.

Giúp nhà tuyển dụng, người lao động, nhà nghiên cứu và nhà hoạch định chính sách hiểu rõ xu hướng thị trường lao động.

Cập nhật thường xuyên dựa trên khảo sát thực tế từ các chuyên gia trong từng lĩnh vực.

Một điểm đáng chú ý là "hỗ trợ" vẫn vượt trội hơn "tự động hóa", chiếm 57% tổng số trường hợp sử dụng. Nói cách khác, hầu hết người dùng không giao toàn bộ công việc cho AI mà làm việc cùng nó.

Dữ liệu cũng cho thấy mức độ tương tác với AI khác nhau tùy theo ngành nghề. Những người viết nội dung và biên tập viên có mức độ cộng tác cao nhất với AI, khi con người và AI cùng nhau xây dựng nội dung.

Dịch giả và phiên dịch viên lại có mức độ phụ thuộc cao nhất vào AI, với công nghệ này thực hiện phần lớn công việc mà ít cần sự can thiệp của con người.

Báo cáo này cung cấp một góc nhìn chi tiết hơn về cách AI đang thay đổi cách con người làm việc.

Sơn Vân

Nguồn Một Thế Giới : https://1thegioi.vn/openai-google-anthropic-voi-cac-dong-thai-ai-moi-gay-bat-ngo-230977.html