OpenAI thêm hệ thống giám sát ngăn o3, o4-mini giúp kẻ xấu phát triển vũ khí sinh học và hóa học

2 ngày trướcBài gốc

Theo báo cáo an toàn của OpenAI, hệ thống này nhằm ngăn chặn o3 và o4-mini đưa ra lời khuyên có thể giúp ai đó thực hiện các cuộc tấn công gây hại tiềm tàng.

OpenAI cho biết o3 và o4-mini thể hiện bước tiến lớn về năng lực so với các mô hình trước đó của công ty, nên gây ra những rủi ro mới khi rơi vào tay kẻ xấu. Theo các chỉ số đánh giá nội bộ của OpenAI, o3 đặc biệt thành thạo hơn trong việc trả lời các câu hỏi liên quan đến việc tạo ra một số loại mối đe dọa sinh học. Vì lý do đó, cũng như để giảm thiểu các rủi ro khác, OpenAI đã phát triển hệ thống giám sát mới, được mô tả là một “bộ theo dõi suy luận tập trung vào an toàn”.

Hệ thống này được huấn luyện riêng để hiểu và lý giải theo chính sách nội dung của OpenAI, được tích hợp trực tiếp trên o3 và o4-mini. Nó có nhiệm vụ nhận diện các yêu cầu liên quan đến nguy cơ sinh học và hóa học, hướng dẫn mô hình AI từ chối đưa ra lời khuyên về những chủ đề đó.

Để xây dựng cơ sở dữ liệu huấn luyện, OpenAI đã để các nhóm kiểm tra an toàn dành khoảng 1.000 giờ đánh dấu các đoạn hội thoại liên quan đến rủi ro sinh học không an toàn từ o3 và o4-mini. Trong một thử nghiệm mô phỏng “logic chặn” của hệ thống an toàn này, o3 và o4-mini đã từ chối phản hồi các yêu cầu nguy hiểm với tỷ lệ 98,7%, theo báo cáo từ OpenAI.

Logic chặn có thể hiểu là cơ chế hoặc quy trình mà hệ thống sử dụng để ngăn chặn hoặc từ chối một hành động cụ thể. Trong trường hợp hệ thống giám sát an toàn của OpenAI, logic chặn đề cập đến các quy tắc và thuật toán được lập trình để xác định các yêu cầu liên quan đến rủi ro sinh học và hóa học, sau đó ngăn chặn o3 và o4-mini đưa ra câu trả lời hoặc lời khuyên về những chủ đề đó.

Tuy nhiên, OpenAI thừa nhận rằng thử nghiệm này không tính đến việc người dùng có thể thay đổi yêu cầu sau khi bị chặn. Đó là lý do tại sao công ty khởi nghiệp Mỹ cho biết sẽ tiếp tục dựa một phần vào giám sát của con người.

Theo OpenAI, o3 và o4-mini không vượt qua ngưỡng “rủi ro cao” với các mối đe dọa sinh học. Tuy nhiên, so với o1 và GPT-4, các phiên bản đầu tiên của o3 và o4-mini lại tỏ ra hiệu quả hơn khi trả lời câu hỏi liên quan đến phát triển vũ khí sinh học.

OpenAI cho biết đang tích cực theo dõi cách mà các mô hình AI của mình có thể bị lợi dụng để tạo điều kiện cho hành vi phát triển vũ khí sinh học và hóa học, theo Preparedness Framework được công ty cập nhật gần đây.

Preparedness Framework (Khung chuẩn bị hoặc Khung năng lực ứng phó) là một hệ thống hoặc kế hoạch do OpenAI xây dựng để đánh giá, theo dõi và quản lý rủi ro tiềm ẩn từ các mô hình AI tiên tiến, đặc biệt là khi chúng đạt đến những năng lực nguy hiểm hoặc có thể bị lạm dụng.

Cụ thể, Preparedness Framework của OpenAI gồm:

1. Xác định các loại rủi ro cao

Như rủi ro sinh học, rủi ro hóa học, vũ khí, tấn công mạng, thao túng nhận thức…

2. Thiết lập các tiêu chuẩn đánh giá năng lực của mô hình AI

Xem mô hình có đủ mạnh để gây ra rủi ro chưa? Nếu có, cần kiểm soát gắt gao hơn.

3. Kiểm tra mô hình thông qua các bài test an toàn

Như kiểm tra xem mô hình có dễ bị dụ cung cấp thông tin nhạy cảm không.

4. Thiết lập cơ chế cảnh báo sớm và phản ứng

Nếu mô hình có dấu hiệu bị lạm dụng hoặc vượt giới hạn cho phép.

5. Đưa ra quyết định phát hành mô hình một cách có trách nhiệm

Không phải mô hình nào tạo ra cũng sẽ được công bố rộng rãi ngay.

OpenAI ngày càng dựa vào các hệ thống tự động để giảm thiểu rủi ro từ các mô hình AI. Ví dụ, để ngăn hệ thống tạo ảnh gốc của GPT-4o tạo ra nội dung lạm dụng tình dục trẻ em, OpenAI cho biết cũng sử dụng một bộ giám sát suy luận tương tự như áp dụng với o3 và o4-mini.

Tuy vậy, một số nhà nghiên cứu đã bày tỏ lo ngại rằng OpenAI không đặt ưu tiên cho vấn đề an toàn một cách đúng mức. Metr, một trong các đối tác kiểm tra an toàn của OpenAI, cho biết họ có rất ít thời gian để kiểm tra o3 với các chỉ số liên quan đến hành vi lừa đảo. Trong khi đó, OpenAI lại không công bố báo cáo an toàn cho mô hình mới GPT-4.1.

OpenAI triển khai hệ thống giám sát mới nhằm theo dõi o3 và o4-mini với các yêu cầu liên quan đến mối đe dọa sinh học và hóa học - Ảnh: Internet

GPT-4.1 có khả năng lập trình và hiểu ngữ cảnh dài vượt GPT-4.5, GPT-4o

Hôm 14.4, OpenAI đã ra mắt GPT-4.1, cùng hai phiên bản nhỏ hơn là GPT-4.1 mini và GPT-4.1 nano, với những cải tiến lớn trong lập trình, khả năng tuân theo hướng dẫn và hiểu ngữ cảnh dài.

Các mô hình AI mới này, chỉ có sẵn thông qua giao diện lập trình ứng dụng (API) của OpenAI, vượt trội hơn cả mô hình tiên tiến nhất hiện tại là GPT-4o trên mọi phương diện, theo tuyên bố của hãng phát triển ChatGPT.

API (Application Programming Interface) là giao diện lập trình ứng dụng. Nói một cách đơn giản, API là tập hợp các quy tắc cho phép các phần mềm hoặc hệ thống khác nhau giao tiếp với nhau. Nó giống một cửa sổ hoặc cổng mà qua đó ứng dụng có thể "nói chuyện" với ứng dụng khác mà không cần biết nội bộ bên trong hoạt động ra sao.

Với khả năng hiểu ngữ cảnh được cải thiện, GPT-4.1, GPT-4.1 mini và GPT-4.1 nano có thể xử lý lên đến 1 triệu token (thuật ngữ chỉ đơn vị dữ liệu mà mô hình AI xử lý). Các mô hình AI mới cũng được cập nhật kiến thức đến tháng 6.2024.

GPT-4.1 cho thấy mức cải thiện 21% so với GPT-4o và 27% so với GPT-4.5 trong các bài kiểm tra về lập trình. Trong khi đó, những cải tiến về khả năng tuân theo hướng dẫn và hiểu ngữ cảnh dài cũng giúp GPT-4.1 hiệu quả hơn trong việc vận hành các tác tử AI.

Tác tử AI là hệ thống hoặc chương trình máy tính được thiết kế để thực hiện các tác vụ tự động bằng cách sử dụng AI. Các tác tử AI có khả năng tương tác với môi trường, thu thập thông tin, xử lý dữ liệu, ra quyết định và thực hiện các hành động dựa trên mục tiêu được đặt ra.

Đặc điểm của một tác tử AI

Tự động: Có khả năng hoạt động độc lập mà không cần sự can thiệp của con người trong suốt quá trình xử lý.

Nhận thức môi trường: Có thể cảm nhận hoặc thu thập dữ liệu từ môi trường thông qua các cảm biến, API, hoặc dữ liệu được cung cấp.

Ra quyết định: Dựa trên các thuật toán hoặc mô hình học máy, tác tử AI có thể phân tích dữ liệu và chọn hành động phù hợp.

Hành động: Tác tử thực hiện các hành động cụ thể để đạt được mục tiêu, ví dụ như gửi thông báo, điều khiển thiết bị, hoặc cập nhật dữ liệu.

“Các bài đánh giá hiệu năng rất tốt nhưng chúng tôi tập trung vào tính hữu dụng trong thực tế, và những nhà phát triển dường như rất hài lòng”, Sam Altman (Giám đốc điều hành OpenAI) chia sẻ trên mạng xã hội X.

Dòng mô hình mới này cũng hoạt động với “chi phí thấp hơn nhiều” so với GPT-4.5, theo OpenAI. Công ty cho biết sẽ tắt bản xem trước GPT-4.5 trên API vào tháng 7 tới, vì các mô hình mới mang lại hiệu năng “cải thiện hoặc tương đương”.

Hồi tháng 2, OpenAI đã phát hành bản research preview của GPT-4.5 cho một số người dùng và nhà phát triển, đồng thời công bố kế hoạch mở rộng quyền truy cập trong những tuần tiếp theo.

Thời điểm đó, OpenAI từng nói rằng GPT-4.5 là mô hình AI lớn nhất và mạnh mẽ nhất của công ty.

Trên X, Sam Altman mô tả GPT-4.5 là "mô hình đầu tiên mang lại cảm giác như đang nói chuyện với một người suy nghĩ sâu sắc".

Alex Paino, người dẫn đầu phần huấn luyện sơ bộ về học máy cho GPT-4.5, nói mô hình AI này được thiết kế để "thông minh gấp 10 lần" so với GPT-4, vốn đã ra mắt từ tháng 3.2023.

"Chúng tôi đang mở rộng quy mô gấp 10 lần so với trước đây với các đợt huấn luyện sơ bộ cho GPT này", Alex Paino nói.

Sơn Vân

Nguồn Một Thế Giới : https://1thegioi.vn/openai-them-he-thong-giam-sat-ngan-o3-o4-mini-giup-ke-xau-phat-trien-vu-khi-sinh-hoc-va-hoa-hoc-231662.html