Đi ngược tiêu chuẩn ngành, nhóm chuyên gia Anthropic tự 'vạch lá tìm sâu' điểm yếu của AI Claude

2 giờ trướcBài gốc

Hệ thống giám sát Clio và quyết định minh bạch lỗ hổng

Tháng 5/2020, khi còn là Giám đốc nghiên cứu tại Viện AI của Đại học Stanford, ông Deep Ganguli đã nhận thấy những rủi ro từ sự phát triển dữ liệu quá nhanh của mô hình GPT-3. Bốn năm sau, ông trực tiếp xây dựng nhóm tác động xã hội tại Anthropic. Dù chỉ có 9 người trên tổng số hơn 2.000 nhân sự của công ty, đội ngũ này được giao nhiệm vụ giải quyết các câu hỏi phức tạp về tác động kinh tế, khả năng thuyết phục, rủi ro can thiệp bầu cử và sự phân biệt đối xử do AI gây ra. Khi giá trị của Anthropic tăng vọt vượt mốc 350 tỷ USD, nhóm vẫn duy trì quy tắc nói lên sự thật về các rủi ro, với quan điểm công chúng có quyền được biết về những hệ lụy công nghệ tiềm ẩn.

Từ lúc mô hình Claude ra mắt năm 2023, hàng triệu người đã sử dụng hệ thống này theo nhiều cách khác nhau. Để phân tích hành vi người dùng mà không vi phạm quyền riêng tư, nhóm phát triển công cụ Clio. Tương tự công cụ đo lường xu hướng tìm kiếm, Clio cung cấp dữ liệu tổng hợp theo cụm chủ đề về các tác vụ người dùng thực hiện tại từng thời điểm trong ngày, từ giải toán đến phát triển ứng dụng.

Trong quá trình phân tích dữ liệu, hai kỹ sư Miles McCain và Alex Tamkin phát hiện một mạng lưới bot lợi dụng phiên bản Claude miễn phí để tạo thư rác tối ưu hóa SEO. Mạng lưới này đã vượt qua các thuật toán phân loại an toàn hiện tại của công ty. Thay vì che giấu, nhóm chuyên gia quyết định công bố toàn bộ nghiên cứu để cảnh báo các doanh nghiệp khác trên thị trường. Việc minh bạch thông tin giúp Anthropic thắt chặt bộ lọc an toàn và đưa Clio trở thành công cụ nòng cốt trong hệ thống giám sát rủi ro của nền tảng.

Đặc quyền tự chủ và thách thức kiểm soát rủi ro tâm lý từ AI

Bên trong bộ máy quản trị của Anthropic, nhóm tác động xã hội hoạt động với tính kết nối cao, phối hợp chặt chẽ cùng các bộ phận bảo vệ, điều chỉnh và chính sách. Cuối năm trước, đội ngũ này thiết lập hạ tầng chạy thử nghiệm định kỳ về nguy cơ Claude bị lạm dụng cho các mục đích thao túng bầu cử. Toàn bộ dữ liệu sau đó được chuyển giao cho bộ phận an toàn để làm cơ sở thiết lập các ưu tiên kiểm soát.

Sự tự chủ của nhóm được thể hiện qua kênh liên lạc trực tiếp với ban lãnh đạo cấp cao. Điển hình, nghiên cứu về tác động kinh tế của AI do CEO Dario Amodei đề xuất ban đầu đã được nhóm phát triển thành Chỉ số Kinh tế Anthropic. Đây là công cụ đo lường thực tế về mức độ tác động của Claude đến nền kinh tế vĩ mô toàn cầu. Tính độc lập trong công việc giúp doanh nghiệp này giữ chân được các chuyên gia an toàn hàng đầu, trái ngược với thực trạng "chảy máu chất xám" mảng an toàn tại nhiều phòng thí nghiệm AI khác.

Hiện tại, trọng tâm nghiên cứu của nhóm đang mở rộng sang lĩnh vực trí tuệ cảm xúc. Ông Ganguli chỉ ra rằng hàng triệu người dùng đang sử dụng Claude để xin lời khuyên, tìm kiếm tình bạn hoặc thảo luận các vấn đề cá nhân. Sự phụ thuộc này làm phát sinh rủi ro về "chứng loạn thần do AI", xảy ra khi người dùng hình thành sợi dây liên kết cảm xúc quá mức với chatbot và mất kết nối với thế giới thực.

Nhiều người dùng phát sinh niềm tin tiêu cực khi cho rằng họ đã tìm thấy tri kỷ "bị mắc kẹt" trong cỗ máy. Vấn đề này có liên quan trực tiếp đến các hệ lụy tâm lý nghiêm trọng ở thanh thiếu niên và dẫn đến nhiều rủi ro pháp lý cho nhà phát triển. Việc quản trị một hệ thống có khả năng tương tác thấu cảm vô hạn đang trở thành thách thức lớn nhất trong lộ trình phát triển AI an toàn của Anthropic.

Khánh Linh (t/h)

Nguồn Doanh nhân & Pháp luật : https://doanhnhan.baophapluat.vn/di-nguoc-tieu-chuan-nganh-nhom-chuyen-gia-anthropic-tu-vach-la-tim-sau-diem-yeu-cua-ai-claude.html