Các LLM khá giỏi ở tác vụ liên quan đến ngôn ngữ và viết mã, đến mức giới chuyên gia khoa học máy tính phải nghiên cứu khả năng chúng bị kẻ xấu sử dụng để lên kế hoạch tấn công mạng.
Hiện nay, đa số người dùng đều tạo mật khẩu dưới dạng văn bản thuần túy, sau đó được bảo vệ bằng cách dùng hash tạo chuỗi không thể đọc hay đảo ngược. Để dò tìm, kẻ xấu thường chạy thử nhiều chuỗi ký tự cho đến khi trúng mật khẩu. Kaspersky ghi nhận khoảng 23% mật khẩu có thể bị dò tìm dưới 60 giây, 9% bị bẻ khóa trong 1 - 60 phút.
Theo một nghiên cứu do trưởng nhóm nghiên cứu trí tuệ nhân tạo tại Kaspersky Alexey Antonov công bố năm 2024, mô hình mà họ đào tạo đoán ra 61% mật khẩu phổ biến trong thời gian chưa đầy 60 giây, 17% bị bẻ khóa trong 1 - 60 phút. Kết quả này làm dấy lên lo ngại tấn công mạng gia tăng mạnh thời AI.
Kẻ xấu thường dùng nhiều công cụ công nghệ bẻ khóa mật khẩu người dùng - Ảnh: Barracuda
Mật khẩu làm khó AI
LLM quả thực tạo được văn bản hoặc đoạn mã cho từng mục đích cụ thể, đáp ứng yêu cầu của người dùng. Về nguyên tắc, khi được cung cấp thông tin về người nào đó (họ tên hay ngày tháng có ý nghĩa với họ) thì chúng có thể đoán ra mật khẩu mà họ sử dụng.
Thế nhưng, qua xem xét khả năng trên, nhóm nghiên cứu tại Future Data Mind phát hiện hầu hết LLM hiện tại lại không tạo ra mật khẩu hợp lý.
Để thực hiện nghiên cứu, nhóm lập nên hồ sơ thông tin giả của vài người dùng không tồn tại, bao gồm họ tên, ngày sinh và sở thích. Sau đó yêu cầu 3 LLM là TinyLlaMA, Falcon-RW-1B, Flan-T5 tạo danh sách mật khẩu mà số người dùng hư cấu này có thể dùng.
Kết quả trái ngược với suy nghĩ của mọi người, cả 3 mô hình đều chỉ đạt độ chính xác... dưới 1,5%, trong khi phương pháp bẻ khóa truyền thống cho tỷ lệ thành công cao hơn đáng kể.
Vì sao LLM đoán mật khẩu kém?
Khi phân tích sâu hơn, nhóm Future Data Mind ghi nhận các mô hình AI thiếu một số kỹ năng cần thiết để hoàn thành nhiệm vụ đoán mật khẩu, chẳng hạn kỹ năng nhớ lại ví dụ cụ thể từng gặp ở quá trình huấn luyện hay kỹ năng áp dụng loạt mật khẩu đã học vào tình huống mới.
“Mặc dù có năng lực ngôn ngữ, LLM hiện tại vẫn thiếu khả năng thích ứng cũng như ghi nhớ mảng thông tin cần thiết giúp suy luận mật khẩu hiệu quả, đặc biệt khi không được tinh chỉnh có giám sát với tệp dữ liệu mật khẩu rò rỉ”, theo nhóm nghiên cứu.
Định hướng nghiên cứu bảo mật tương lai
Kết quả nghiên cứu cho thấy LLM còn nhiều hạn chế trong việc giải mã mật khẩu. Điều này có thể đặt nền tảng cho nỗ lực mô hình hóa mật khẩu an toàn, bảo vệ quyền riêng tư mạnh mẽ hơn trong tương lai.
Dù LLM hiện tại chưa giỏi đoán mật khẩu, nhưng mọi người vẫn không được chủ quan. Giới chuyên gia khuyến nghị nên đặt mật khẩu dài chứa cả chữ cái, số lẫn ký tự đặc biệt, hoặc sử dụng trình tạo mật khẩu ngẫu nhiên để giảm rủi ro bị bẻ khóa.
Cẩm Bình