Tháng 6 năm 2017, một bài báo khoa học mang tính cột mốc - do tám nhà nghiên cứu của Google là đồng tác giả - đã ra đời, với tiêu đề chính thức là Chỉ cần cơ chế tập trung.
Bài luận này đã giới thiệu mô hình Transformer, một “người học” siêu hiệu quả: nó không chỉ có thể tiếp nhận toàn bộ câu văn cùng một lúc, mà còn hiểu được mối quan hệ giữa từng từ với các từ khác trong câu. Giống như một người có trí nhớ siêu phàm, không chỉ ghi nhớ mọi câu nói của từng người mà còn nắm bắt được mối liên hệ giữa chúng. Transformer đã trao cho máy tính một năng lực tương tự như khả năng hiểu ngôn ngữ của con người.
Sam Altman và OpenAI đã phát triển thành công mô hình ngôn ngữ GPT-1, tiền đề cho ChatGPT. Ảnh: Reuters.
Mô hình Transformer đã sử dụng một kỹ thuật đặc biệt - “khả năng tự chú ý”. Nhờ đó, nó có thể đồng thời “nhìn” thấy tất cả các từ trong một câu và hiểu được mối liên hệ giữa chúng. Điều này giúp Transformer xử lý rất tốt những thông tin đòi hỏi ghi nhớ dài hạn, đồng thời có tốc độ học cực kỳ nhanh.
Transformer đã làm được một việc có ý nghĩa vô cùng quan trọng vào thời điểm đó. Trước đây, các hệ thống AI cần được cung cấp dữ liệu đầu vào rất cụ thể, từng dữ liệu phải được gắn nhãn: cái này đúng, cái này sai; đây là thư rác, đây không phải thư rác; đây là ung thư, đây không phải ung thư…
Nhưng mô hình Transformer lại cho phép AI tiếp nhận cả dữ liệu hỗn loạn, chưa được gắn nhãn, và hơn thế nữa, nó còn có thể xử lý hiệu quả vượt mong đợi, tiêu tốn ít sức mạnh tính toán hơn.
Sự ra đời của mô hình Transformer đã nâng cao vượt bậc năng lực xử lý ngôn ngữ của máy tính, giúp các nhiệm vụ như dịch máy, nhận dạng giọng nói và tóm tắt văn bản trở nên hiệu quả và chính xác hơn. Đây là một bước nhảy vọt lớn đối với toàn ngành.
Hiện nay, những mô hình dựa trên Transformer có thể tự học. Từ đó, mọi người trong ngành nhận ra AI tốt nhất không đến từ kỹ thuật huấn luyện tinh vi nhất, mà từ kỹ thuật nắm giữ nhiều dữ liệu nhất.
Tuy nhiên, khi mới xuất hiện, mô hình Transformer chưa lập tức chinh phục thế giới, thậm chí Google cũng chưa làm được điều đó. Lúc ấy, chỉ có một số ít người hiểu được sức mạnh to lớn của bước đột phá này, Sutskever chính là một trong số đó.
Trong giai đoạn đầu của OpenAI, Sutskever luôn có linh cảm rằng những bước tiến lớn của AI sẽ không đến từ một vài điều chỉnh cụ thể hay một phát minh mới nào đó, mà từ việc có nhiều dữ liệu hơn, giống như việc liên tục đổ thêm nhiên liệu vào động cơ. Giờ đây, bài báo Transformer đã củng cố linh cảm ấy của anh.
“Sau ngày bài báo này được công bố, chúng tôi lập tức nhận ra đây chính là thứ chúng tôi cần,” Sutskever nhớ lại, “nó sở hữu tất cả những đặc tính mà chúng tôi theo đuổi.” Đúng như lời thầy anh - Hinton - từng nhận xét, Sutskever có trực giác kỹ thuật vô cùng nhạy bén. Brockman xem đó là sự kết hợp giữa may mắn và nỗ lực: “Đây luôn là chiến lược của chúng tôi - nỗ lực giải quyết vấn đề, rồi tin rằng chúng tôi hoặc ai đó trong lĩnh vực này sẽ tìm ra mảnh ghép còn thiếu.”
Sutskever đã gợi ý cho Radford bắt đầu thử nghiệm sử dụng cấu trúc Transformer. Kết quả không ngoài dự đoán, trong hai tuần tiếp theo, tiến triển đạt được còn nhiều hơn cả hai năm trước đó cộng lại.
Như Altman đã nói vào năm 2023: “Khi bài báo về Transformer được công bố, tôi cảm thấy ở Google không ai nhận ra nó sẽ ảnh hưởng sâu rộng đến mức nào.”
Tháng 6 năm 2018, một năm sau khi bài luận về Transformer được công bố, OpenAI phát hành GPT-1. GPT là viết tắt của Generatively Pretrained Transformer (tạm dịch: Biến đổi tiền huấn luyện tạo sinh). Cuối cùng, mô hình này được gọi phổ biến là trí tuệ nhân tạo tạo sinh (Generative AI - GenAI).
Chu Hằng Tinh / Alpha Books & NXB Công Thương