Các AI đang dần thay công việc của lập trình viên
Ngày 21.6, nhóm nghiên cứu chung quốc tế gồm Đại học Utrecht ở Hà Lan và Trung tâm Khoa học Phức hợp (CSH) ở Áo đã công bố nội dung nêu trên thông qua một kho lưu trữ trong một bài báo có tựa đề “Sự lan rộng và tác động toàn cầu của AI tạo sinh”.
80 triệu bản ghi mã nguồn mở được phân tích
Nhóm nghiên cứu đã phân tích khoảng 80 triệu lượt bản ghi mã nguồn mở Python được tải lên GitHub từ năm 2019 đến 2024 để định lượng mức độ thực tế của việc sử dụng AI tạo sinh trong quá trình sản xuất mã. Kết quả là, đã xác nhận rằng 30,1% các hàm Python được người dùng GitHub tại Mỹ viết vào cuối năm 2024 đã được AI tạo ra.
Điểm mấu chốt của nghiên cứu này là nó không chỉ dựa vào các cuộc khảo sát đơn giản hoặc báo cáo của người dùng. Thay vào đó, nó đã xây dựng một mô hình phân loại học sâu có khả năng phân biệt giữa mã code do AI viết và mã code do con người viết và áp dụng nó vào dữ liệu thực tế. Nhóm nghiên cứu đã phân tích các khối mã trong các đơn vị hàm Python và huấn luyện một mô hình ngôn ngữ dựa trên GraphCodeBERT để tự động xác định xem mã đó có được AI tạo ra hay không bằng cách nhập các token, bình luận và luồng biến bên trong hàm.
Mô hình ghi nhận hiệu suất cao với độ chính xác (AUC) là 0,964 và độ chính xác (precision) là 0,969 dựa trên một bộ kiểm tra bên ngoài. Ba loại bộ dữ liệu đã được sử dụng để huấn luyện mô hình phân biệt AI. Thứ nhất, một bộ dữ liệu chuẩn và bộ kiểm tra chứa mã code do con người viết cụ thể trước năm 2018, tức thời điểm trước khi AI tạo sinh ra đời. Thứ hai, kết quả của con người và AI giải quyết các vấn đề lập trình đã được sử dụng. Cuối cùng, có các cặp mã code được AI trực tiếp tạo ra dựa trên các giải thích.
Với mô hình được huấn luyện bằng dữ liệu phong phú như vậy, nhóm nghiên cứu có thể xác định chính xác mã nào do AI viết trên GitHub. Từ đó, họ phân tích theo thời gian, theo quốc gia và theo đặc điểm người dùng.
Ai thích dùng AI viết code?
Tại Mỹ, tỷ lệ mã do AI viết tăng từ 0% năm 2020 lên tới 30,1% vào cuối năm 2024, cho thấy sự lan rộng nhanh chóng của các công cụ như ChatGPT và GitHub Copilot. Các nước theo sau bao gồm Đức (24,3%), Pháp (23,2%), Ấn Độ (21,6%), Nga (15,4%), và Trung Quốc (11,7%). Hàn Quốc không nằm trong nhóm quốc gia được phân tích lần này.
Ấn Độ đặc biệt tăng tốc từ năm 2023 và hiện đã theo sát Đức và Pháp. Ngược lại, tỷ lệ thấp ở Trung Quốc và Nga được cho là do hạn chế về khả năng tiếp cận công nghệ, môi trường pháp lý và việc sử dụng các nền tảng phát triển nội địa như Gitee thay vì GitHub.
Mức độ sử dụng AI còn khác biệt rõ rệt giữa các lập trình viên mới và lâu năm. Những người mới tham gia GitHub sử dụng AI để viết tới 41% mã của họ, trong khi con số này chỉ là 28% đối với các lập trình viên có kinh nghiệm hơn 10 năm. Điều này cho thấy thế hệ lập trình viên mới đang cởi mở hơn với việc áp dụng công nghệ mới.
Ngoài ra, nghiên cứu cũng cho thấy không có khác biệt đáng kể về mức sử dụng AI theo giới tính. Khi dự đoán giới tính dựa trên tên người dùng trên GitHub, cả nam và nữ đều có tỷ lệ sử dụng AI tương tự nhau.
AI không chỉ giúp tăng lượng mã viết ra. Nhóm nghiên cứu đã theo dõi hành vi của cùng một lập trình viên theo thời gian và thấy rằng số lượng mã lệnh hằng quý tăng trung bình 2,4% khi họ sử dụng AI nhiều hơn. Họ cũng gia tăng việc thử nghiệm các thư viện mới, hoặc kết hợp các thư viện chưa từng được sử dụng cùng nhau trước đó. Điều này cho thấy AI giúp tăng khả năng khám phá công nghệ và sáng tạo của lập trình viên, không chỉ đơn thuần là thay thế công việc lặp đi lặp lại.
Tác động kinh tế và thay đổi cách làm việc
Theo ước tính thận trọng của nhóm nghiên cứu, việc sử dụng AI trong phát triển phần mềm ở Mỹ tạo ra giá trị kinh tế hàng năm khoảng 9,61 tỉ USD. Con số này được tính dựa trên mức lương trung bình của lập trình viên và tỷ lệ sử dụng AI hiện tại (30%) cùng mức tăng năng suất 2,4%. Nếu áp dụng các kết quả năng suất cao hơn được ghi nhận trong các thử nghiệm đối chứng ngẫu nhiên (RCT) gần đây, giá trị kinh tế có thể lên tới 64 tỉ USD.
Quan trọng nhất, nghiên cứu nhấn mạnh rằng AI không chỉ là công cụ tự động hóa mà đang trở thành một “đồng nghiệp” thực sự trong quá trình phát triển phần mềm. Những lập trình viên sử dụng AI tích cực cho thấy sự thay đổi rõ rệt không chỉ về khối lượng mà còn ở nội dung, cấu trúc và phạm vi kỹ thuật của mã mà họ viết.
Tuy nhiên, cũng có sự khác biệt thế hệ trong mức độ đón nhận AI. Các nhà phát triển kỳ cựu thường cẩn trọng hơn, trong khi người mới lại có xu hướng chấp nhận nhanh hơn. Điều này có thể dẫn đến sự phân hóa văn hóa phát triển phần mềm trong tương lai.
Kết luận trong nghiên cứu, Simone Daniotti và các cộng sự tại Đại học Utrecht viết: “Điều quan trọng bây giờ không phải là bạn có quyền truy cập vào AI hay không, mà là bạn tích hợp nó vào công việc của mình sâu đến mức nào”. Họ cảnh báo: “Sự khác biệt trong mức độ sử dụng AI giữa các quốc gia, công ty và cá nhân cuối cùng có thể dẫn đến chênh lệch về năng suất và thu nhập”.
Anh Tú