Em Matthew Paz, học sinh Trường Trung học Pasadena đã giành giải Nhất trị giá 250.000 USD tại cuộc thi khoa học Regeneron Science Talent Search - một trong những sân chơi khoa học uy tín dành cho học sinh tại Mỹ. Ảnh: ECONEWS
Khai phá “mỏ vàng” dữ liệu cũ
Câu chuyện bắt đầu từ một giả định đơn giản nhưng táo bạo: liệu những khám phá lớn vẫn có thể đang “ẩn mình” trong các kho dữ liệu cũ, chỉ chờ phương pháp phù hợp để phát hiện?
Matthew Paz, học sinh Trường Trung học Pasadena, California đã chứng minh điều đó là có thật. Em xây dựng một hệ thống AI để phân tích lại dữ liệu hồng ngoại từ dự án Kính viễn vọng khảo sát hồng ngoại trường rộng tìm kiếm vật thể gần Trái đất (NEOWISE) của Cơ quan Hàng không Vũ trụ Mỹ (NASA) và phát hiện khoảng 1,5 triệu vật thể biến đổi chưa từng được các nhà khoa học nhận diện trước đây.
Điều đáng chú ý không chỉ là con số lớn, mà còn ở ý nghĩa rộng hơn: các bộ dữ liệu khoa học đã được biết đến đang trở thành nguồn tài nguyên quý giá, và công nghệ học máy chính là chìa khóa để “mở khóa” chúng. Nghiên cứu của Paz đã được công bố trên tạp chí khoa học The Astronomical Journal.
Thách thức dữ liệu khổng lồ và lời giải từ AI
NEOWISE vốn được thiết kế để tìm kiếm các tiểu hành tinh gần Trái Đất. Tuy nhiên, trong quá trình hoạt động, hệ thống này cũng ghi nhận nhiều tín hiệu từ các vật thể xa xôi có độ sáng thay đổi theo thời gian, như chuẩn tinh hay sao nổ.
Khó khăn lớn nhất nằm ở quy mô dữ liệu: gần 200 tỷ lần quan sát trong hơn 10 năm, tương đương khoảng 200 terabyte thông tin. Với khối lượng này, việc kiểm tra thủ công gần như bất khả thi.
Để giải bài toán này, Paz phát triển hệ thống có tên VARnet. Công cụ này phân tích “đường cong ánh sáng”- tức sự thay đổi độ sáng của vật thể theo thời gian - để phát hiện các dấu hiệu biến đổi.
Bằng cách kết hợp các phương pháp xử lý tín hiệu với mạng nơ-ron, hệ thống có thể phân biệt đâu là biến đổi thực sự và đâu chỉ là nhiễu. Tốc độ xử lý cực nhanh cho phép áp dụng trên quy mô dữ liệu toàn bầu trời.
Kết quả thử nghiệm cho thấy độ chính xác cao, giúp phân loại hiệu quả nhiều dạng vật thể biến đổi khác nhau.
Ý nghĩa của “phát hiện mới”
Các vật thể “mới” không phải là những thiên thể vừa xuất hiện, mà là những đối tượng trước đây chưa được nhận diện rõ ràng về đặc tính biến đổi.
Bản đồ quỹ đạo hiển thị hàng ngàn vật thể được phát hiện trong hệ mặt trời, một phần của phân tích dựa trên trí tuệ nhân tạo từ bộ dữ liệu NEOWISE của NASA. Ảnh: ECONEWS
Dự án của Paz đã xây dựng một danh mục khoảng 1,9 triệu vật thể biến đổi trong dải hồng ngoại, trong đó 1,5 triệu được xem là phát hiện mới theo nghĩa phân loại. Những vật thể này được chia thành 10 nhóm, giúp các nhà khoa học dễ dàng nghiên cứu theo mục tiêu cụ thể.
Đặc biệt, quan sát hồng ngoại còn cho phép phát hiện tín hiệu trong các vùng không gian bị bụi che khuất - nơi mà các phương pháp quan sát thông thường khó tiếp cận.
Từ vũ trụ đến Trái Đất
Dù nghiên cứu hướng đến không gian, phương pháp mà Paz sử dụng lại có ý nghĩa rộng hơn. Cốt lõi của công trình là phân tích dữ liệu theo chuỗi thời gian - một kỹ thuật có thể ứng dụng trong nhiều lĩnh vực trên Trái Đất.
Chẳng hạn, nó có thể giúp theo dõi ô nhiễm không khí, biến động khí hậu hay các chu kỳ môi trường - những hiện tượng cũng có tính lặp lại theo ngày, theo mùa.
Tuy nhiên, sự phát triển của AI cũng đặt ra một vấn đề khác: chi phí năng lượng cho tính toán ngày càng lớn, trở thành một yếu tố cần cân nhắc trong bài toán môi trường.
Hồng Nhung