Deepseek có đột phá mới

6 giờ trướcBài gốc

Theo thông tin từ SCMP, DeepSeek-OCR đạt được thành tựu này bằng cách chuyển đổi nội dung văn bản thành dạng hình ảnh và sử dụng khả năng nhận thức thị giác để nén thông tin. Cách tiếp cận này cho phép các mô hình ngôn ngữ lớn xử lý khối lượng văn bản khổng lồ mà không làm tăng chi phí tính toán theo tỷ lệ thuận. Điều này tương tự như việc con người đọc một trang sách bằng cách nhìn toàn bộ đoạn văn thay vì đọc từng chữ.

Về mặt kỹ thuật, DeepSeek-OCR bao gồm hai thành phần chính: DeepEncoder và bộ giải mã DeepSeek3B-MoE-A570M. DeepEncoder hoạt động như công cụ cốt lõi, duy trì mức kích hoạt thấp dưới đầu vào có độ phân giải cao và đạt tỷ lệ nén mạnh. Bộ giải mã là mô hình Mixture-of-Experts với 570 triệu tham số, có nhiệm vụ tái tạo văn bản gốc. Kiến trúc MoE chia mô hình thành các mạng con chuyên xử lý tập hợp con của dữ liệu đầu vào, giúp tối ưu hóa hiệu suất.

Mô hình này nâng cao hiệu suất AI trong khi hạ thấp chi phí xây dựng và sử dụng. Ảnh minh họa

Kết quả thử nghiệm cho thấy, khi tỷ lệ nén dưới mười lần, DeepSeek-OCR đạt độ chính xác giải mã lên đến 97%. Ngay cả khi tỷ lệ nén lên tới 20 lần, mô hình vẫn giữ được độ chính xác khoảng 60%. Trên bộ dữ liệu chuẩn OmniDocBench, DeepSeek-OCR vượt trội so với các mô hình OCR lớn như GOT-OCR 2.0 và MinerU 2.0, trong khi chỉ sử dụng khoảng 100 token hình ảnh cho mỗi trang.

Đột phá này không chỉ giúp tiết kiệm chi phí tính toán đáng kể mà còn mở ra tiềm năng ứng dụng rộng rãi trong các lĩnh vực như tài chính, khoa học, với khả năng phân tích nội dung trực quan phức tạp như bảng biểu, công thức toán học và sơ đồ hình học.

Đặng Huyền - CTV

Nguồn SaoStar : https://www.saostar.vn/sac-mau-cuoc-song/deepseek-co-dot-pha-moi-202510231416260363.html