Warning: session_start(): open(/home/obslnetp/public_html/src/var/sessions/sess_6b4b762596eb36a233c83460fd8d5fd2, O_RDWR) failed: Disk quota exceeded (122) in /home/obslnetp/public_html/src/bootstrap.php on line 59

Warning: session_start(): Failed to read session data: files (path: /home/obslnetp/public_html/src/var/sessions) in /home/obslnetp/public_html/src/bootstrap.php on line 59
NVIDIA ra mô hình AI xử lý cùng lúc video, âm thanh và văn bản - Tin Tức Cập Nhật Nhanh

NVIDIA ra mô hình AI xử lý cùng lúc video, âm thanh và văn bản

11 hours ago 2

Quảng Cáo
0943778078

NVIDIA vừa giới thiệu Nemotron 3 Nano Omni, mô hình AI đa phương thức mới hướng đến doanh nghiệp và nhà phát triển, với mục tiêu xử lý đồng thời video, âm thanh, hình ảnh và văn bản trong cùng một hệ thống.

Theo thông tin NVIDIA công bố, Nemotron 3 Nano Omni là mô hình mở, được thiết kế để phục vụ các tác vụ AI kiểu tác tử, tức những hệ thống có thể tự quan sát dữ liệu, suy luận rồi đưa ra phản hồi. Điểm NVIDIA nhấn mạnh là mô hình mới có tốc độ xử lý cao hơn tới 9 lần so với nhiều mô hình mở cùng loại khi hoạt động ở mức tương tác tương đương. Điều này giúp giảm chi phí vận hành và tăng khả năng mở rộng khi triển khai trên quy mô lớn.

Khác với cách xây dựng phải tách riêng phần nhìn hình ảnh và phần nghe âm thanh, Nemotron 3 Nano Omni kết hợp cả hai bộ mã hóa trong kiến trúc 30B-A3B dạng mixture-of-experts lai. Cách làm này giúp hệ thống không cần thêm các mô hình cảm nhận độc lập, từ đó tăng hiệu quả suy luận. NVIDIA cho biết mô hình vẫn giữ được độ chính xác cao khi xử lý nhiều loại dữ liệu khác nhau, trong khi chi phí duy trì ở mức thấp hơn.

NVIDIA ra Nemotron 3 Nano Omni, xử lý cùng lúc video, âm thanh và văn bản - Ảnh 1.

Hãng cũng nói Nemotron 3 Nano Omni đang dẫn đầu 6 bảng xếp hạng liên quan đến phân tích tài liệu phức tạp, cũng như khả năng hiểu video và âm thanh. Với doanh nghiệp, đây là nhóm năng lực quan trọng vì AI đọc chữ, hiểu cấu trúc tài liệu, hình ảnh minh họa, bảng biểu, nội dung trên màn hình và cả ngữ cảnh trong âm thanh hoặc video.

NVIDIA định vị mô hình này như một thành phần trong hệ thống AI lớn hơn. Nemotron 3 Nano Omni có thể hoạt động cùng các mô hình đám mây độc quyền, hoặc kết hợp với những mô hình khác trong dòng Nemotron như Nemotron 3 Super cho các tác vụ cần xử lý liên tục với tần suất cao, hay Nemotron 3 Ultra cho các bài toán lập kế hoạch phức tạp hơn. Cách phối hợp này cho phép xây dựng các tác tử phụ cho những quy trình như điều khiển máy tính, phân tích tài liệu, hoặc suy luận từ âm thanh và video.

NVIDIA ra Nemotron 3 Nano Omni, xử lý cùng lúc video, âm thanh và văn bản - Ảnh 2.

Ở mảng sử dụng máy tính, mô hình được dùng để giúp tác tử quan sát giao diện đồ họa, hiểu nội dung đang hiển thị trên màn hình và theo dõi trạng thái giao diện theo thời gian. NVIDIA dẫn ví dụ H Company đã dùng Nemotron 3 Nano Omni cho tác tử sử dụng máy tính mới của hãng, với độ phân giải đầu vào gốc 1920 x 1080 Pixel để tăng khả năng suy luận từ hình ảnh. Trong các đánh giá ban đầu trên bộ đo OSWorld, cách kết hợp này cho thấy tiến bộ rõ rệt khi xử lý những giao diện đồ họa phức tạp.

Trong lĩnh vực phân tích tài liệu, mô hình có thể đọc tài liệu, biểu đồ, bảng số liệu, ảnh chụp màn hình và dữ liệu trộn nhiều định dạng, từ đó giúp hệ thống AI hiểu đồng thời bố cục trực quan lẫn phần nội dung chữ. Đây là năng lực hữu ích cho các công việc phân tích nội bộ doanh nghiệp hoặc kiểm tra tuân thủ.

Với âm thanh và video, NVIDIA cho biết Nemotron 3 Nano Omni có thể giữ được ngữ cảnh xuyên suốt giữa lời nói, hình ảnh xuất hiện và tài liệu liên quan, thay vì tạo ra các bản tóm tắt rời rạc. Mô hình này hiện đã được một số công ty như Aible, Applied Scientific Intelligence, Eka Care, Foxconn, H Company, Palantir và Pyler áp dụng, trong khi Dell Technologies, DocuSign, Infosys, K-Dense, Lila, Oracle và Zefr đang trong giai đoạn đánh giá.

Read Entire Article