Warning: session_start(): open(/home/obslnetp/public_html/src/var/sessions/sess_4a54ec7203d5c9d9fa57399ba90214b8, O_RDWR) failed: Disk quota exceeded (122) in /home/obslnetp/public_html/src/bootstrap.php on line 59

Warning: session_start(): Failed to read session data: files (path: /home/obslnetp/public_html/src/var/sessions) in /home/obslnetp/public_html/src/bootstrap.php on line 59
ViGen - 'thước đo' năng lực tiếng Việt của mô hình AI - Tin Tức Cập Nhật Nhanh

ViGen - 'thước đo' năng lực tiếng Việt của mô hình AI

4 hours ago 2

Quảng Cáo
0943778078

Dự án ViGen phát triển bộ dữ liệu và khung đánh giá quy mô lớn, giúp đo lường mức độ hiểu tiếng Việt của các mô hình AI theo ngữ cảnh thực tế.

Ngày hội Trí tuệ nhân tạo 2026 (AI Day 2026) diễn ra tại hội trường chính Đại học Bách khoa Hà Nội hôm 5/4, thu hút 560 người, 20 diễn giả, với hơn 25 phiên thảo luận, workshop. Một trong những câu hỏi được mọi người quan tâm là "AI đã thực sự hiểu tiếng Việt hay chưa?".

Trong phần trình bày về ViGen Leaderboard - nền tảng đánh giá, xếp hạng AI trong hiểu và xử lý Tiếng Việt, đại diện AI for Vietnam cho rằng khi yêu cầu AI giải thích một câu tục ngữ Việt, bạn sẽ nhận được câu trả lời hợp lý, trọn ý. Tuy nhiên nếu đề nghị nó soạn hợp đồng theo luật dân sự Việt Nam, xử lý phương ngữ Huế hay hiểu ý nghĩa lời chúc Tết, những hạn chế và vết nứt bắt đầu lộ ra.

Tiếng Việt khác biệt ở thanh điệu, cùng một âm tiết, khác dấu có thể mang ý nghĩa khác nhau. Một cuộc trò chuyện có thể chuyển đổi linh hoạt đại từ xưng hô, tùy tuổi tác, vai vế lẫn ngữ cảnh. Phương ngữ từ Hà Giang đến mũi Cà Mau lại mang đậm nét riêng. Cùng với đó là nét đặc trưng, chiều sâu văn hóa gồm: phong tục tập quán, ẩn dụ, lịch sử, cách người Việt bày tỏ cảm xúc. Những yếu tố này khiến các mô hình AI rất khó đạt tới khi chưa nắm vững ngôn ngữ tiếng Việt, thậm chí khó hơn nếu mô hình ấy chỉ đơn thuần học bằng cách dịch từ ngôn ngữ khác (như tiếng Anh).

Với mong muốn giải bài toán trên, Trung tâm Đổi mới sáng tạo Quốc gia (NIC), tập đoàn Meta và tổ chức AI for Vietnam khởi xướng dự án ViGen - hệ sinh thái giúp AI thực sự hữu ích với người Việt qua hoạt động nghiên cứu, phát triển nhằm đưa bản sắc Việt vào trí tuệ nhân tạo.

Đại diện NIC nhấn mạnh ViGen Leaderboard không phải mô hình AI mà là nền tảng để đánh giá mức độ thông thạo tiếng Việt. Cụ thể hơn, dự án ViGen vận hành theo hai hướng.

Đầu tiên, xây bộ dữ liệu tiếng Việt mã nguồn mở, thiết kế riêng để huấn luyện, đánh giá mô hình ngôn ngữ lớn. ViGen thu thập, tuyển chọn dữ liệu, chú trọng vào sự đa dạng về ngôn ngữ, đúng văn hóa và chuẩn mực đạo đức.

Thứ hai, dự án phát triển 6 bộ khung đánh giá với hơn 40.000 mẫu kiểm thử, đo mô hình AI trên độ thành thạo tiếng Việt gồm: kiến thức tổng quát (Vi-MMLU), khả năng lập trình (Vi-HumanEval), tình huống hội thoại (SEA-HELM-VN), giao tiếp hỏi đáp (Vi-MT-Bench), năng lực sư phạm (DeepEduBench) và suy luận thường thức (Vi-HellaSwag).

Ngoài ra, dự án còn vận hành hệ thống xếp hạng mở - ViGen Arena, cho phép người dùng Việt đánh giá trực tiếp các mô hình trong các trường hợp thực tế. Với sức mạnh cộng hưởng từ cộng đồng người Việt trong và ngoài nước, thuộc đủ ngành nghề, độ tuổi lẫn xuất thân, nền tảng được định vị là "thước đo" toàn diện cho sự phong phú của tiếng Việt.

Phương pháp tiếp cận trên thể hiện đúng tinh thần mà ông Võ Xuân Hoài, Phó Giám đốc NIC nhấn mạnh: "Cần xây dựng hệ sinh thái AI mở, vận hành trên nền tảng liên kết đa chủ thể - nơi Nhà nước kiến tạo chính sách, doanh nghiệp tiên phong ứng dụng, các cơ sở nghiên cứu, giáo dục cung cấp tri thức và cộng đồng công nghệ thúc đẩy đổi mới sáng tạo".

Ngoài ra, theo bà Thảo Griffiths, Giám đốc Chính sách công Meta phụ trách thị trường Việt Nam, Lào, Campuchia và Myanmar, Việt Nam đang dẫn đầu tỷ lệ ứng dụng AI ấn tượng, ghi nhận 93% doanh nghiệp vừa và nhỏ đã tích hợp AI vào hoạt động vận hành. Tuy nhiên, số liệu này chưa phản ánh hết bức tranh thực tế.

Bà Thảo Griffiths chỉ ra một số tác động thực sự của AI trong thực tế: một giáo viên ở Hà Nội có thể soạn giáo án với sự hỗ trợ của AI; chủ doanh nghiệp nhỏ tại TP HCM tiếp cận khách hàng mới nhờ công cụ thông minh hơn; một lập trình viên có thể phát triển sản phẩm dựa trên bộ dữ liệu tiếng Việt quy mô lớn qua dự án ViGen.

Kết quả đánh giá được công khai tại AI for Vietnam. Ai cũng có thể xem các mô hình từ OpenAI, Google, Meta, Anthropic lẫn công ty khác làm được gì qua bài đánh giá/ kiểm tra được thiết kế riêng cho tiếng Việt, chứ không phải dịch từ tiếng Anh. "Sự minh bạch tạo trách nhiệm giải trình cho nhà phát triển mô hình, cung cấp cho doanh nghiệp, nhà giáo dục, nhà hoạch định chính sách Việt Nam thông tin đáng tin cậy về công cụ AI nào thực sự phù hợp", đại diện dự án lý giải.

Ngoài công nghệ, ViGen ghi dấu ở mô hình hợp tác. NIC thuộc Bộ Tài chính điều phối sáng kiến, đảm bảo phù hợp chiến lược AI quốc gia. Meta đóng góp kinh nghiệm kỹ thuật về dữ liệu quy mô lớn, phương pháp mã nguồn mở. Các đối tác chiến lược Nvidia, Viettel, Viện Hàn lâm Khoa học và Công nghệ Việt Nam bổ sung tài nguyên tính toán cùng kiến thức chuyên ngành. Hơn 30 đối tác từ chính phủ, tập đoàn, doanh nghiệp đến trường đại học tạo liên minh vững chắc cho dự án những năm tới.

Về lộ trình 2026, ông Trần Việt Hùng, nhà sáng lập kiêm CEO AI for Vietnam, cho biết ViGen sẽ tập trung vào hoạt động ứng dụng AI cho doanh nghiệp. Trước tiên là mở rộng từ 6 lên 12 bộ khung đánh giá, tiếp tục thu thập phản hồi trực tiếp từ người dùng để doanh nghiệp có cái nhìn toàn cảnh về khả năng tiếng Việt của các mô hình AI.

Tiếp đó, đơn vị phát triển mạnh ứng dụng AI qua Hackathon thực chiến, chuỗi workshop, chương trình đào tạo. Cuối cùng kết nối các chuyên gia AI Việt trên toàn cầu với doanh nghiệp, tổ chức trong nước. "Tất cả hướng tới mục tiêu tăng tốc sự phát triển AI ở Việt Nam", CEO Trần Việt Hùng nói thêm.

Đông Vệ

Nền tảng ViGen Leaderboard hoàn toàn miễn phí, cho phép người dùng trải nghiệm và đánh giá trực tiếp 12 mô hình AI tại đây.

Read Entire Article