Quảng Cáo
0943778078
Vào tháng 4 năm 2026, Anthropic chính thức khởi động Project Glasswing, một chương trình nghiên cứu bảo mật phòng thủ cho phép một số tổ chức được chọn lọc dùng thử Mythos Preview, mô hình AI bảo mật chưa được phát hành công khai của hãng. Danh sách ban đầu gồm khoảng 40 tổ chức lớn như AWS, Apple, Google, Microsoft và CrowdStrike.
Lý do Anthropic giữ Mythos lại thay vì phát hành rộng rãi như các mô hình Claude thông thường rất đơn giản: hãng tự đánh giá mô hình này quá nguy hiểm để đưa ra công chúng mà không có biện pháp kiểm soát chặt chẽ. Nhiều người cho rằng quyết định này của Anthropic có thể chỉ là một chiêu trò marketing cho sản phẩm của mình, để chào mời các đối tác khác.
Cloudflare không có tên trong danh sách ban đầu đó. Công ty bảo mật internet bảo vệ hàng triệu website toàn cầu này được mời tham gia muộn hơn, và quyết định lập tức đưa Mythos vào thử nghiệm thực chiến trên hơn 50 repo production thật của chính mình.
Kết quả thử nghiệm đó vừa được CISO của Cloudflare công bố trong một báo cáo chi tiết, và kết luận chính của họ trùng khớp hoàn toàn với lo ngại ban đầu của Anthropic: Mythos quá mạnh, và thậm chí cần thêm nhiều lớp bảo vệ hơn nữa trước khi có thể phát hành công khai.
Để hiểu tại sao kết luận đó đáng lo ngại, bạn cần biết rằng Mythos không chỉ làm tốt hơn các mô hình AI bảo mật trước đó về mặt số lượng lỗ hổng tìm được. Bước nhảy vọt thật sự là khả năng ghép nhiều lỗ hổng nhỏ lại với nhau thành một chuỗi tấn công hoàn chỉnh.
Trước Mythos, các mô hình AI khác khi phát hiện một lỗ hổng thường dừng lại ở mức "đây là bug thú vị, chưa rõ có khai thác được không." Mythos làm khác: nó lấy nhiều lỗ hổng riêng lẻ vốn không đủ nguy hiểm nếu đứng độc lập, lý giải cách kết hợp chúng lại, rồi viết ra đoạn code proof-of-concept chạy được để chứng minh chuỗi tấn công đó hoạt động trong thực tế.
Cloudflare mô tả quá trình lý luận của Mythos trông giống công việc của một nhà nghiên cứu bảo mật cấp cao hơn là kết quả của một công cụ quét tự động. Kết quả thực tế là thời gian phân loại lỗ hổng giảm đáng kể vì mỗi phát hiện đến kèm bằng chứng hoạt động được, không còn phải mất thêm thời gian hỏi "lỗ hổng này có thật không."
Tuy nhiên, chính quá trình thử nghiệm đó cũng phơi bày vấn đề lớn nhất khiến Anthropic chưa dám phát hành Mythos. Mô hình này có cơ chế tự từ chối một số yêu cầu nhất định, nhưng cơ chế đó hoạt động không nhất quán theo cách đáng lo ngại.
Trong một trường hợp được Cloudflare ghi lại, Mythos từ chối thực hiện nghiên cứu lỗ hổng trên một đoạn code, nhưng khi cùng yêu cầu đó được đặt lại trong một ngữ cảnh môi trường khác dù code không thay đổi gì, mô hình đồng ý thực hiện ngay. Trong một trường hợp khác, Mythos tìm và xác nhận được nhiều lỗi bộ nhớ nghiêm trọng trong một codebase, nhưng sau đó từ chối viết demo khai thác. Cùng yêu cầu đó được đặt lại theo cách khác thì được chấp nhận.
Ban đầu Mythos từ chối viết mã tấn công lỗ hổng, nhưng sau đó lại cho biết, nếu có thể cung cấp bằng chứng về hoạt động ủy quyền hợp pháp, Mythos sẽ viết code tấn công thử nghiệm
Cloudflare kết luận thẳng thắn: cơ chế từ chối tự phát sinh của Mythos là có thật, nhưng không đủ nhất quán để đóng vai trò rào cản an toàn hoàn chỉnh. Bất kỳ mô hình AI bảo mật nào được phát hành công khai trong tương lai đều phải có thêm các lớp bảo vệ bổ sung bên trên nền tảng đó.
Ngoài vấn đề an toàn, Cloudflare còn đưa ra một cảnh báo quan trọng hơn nhắm vào toàn ngành bảo mật. Nhiều đội bảo mật hiện đang phản ứng với tốc độ của Mythos bằng cách rút ngắn thời gian xử lý từ phát hiện lỗ hổng đến vá lỗi xuống còn hai tiếng. Cloudflare cho rằng đây là hướng đi sai.
Vá lỗi nhanh hơn không thay đổi được cấu trúc quy trình tạo ra bản vá, và nếu bỏ qua kiểm tra hồi quy để đạt mục tiêu hai tiếng thì lỗi mới sinh ra từ bản vá đó thường tệ hơn lỗi ban đầu. Thứ thật sự cần thay đổi là kiến trúc hệ thống: thiết kế ứng dụng sao cho một lỗ hổng trong một phần không thể cho kẻ tấn công tiếp cận phần còn lại, đặt lớp bảo vệ phía trước ứng dụng để chặn lỗi trước khi bị tiếp cận, và có khả năng triển khai bản vá đồng loạt đến mọi nơi cùng lúc thay vì chờ từng nhóm triển khai riêng lẻ.
Khi AI như Mythos có thể rút ngắn thời gian từ phát hiện lỗ hổng đến khai thác hoàn chỉnh xuống còn vài giờ, chiến lược phòng thủ phải thay đổi từ gốc rễ chứ không chỉ chạy nhanh hơn trên cùng một con đường cũ.
