Trojan trong mô hình AI

Tháng 12 13, 2024

Mục Lục

Trong những thập kỷ tới, các rủi ro bảo mật liên quan đến hệ thống AI sẽ là trọng tâm chính trong nỗ lực của các nhà nghiên cứu. Một trong những rủi ro ít được khám phá nhất hiện nay là khả năng trojan hóa một mô hình AI. Điều này liên quan đến việc nhúng chức năng ẩn hoặc lỗi cố ý vào một hệ thống học máy có vẻ hoạt động chính xác khi nhìn thoáng qua. Có nhiều phương pháp khác nhau để tạo ra một con ngựa thành Troy như vậy, khác nhau về độ phức tạp và phạm vi — và tất cả chúng đều phải được bảo vệ.

Mã độc hại trong mô hình

Một số định dạng lưu trữ mô hình ML có thể chứa mã thực thi. Ví dụ, mã tùy ý có thể được thực thi trong khi tải tệp ở định dạng pickle, định dạng Python chuẩn được sử dụng để tuần tự hóa dữ liệu (chuyển đổi dữ liệu thành dạng thuận tiện để lưu trữ và truyền). Đặc biệt, định dạng này được sử dụng trong thư viện học sâu PyTorch. Trong một thư viện học máy phổ biến khác, TensorFlow, các mô hình ở định dạng .keras và HDF5 hỗ trợ “lớp lambda”, cũng thực thi các lệnh Python tùy ý. Mã này có thể dễ dàng che giấu chức năng độc hại.

Tài liệu của TensorFlow bao gồm cảnh báo rằng mô hình TensorFlow có thể đọc và ghi tệp, gửi và nhận dữ liệu mạng và thậm chí khởi chạy các quy trình con. Nói cách khác, về cơ bản, đây là một chương trình hoàn chỉnh.

Mã độc hại có thể kích hoạt ngay khi mô hình ML được tải. Vào tháng 2 năm 2024, khoảng 100 mô hình có chức năng độc hại đã được phát hiện trong kho lưu trữ mô hình công khai phổ biến, Hugging Face. Trong số này, 20% đã tạo một lớp vỏ ngược trên thiết bị bị nhiễm và 10% đã khởi chạy phần mềm bổ sung.

Đầu độc tập dữ liệu đào tạo

Các mô hình có thể bị trojan hóa ở giai đoạn đào tạo bằng cách thao túng các tập dữ liệu ban đầu. Quá trình này, được gọi là đầu độc dữ liệu, có thể có mục tiêu hoặc không có mục tiêu. Đầu độc có mục tiêu đào tạo một mô hình hoạt động không chính xác trong các trường hợp cụ thể (ví dụ: luôn tuyên bố rằng Yuri Gagarin là người đầu tiên đặt chân lên Mặt trăng). Đầu độc không có mục tiêu nhằm mục đích làm giảm chất lượng tổng thể của mô hình.

Các cuộc tấn công có mục tiêu khó phát hiện trong một mô hình đã được đào tạo vì chúng yêu cầu dữ liệu đầu vào rất cụ thể. Nhưng đầu độc dữ liệu đầu vào cho một mô hình lớn rất tốn kém vì nó đòi hỏi phải thay đổi một lượng dữ liệu đáng kể mà không bị phát hiện.

Trên thực tế, có những trường hợp đã biết về việc thao túng các mô hình tiếp tục học trong khi hoạt động. Ví dụ nổi bật nhất là vụ đầu độc chatbot Tay của Microsoft, được đào tạo để thể hiện quan điểm phân biệt chủng tộc và cực đoan trong vòng chưa đầy một ngày. Một ví dụ thực tế hơn là các nỗ lực đầu độc trình phân loại thư rác của Gmail. Ở đây, kẻ tấn công đánh dấu hàng chục nghìn email spam là hợp lệ để cho phép nhiều thư rác hơn vào hộp thư đến của người dùng.

Có thể đạt được mục tiêu tương tự bằng cách thay đổi nhãn đào tạo trong các tập dữ liệu có chú thích hoặc bằng cách đưa dữ liệu bị nhiễm độc vào quy trình tinh chỉnh của một mô hình được đào tạo trước.

Shadow logic

Một phương pháp mới để sửa đổi hệ thống AI một cách ác ý là đưa thêm các nhánh vào đồ thị tính toán của mô hình. Cuộc tấn công này không liên quan đến mã thực thi hoặc can thiệp vào quy trình đào tạo, nhưng mô hình đã sửa đổi có thể thể hiện hành vi mong muốn để phản hồi dữ liệu đầu vào cụ thể được xác định trước.

Cuộc tấn công tận dụng thực tế là các mô hình học máy sử dụng đồ thị tính toán để cấu trúc các phép tính cần thiết cho quá trình đào tạo và thực thi của chúng. Đồ thị mô tả trình tự các khối mạng nơ-ron được kết nối và xác định các tham số hoạt động của chúng. Đồ thị tính toán được thiết kế riêng cho từng mô hình, mặc dù trong một số kiến trúc mô hình ML, chúng là động.

Các nhà nghiên cứu đã chứng minh rằng đồ thị tính toán của một mô hình đã được đào tạo có thể được sửa đổi bằng cách thêm một nhánh vào các giai đoạn đầu của hoạt động của nó để phát hiện “tín hiệu đặc biệt” trong dữ liệu đầu vào; sau khi phát hiện, mô hình được chỉ đạo hoạt động theo logic được lập trình riêng. Trong một ví dụ từ nghiên cứu, mô hình phát hiện đối tượng video phổ biến YOLO đã được sửa đổi để bỏ qua những người trong khung hình nếu cũng có một chiếc cốc.

Nguy cơ của phương pháp này nằm ở khả năng áp dụng của nó cho bất kỳ mô hình nào, bất kể định dạng lưu trữ, phương thức hoặc phạm vi ứng dụng. Có thể triển khai backdoor cho xử lý ngôn ngữ tự nhiên, phát hiện đối tượng, nhiệm vụ phân loại và mô hình ngôn ngữ đa phương thức. Hơn nữa, sửa đổi như vậy có thể được bảo toàn ngay cả khi mô hình trải qua quá trình đào tạo và tinh chỉnh thêm.

Cách bảo vệ các mô hình AI tránh backdoors

Một biện pháp bảo mật quan trọng là kiểm soát toàn diện chuỗi cung ứng. Điều này có nghĩa là đảm bảo rằng nguồn gốc của mọi thành phần trong hệ thống AI đều được biết đến và không có sửa đổi độc hại, bao gồm:

Mã chạy mô hình AI
Môi trường điện toán mà mô hình hoạt động (thường là lưu trữ đám mây)
Các tệp của mô hình
Dữ liệu được sử dụng để đào tạo
Dữ liệu được sử dụng để tinh chỉnh

Các kho lưu trữ ML lớn đang dần triển khai chữ ký số để xác minh nguồn gốc và mã của mô hình.

Trong trường hợp không thể kiểm soát chặt chẽ nguồn gốc của dữ liệu và mã, nên tránh các mô hình từ các nguồn đáng ngờ và ưu tiên các dịch vụ của nhà cung cấp có uy tín.

Tổng hợp

Đánh giá

Đăng ký dùng thử sản phẩm

Hướng dẫn cấu hình Bitdefender GravityZone chuẩn từ chuyên gia

Th6 9, 2026

Trong kỷ nguyên an ninh mạng biến động phức tạp, việc chỉ cài đặt mặc định một giải pháp bảo mật Endpoint là không đủ để bảo vệ hệ thống cốt lõi của doanh nghiệp. Bitdefender GravityZone là một trong những nền tảng quản trị bảo mật hàng đầu thế giới, nhưng để khai...

Lựa chọn giải pháp lưu trữ trong doanh nghiệp?

Th6 4, 2026

Trong kỷ nguyên số, dữ liệu được ví như "vàng đen" và là tài sản sống còn của mọi tổ chức. Làm thế nào để xây dựng một giải pháp lưu trữ dữ liệu cho doanh nghiệp vừa đảm bảo tính linh hoạt, khả năng mở rộng, vừa đáp ứng tiêu chuẩn chia sẻ dữ liệu an toàn? Bài viết này...

Phân biệt Microsoft 365 Backup và Retention Policy

Th5 21, 2026

Trong kỷ nguyên số, Microsoft 365 (M365) đã trở thành nền tảng cốt lõi cho mọi hoạt động vận hành, giao tiếp và lưu trữ của doanh nghiệp. Để bảo vệ khối tài sản dữ liệu khổng lồ này, Microsoft tích hợp sẵn các tính năng bảo vệ như Retention Policies (Chính sách giữ...

So sánh 2FA và MFA – Sự khác biệt là gì và giải pháp nào bảo mật hơn?

Th3 24, 2026

Trong kỷ nguyên số, việc lộ lọt thông tin đăng nhập là nguyên nhân hàng đầu dẫn đến các vụ tấn công mạng. Để bảo vệ tài khoản, các phương thức xác thực truyền thống chỉ bằng mật khẩu đã không còn đủ an toàn. Đây là lúc 2FA (Xác thực 2 yếu tố) và MFA (Xác thực đa yếu...

Fact và Dim trong Power BI

Th3 19, 2026

Bảng Fact và bảng Dim, viết tắt của Dimension, là các khái niệm được sử dụng trong lĩnh vực data warehousing và data analytics để mô hình hóa và tổ chức dữ liệu. Bảng Dim Bảng Dimension là bảng chứa các thuộc tính (attributes) mô tả các thông tin của 01 chiều...

Manus AI là gì? Ứng dụng Manus AI vào doanh nghiệp

Th3 9, 2026

Trong kỷ nguyên trí tuệ nhân tạo, nếu ChatGPT hay Claude là những người "giỏi nói", thì Manus AI chính là người "giỏi làm". Không chỉ dừng lại ở việc trả lời câu hỏi, Manus AI đang định nghĩa lại khái niệm AI Agent (Đại lý AI) với khả năng thực thi tác vụ độc lập từ...