Trojan trong mô hình AI

Tháng 12 13, 2024

Trong những thập kỷ tới, các rủi ro bảo mật liên quan đến hệ thống AI sẽ là trọng tâm chính trong nỗ lực của các nhà nghiên cứu. Một trong những rủi ro ít được khám phá nhất hiện nay là khả năng trojan hóa một mô hình AI. Điều này liên quan đến việc nhúng chức năng ẩn hoặc lỗi cố ý vào một hệ thống học máy có vẻ hoạt động chính xác khi nhìn thoáng qua. Có nhiều phương pháp khác nhau để tạo ra một con ngựa thành Troy như vậy, khác nhau về độ phức tạp và phạm vi — và tất cả chúng đều phải được bảo vệ.

Mã độc hại trong mô hình

Một số định dạng lưu trữ mô hình ML có thể chứa mã thực thi. Ví dụ, mã tùy ý có thể được thực thi trong khi tải tệp ở định dạng pickle, định dạng Python chuẩn được sử dụng để tuần tự hóa dữ liệu (chuyển đổi dữ liệu thành dạng thuận tiện để lưu trữ và truyền). Đặc biệt, định dạng này được sử dụng trong thư viện học sâu PyTorch. Trong một thư viện học máy phổ biến khác, TensorFlow, các mô hình ở định dạng .keras và HDF5 hỗ trợ “lớp lambda”, cũng thực thi các lệnh Python tùy ý. Mã này có thể dễ dàng che giấu chức năng độc hại.

Tài liệu của TensorFlow bao gồm cảnh báo rằng mô hình TensorFlow có thể đọc và ghi tệp, gửi và nhận dữ liệu mạng và thậm chí khởi chạy các quy trình con. Nói cách khác, về cơ bản, đây là một chương trình hoàn chỉnh.

Mã độc hại có thể kích hoạt ngay khi mô hình ML được tải. Vào tháng 2 năm 2024, khoảng 100 mô hình có chức năng độc hại đã được phát hiện trong kho lưu trữ mô hình công khai phổ biến, Hugging Face. Trong số này, 20% đã tạo một lớp vỏ ngược trên thiết bị bị nhiễm và 10% đã khởi chạy phần mềm bổ sung.

Đầu độc tập dữ liệu đào tạo

Các mô hình có thể bị trojan hóa ở giai đoạn đào tạo bằng cách thao túng các tập dữ liệu ban đầu. Quá trình này, được gọi là đầu độc dữ liệu, có thể có mục tiêu hoặc không có mục tiêu. Đầu độc có mục tiêu đào tạo một mô hình hoạt động không chính xác trong các trường hợp cụ thể (ví dụ: luôn tuyên bố rằng Yuri Gagarin là người đầu tiên đặt chân lên Mặt trăng). Đầu độc không có mục tiêu nhằm mục đích làm giảm chất lượng tổng thể của mô hình.

Các cuộc tấn công có mục tiêu khó phát hiện trong một mô hình đã được đào tạo vì chúng yêu cầu dữ liệu đầu vào rất cụ thể. Nhưng đầu độc dữ liệu đầu vào cho một mô hình lớn rất tốn kém vì nó đòi hỏi phải thay đổi một lượng dữ liệu đáng kể mà không bị phát hiện.

Trên thực tế, có những trường hợp đã biết về việc thao túng các mô hình tiếp tục học trong khi hoạt động. Ví dụ nổi bật nhất là vụ đầu độc chatbot Tay của Microsoft, được đào tạo để thể hiện quan điểm phân biệt chủng tộc và cực đoan trong vòng chưa đầy một ngày. Một ví dụ thực tế hơn là các nỗ lực đầu độc trình phân loại thư rác của Gmail. Ở đây, kẻ tấn công đánh dấu hàng chục nghìn email spam là hợp lệ để cho phép nhiều thư rác hơn vào hộp thư đến của người dùng.

Có thể đạt được mục tiêu tương tự bằng cách thay đổi nhãn đào tạo trong các tập dữ liệu có chú thích hoặc bằng cách đưa dữ liệu bị nhiễm độc vào quy trình tinh chỉnh của một mô hình được đào tạo trước.

Shadow logic

Một phương pháp mới để sửa đổi hệ thống AI một cách ác ý là đưa thêm các nhánh vào đồ thị tính toán của mô hình. Cuộc tấn công này không liên quan đến mã thực thi hoặc can thiệp vào quy trình đào tạo, nhưng mô hình đã sửa đổi có thể thể hiện hành vi mong muốn để phản hồi dữ liệu đầu vào cụ thể được xác định trước.

Cuộc tấn công tận dụng thực tế là các mô hình học máy sử dụng đồ thị tính toán để cấu trúc các phép tính cần thiết cho quá trình đào tạo và thực thi của chúng. Đồ thị mô tả trình tự các khối mạng nơ-ron được kết nối và xác định các tham số hoạt động của chúng. Đồ thị tính toán được thiết kế riêng cho từng mô hình, mặc dù trong một số kiến ​​trúc mô hình ML, chúng là động.

Các nhà nghiên cứu đã chứng minh rằng đồ thị tính toán của một mô hình đã được đào tạo có thể được sửa đổi bằng cách thêm một nhánh vào các giai đoạn đầu của hoạt động của nó để phát hiện “tín hiệu đặc biệt” trong dữ liệu đầu vào; sau khi phát hiện, mô hình được chỉ đạo hoạt động theo logic được lập trình riêng. Trong một ví dụ từ nghiên cứu, mô hình phát hiện đối tượng video phổ biến YOLO đã được sửa đổi để bỏ qua những người trong khung hình nếu cũng có một chiếc cốc.

Nguy cơ của phương pháp này nằm ở khả năng áp dụng của nó cho bất kỳ mô hình nào, bất kể định dạng lưu trữ, phương thức hoặc phạm vi ứng dụng. Có thể triển khai backdoor cho xử lý ngôn ngữ tự nhiên, phát hiện đối tượng, nhiệm vụ phân loại và mô hình ngôn ngữ đa phương thức. Hơn nữa, sửa đổi như vậy có thể được bảo toàn ngay cả khi mô hình trải qua quá trình đào tạo và tinh chỉnh thêm.

Cách bảo vệ các mô hình AI tránh backdoors

Một biện pháp bảo mật quan trọng là kiểm soát toàn diện chuỗi cung ứng. Điều này có nghĩa là đảm bảo rằng nguồn gốc của mọi thành phần trong hệ thống AI đều được biết đến và không có sửa đổi độc hại, bao gồm:

  • Mã chạy mô hình AI
  • Môi trường điện toán mà mô hình hoạt động (thường là lưu trữ đám mây)
  • Các tệp của mô hình
  • Dữ liệu được sử dụng để đào tạo
  • Dữ liệu được sử dụng để tinh chỉnh

Các kho lưu trữ ML lớn đang dần triển khai chữ ký số để xác minh nguồn gốc và mã của mô hình.

Trong trường hợp không thể kiểm soát chặt chẽ nguồn gốc của dữ liệu và mã, nên tránh các mô hình từ các nguồn đáng ngờ và ưu tiên các dịch vụ của nhà cung cấp có uy tín.

Tổng hợp

Đánh giá

Đăng ký dùng thử sản phẩm

9 + 6 =

Microsoft Office 2024 có gì mới?

Microsoft Office 2024 có gì mới?

Microsoft vừa ra mắt phiên bản Office 2024 vào ngày 1 tháng 10, nhằm phục vụ cho người dùng và doanh nghiệp nhỏ không muốn sử dụng dịch vụ đăng ký Microsoft 365. Office 2024 cung cấp hai gói lựa chọn: Office Home 2024 với giá 149,99 USD và Office Home & Business...

Tăng khả năng làm việc nhóm cùng Microsoft loop

Tăng khả năng làm việc nhóm cùng Microsoft loop

Microsoft Loop là gì? Microsoft Loop là công cụ làm việc nhóm dựa trên nền tảng mã nguồn mở Fluid Framework, hỗ trợ người dùng cộng tác và cùng nhau lên ý tưởng cũng như thực hiện kế hoạch chung. https://www.youtube.com/watch?v=BkhaV46HM2E MS Loop gồm 3 thành phần...

Microsoft Word là gì?

Microsoft Word là gì?

Microsoft Word, còn được biết đến với tên khác là Winword, là một chương trình soạn thảo văn bản khá phổ biển hiện nay của công ty phần mềm nổi tiếng Microsoft. Cùng GADITI tìm hiểu qua bài viết sau nhé. Microsoft Word có nghĩa là gì? Microsoft Word là một trình xử lý...

Microsoft Copilot là gì? Cách sử dụng Copilot trong Windows

Microsoft Copilot là gì? Cách sử dụng Copilot trong Windows

Rất nhiều công ty công nghệ lớn đều có mô hình AI của riêng mình và Microsoft cũng không ngoại lệ. Mô hình AI của nó được gọi là "Copilot" và bạn có thể đã thấy nó trên Windows 11 hoặc trong Microsoft Office. Nhưng Copilot là gì và bạn có thể làm gì với nó? Cùng...

Mikrotik là gì? Có nên sử dụng trong doanh nghiệp?

Mikrotik là gì? Có nên sử dụng trong doanh nghiệp?

MikroTik là gì? MikroTik là công ty công nghệ được thành lập năm 1996 tại Latvia để phát triển bộ định tuyến Router và hệ thống ISP không dây. MikroTik hiện cung cấp phần cứng và phần mềm để kết nối Internet ở hầu hết các quốc gia trên thế giới. Kinh nghiệm của...