ทีม AI Security ของ Microsoft ได้พัฒนาเครื่องมือสแกนน้ำหนักเบาที่สามารถตรวจจับ Backdoor ในโมเดลภาษาขนาดใหญ่ (LLMs) แบบ Open-Weight เพื่อเพิ่มความน่าเชื่อถือให้กับระบบ AI โดยเครื่องมือนี้ใช้สัญญาณเชิงพฤติกรรม 3 ประการในการระบุ Backdoor ที่ถูกฝังไว้ในน้ำหนักของโมเดลระหว่างการฝึกฝน ซึ่งทำให้โมเดลที่ถูกโจมตี (เรียกว่า ‘sleeper agents’) แสดงพฤติกรรมที่ตั้งใจไว้เมื่อตรวจพบ ‘trigger inputs’ ที่เฉพาะเจาะจง การโจมตีรูปแบบนี้เรียกว่า ‘model poisoning’ ซึ่งทำให้โมเดลดูปกติในสถานการณ์ส่วนใหญ่ แต่จะตอบสนองแตกต่างกันภายใต้เงื่อนไขทริกเกอร์ที่กำหนดอย่างแคบ วิธีการสแกนนี้ไม่จำเป็นต้องมีการฝึกฝนโมเดลเพิ่มเติมหรือความรู้ล่วงหน้าเกี่ยวกับพฤติกรรม Backdoor และใช้งานได้กับโมเดลสไตล์ GPT ทั่วไป การพัฒนานี้เป็นส่วนหนึ่งของความพยายามของ Microsoft ในการขยาย Secure Development Lifecycle (SDL) เพื่อจัดการกับความกังวลด้านความปลอดภัยที่เฉพาะเจาะจงของ AI
Severity: สูง
System Impact:
- โมเดลภาษาขนาดใหญ่แบบ Open-Weight (LLMs)
- ระบบปัญญาประดิษฐ์ (AI systems)
- โมเดลการเรียนรู้ของเครื่อง (Machine learning models)
- กระบวนการพัฒนาซอฟต์แวร์ที่ปลอดภัย (Secure Development Lifecycle – SDL) สำหรับ AI
Technical Attack Steps:
- ผู้โจมตีฝังพฤติกรรมที่ซ่อนอยู่ (Backdoor) เข้าไปในน้ำหนักของโมเดลโดยตรงระหว่างการฝึกฝน
- โมเดลที่มี Backdoor (‘sleeper agent’) จะอยู่ในสถานะไม่ทำงาน
- เมื่อตรวจพบ ‘trigger inputs’ หรือ ‘trigger phrases’ ที่เฉพาะเจาะจง โมเดลจะดำเนินการที่ไม่ตั้งใจหรือไม่พึงประสงค์
Recommendations:
Short Term:
- นำเครื่องมือสแกน Backdoor ใน LLMs ที่พัฒนาโดย Microsoft หรือเครื่องมือที่คล้ายกันมาใช้งาน
- วิเคราะห์พฤติกรรมภายในของโมเดล (เช่น รูปแบบการ Attention, การกระจายผลลัพธ์) เพื่อหาสิ่งผิดปกติเมื่อมีวลีทริกเกอร์อยู่
- ใช้เทคนิคการสกัดหน่วยความจำเพื่อระบุข้อมูลการโจมตีแบบ poisoning ที่อาจรั่วไหล
Long Term:
- ขยายแนวทางการพัฒนาซอฟต์แวร์ที่ปลอดภัย (SDL) ให้ครอบคลุมความกังวลด้านความปลอดภัยที่เฉพาะเจาะจงของ AI เช่น prompt injections, data poisoning, และพฤติกรรมที่ไม่คาดคิดจากปลั๊กอิน, ข้อมูลที่เรียกคืน, การอัปเดตโมเดล, สถานะหน่วยความจำ, และ API ภายนอก
- ส่งเสริมการเรียนรู้ร่วมกันและความร่วมมือในชุมชนความปลอดภัย AI เพื่อการปรับปรุงการตรวจจับ Backdoor อย่างต่อเนื่อง
- พัฒนากระบวนการที่แข็งแกร่งสำหรับการตรวจสอบความสมบูรณ์ของน้ำหนักและโค้ดของโมเดล โดยเฉพาะเมื่อใช้ LLMs แบบ open-weight จากแหล่งภายนอก
- ศึกษาและนำโซลูชันสำหรับการตรวจจับ Backdoor ในโมเดลกรรมสิทธิ์มาใช้ในกรณีที่การเข้าถึงไฟล์โดยตรงมีจำกัด
Source: https://thehackernews.com/2026/02/microsoft-develops-scanner-to-detect.html
Share this content: