ทีม AI Security ของ Microsoft ได้พัฒนาเครื่องมือสแกนน้ำหนักเบาที่สามารถตรวจจับ Backdoor ในโมเดลภาษาขนาดใหญ่ (LLMs) แบบ Open-Weight เพื่อเพิ่มความน่าเชื่อถือให้กับระบบ AI โดยเครื่องมือนี้ใช้สัญญาณเชิงพฤติกรรม 3 ประการในการระบุ Backdoor ที่ถูกฝังไว้ในน้ำหนักของโมเดลระหว่างการฝึกฝน ซึ่งทำให้โมเดลที่ถูกโจมตี (เรียกว่า ‘sleeper agents’) แสดงพฤติกรรมที่ตั้งใจไว้เมื่อตรวจพบ ‘trigger inputs’ ที่เฉพาะเจาะจง การโจมตีรูปแบบนี้เรียกว่า ‘model poisoning’ ซึ่งทำให้โมเดลดูปกติในสถานการณ์ส่วนใหญ่ แต่จะตอบสนองแตกต่างกันภายใต้เงื่อนไขทริกเกอร์ที่กำหนดอย่างแคบ วิธีการสแกนนี้ไม่จำเป็นต้องมีการฝึกฝนโมเดลเพิ่มเติมหรือความรู้ล่วงหน้าเกี่ยวกับพฤติกรรม Backdoor และใช้งานได้กับโมเดลสไตล์ GPT ทั่วไป การพัฒนานี้เป็นส่วนหนึ่งของความพยายามของ Microsoft ในการขยาย Secure Development Lifecycle (SDL) เพื่อจัดการกับความกังวลด้านความปลอดภัยที่เฉพาะเจาะจงของ AI

     

Severity: สูง

      
     

System Impact:

     

  • โมเดลภาษาขนาดใหญ่แบบ Open-Weight (LLMs)
  • ระบบปัญญาประดิษฐ์ (AI systems)
  • โมเดลการเรียนรู้ของเครื่อง (Machine learning models)
  • กระบวนการพัฒนาซอฟต์แวร์ที่ปลอดภัย (Secure Development Lifecycle – SDL) สำหรับ AI

      
     

Technical Attack Steps:

     

  1. ผู้โจมตีฝังพฤติกรรมที่ซ่อนอยู่ (Backdoor) เข้าไปในน้ำหนักของโมเดลโดยตรงระหว่างการฝึกฝน
  2. โมเดลที่มี Backdoor (‘sleeper agent’) จะอยู่ในสถานะไม่ทำงาน
  3. เมื่อตรวจพบ ‘trigger inputs’ หรือ ‘trigger phrases’ ที่เฉพาะเจาะจง โมเดลจะดำเนินการที่ไม่ตั้งใจหรือไม่พึงประสงค์

      
     

Recommendations:

     

Short Term:

     

  • นำเครื่องมือสแกน Backdoor ใน LLMs ที่พัฒนาโดย Microsoft หรือเครื่องมือที่คล้ายกันมาใช้งาน
  • วิเคราะห์พฤติกรรมภายในของโมเดล (เช่น รูปแบบการ Attention, การกระจายผลลัพธ์) เพื่อหาสิ่งผิดปกติเมื่อมีวลีทริกเกอร์อยู่
  • ใช้เทคนิคการสกัดหน่วยความจำเพื่อระบุข้อมูลการโจมตีแบบ poisoning ที่อาจรั่วไหล

     

Long Term:

     

  • ขยายแนวทางการพัฒนาซอฟต์แวร์ที่ปลอดภัย (SDL) ให้ครอบคลุมความกังวลด้านความปลอดภัยที่เฉพาะเจาะจงของ AI เช่น prompt injections, data poisoning, และพฤติกรรมที่ไม่คาดคิดจากปลั๊กอิน, ข้อมูลที่เรียกคืน, การอัปเดตโมเดล, สถานะหน่วยความจำ, และ API ภายนอก
  • ส่งเสริมการเรียนรู้ร่วมกันและความร่วมมือในชุมชนความปลอดภัย AI เพื่อการปรับปรุงการตรวจจับ Backdoor อย่างต่อเนื่อง
  • พัฒนากระบวนการที่แข็งแกร่งสำหรับการตรวจสอบความสมบูรณ์ของน้ำหนักและโค้ดของโมเดล โดยเฉพาะเมื่อใช้ LLMs แบบ open-weight จากแหล่งภายนอก
  • ศึกษาและนำโซลูชันสำหรับการตรวจจับ Backdoor ในโมเดลกรรมสิทธิ์มาใช้ในกรณีที่การเข้าถึงไฟล์โดยตรงมีจำกัด

      
     

Source: https://thehackernews.com/2026/02/microsoft-develops-scanner-to-detect.html

   

Share this content:

Leave a Reply

Your email address will not be published. Required fields are marked *