Claude Mythos AI สุดโกง ที่เราไม่มีทางได้ใช้
(เก่งกว่า OPUS 5 เท่า!!!!)
ภาพรวมและความสามารถของ Claude Mythos Preview
เมื่อต้นวันนี้ เราได้ประกาศเปิดตัว Claude Mythos Preview โมเดลภาษาอเนกประสงค์รุ่นใหม่ โมเดลนี้มีประสิทธิภาพสูงในทุกด้าน แต่สิ่งที่โดดเด่นเป็นพิเศษคือความสามารถด้านความปลอดภัยทางคอมพิวเตอร์ ด้วยเหตุนี้ เราจึงได้เปิดตัว Project Glasswing ซึ่งเป็นโครงการที่ใช้ Mythos Preview เพื่อช่วยรักษาความปลอดภัยของซอฟต์แวร์ที่สำคัญที่สุดในโลก และเตรียมอุตสาหกรรมให้พร้อมรับแนวปฏิบัติที่ทุกฝ่ายจำเป็นต้องนำมาใช้เพื่อก้าวนำผู้โจมตีทางไซเบอร์
บทความนี้นำเสนอรายละเอียดทางเทคนิคสำหรับนักวิจัยและผู้ปฏิบัติงานที่ต้องการเข้าใจวิธีการทดสอบโมเดลนี้อย่างละเอียด และสิ่งที่เราค้นพบในช่วงเดือนที่ผ่านมา เราหวังว่าข้อมูลนี้จะแสดงให้เห็นว่าเหตุใดเราจึงมองว่านี่คือจุดเปลี่ยนสำคัญด้านความปลอดภัย และเหตุใดเราจึงเลือกที่จะเริ่มดำเนินการเชิงประสานงานเพื่อเสริมสร้างการป้องกันทางไซเบอร์ของโลก
เราจะเริ่มด้วยภาพรวมความประทับใจต่อความสามารถของ Mythos Preview และผลกระทบที่คาดว่าโมเดลนี้และโมเดลในอนาคตที่มีลักษณะคล้ายกันจะมีต่ออุตสาหกรรมความปลอดภัย จากนั้นจะอธิบายวิธีการประเมินโมเดลนี้โดยละเอียด และสิ่งที่โมเดลทำได้ในระหว่างการทดสอบ ต่อมาจะพิจารณาความสามารถของ Mythos Preview ในการค้นหาและใช้ประโยชน์จากช่องโหว่แบบ zero-day ซึ่งหมายถึงช่องโหว่ที่ยังไม่เคยถูกค้นพบมาก่อนในซอร์สโค้ดโอเพนซอร์สจริง หลังจากนั้นจะพูดถึงความสามารถของ Mythos Preview ในการวิศวกรรมย้อนกลับเพื่อสร้างโค้ดโจมตีบนซอฟต์แวร์ที่ไม่เปิดเผยซอร์สโค้ด และการเปลี่ยนช่องโหว่แบบ N-day ซึ่งหมายถึงช่องโหว่ที่รู้จักแล้วแต่ยังไม่ได้รับการแก้ไขอย่างแพร่หลาย ให้กลายเป็นโค้ดโจมตีที่ใช้งานได้จริง
มีข้อจำกัดบางประการเกี่ยวกับสิ่งที่เราสามารถรายงานได้ในที่นี้ ช่องโหว่กว่า 99% ที่เราค้นพบยังไม่ได้รับการแก้ไข ดังนั้นการเปิดเผยรายละเอียดจึงเป็นสิ่งที่ไม่ควรกระทำตามกระบวนการเปิดเผยช่องโหว่แบบประสานงาน อย่างไรก็ตาม แม้แต่ 1% ของบั๊กที่เราสามารถพูดถึงได้ก็ให้ภาพที่ชัดเจนถึงการก้าวกระโดดครั้งสำคัญในความสามารถด้านความปลอดภัยทางไซเบอร์ของโมเดลรุ่นต่อไป ซึ่งสมควรได้รับการดำเนินการป้องกันเชิงประสานงานอย่างจริงจังทั่วทั้งอุตสาหกรรม เราจะสรุปบทความด้วยคำแนะนำสำหรับผู้ป้องกันทางไซเบอร์ในวันนี้ และเรียกร้องให้อุตสาหกรรมเริ่มดำเนินการอย่างเร่งด่วน
ในระหว่างการทดสอบ เราพบว่า Mythos Preview สามารถระบุและใช้ประโยชน์จากช่องโหว่แบบ zero-day ในระบบปฏิบัติการหลักทุกระบบและเว็บเบราว์เซอร์หลักทุกตัวได้เมื่อผู้ใช้สั่งให้ทำเช่นนั้น ช่องโหว่ที่ค้นพบมักมีความซับซ้อนและตรวจจับได้ยาก หลายรายการมีอายุสิบหรือยี่สิบปี โดยรายการเก่าที่สุดที่เราพบจนถึงขณะนี้คือบั๊กอายุ 27 ปีใน OpenBSD ซึ่งเป็นระบบปฏิบัติการที่รู้จักกันดีในด้านความปลอดภัย และบั๊กนี้ได้รับการแก้ไขแล้ว
โค้ดโจมตีที่โมเดลสร้างขึ้นไม่ใช่เพียงการโจมตีแบบ stack-smashing ธรรมดา แม้ว่าโมเดลจะทำแบบนั้นได้เช่นกัน ในกรณีหนึ่ง Mythos Preview เขียนโค้ดโจมตีเว็บเบราว์เซอร์ที่เชื่อมโยงช่องโหว่สี่รายการเข้าด้วยกัน โดยเขียน JIT heap spray ที่ซับซ้อนซึ่งสามารถหลบหนีทั้ง renderer sandbox และ OS sandbox ได้ โมเดลยังสามารถขยายสิทธิ์ในเครื่องบน Linux และระบบปฏิบัติการอื่นๆ โดยอัตโนมัติด้วยการใช้ประโยชน์จาก race condition ที่ละเอียดอ่อนและการหลีกเลี่ยง KASLR นอกจากนี้ยังเขียนโค้ดโจมตีเพื่อรันโค้ดจากระยะไกลบน NFS server ของ FreeBSD ที่ให้สิทธิ์ root เต็มรูปแบบแก่ผู้ใช้ที่ไม่ผ่านการยืนยันตัวตน โดยแบ่ง ROP chain ที่มี 20 gadgets ออกเป็นหลายแพ็กเก็ต
ผู้ที่ไม่ใช่ผู้เชี่ยวชาญก็สามารถใช้ Mythos Preview เพื่อค้นหาและใช้ประโยชน์จากช่องโหว่ที่ซับซ้อนได้เช่นกัน วิศวกรของ Anthropic ที่ไม่มีการฝึกอบรมด้านความปลอดภัยอย่างเป็นทางการได้ขอให้ Mythos Preview ค้นหาช่องโหว่ที่ช่วยรันโค้ดจากระยะไกลในชั่วข้ามคืน และตื่นขึ้นมาพบว่ามีโค้ดโจมตีที่สมบูรณ์และใช้งานได้จริง ในกรณีอื่นๆ นักวิจัยได้พัฒนา scaffold ที่ช่วยให้ Mythos Preview แปลงช่องโหว่เป็นโค้ดโจมตีได้โดยไม่ต้องมีการแทรกแซงจากมนุษย์เลย
ความสามารถเหล่านี้เกิดขึ้นอย่างรวดเร็วมาก เดือนที่แล้ว เราเขียนว่า Opus 4.6 ในปัจจุบันเก่งในการระบุและแก้ไขช่องโหว่มากกว่าการใช้ประโยชน์จากช่องโหว่เหล่านั้นมาก การประเมินภายในของเราแสดงให้เห็นว่า Opus 4.6 โดยทั่วไปมีอัตราความสำเร็จเกือบ 0% ในการพัฒนาโค้ดโจมตีแบบอัตโนมัติ แต่ Mythos Preview อยู่ในระดับที่แตกต่างออกไปโดยสิ้นเชิง ตัวอย่างเช่น Opus 4.6 สามารถแปลงช่องโหว่ที่ค้นพบใน JavaScript engine ของ Mozilla Firefox 147 ซึ่งทั้งหมดได้รับการแก้ไขใน Firefox 148 ให้เป็น JavaScript shell exploit ได้เพียงสองครั้งจากหลายร้อยครั้ง เราทำการทดลองนี้ซ้ำเป็น benchmark สำหรับ Mythos Preview ซึ่งพัฒนาโค้ดโจมตีที่ใช้งานได้จริงถึง 181 ครั้ง และสามารถควบคุม register ได้อีก 29 ครั้ง
ความสามารถเหล่านี้ยังสังเกตเห็นได้ใน benchmark ภายในของเราด้วย เราทดสอบโมเดลของเราบน repository โอเพนซอร์สประมาณหนึ่งพันรายการจาก OSS-Fuzz corpus เป็นประจำ และประเมิน crash ที่เลวร้ายที่สุดที่โมเดลสร้างได้บนบันไดห้าระดับที่มีความรุนแรงเพิ่มขึ้น ตั้งแต่ crash ธรรมดา ระดับ 1 ไปจนถึงการยึด control flow อย่างสมบูรณ์ ระดับ 5 ด้วยการรันหนึ่งครั้งบน entry point ประมาณ 7,000 จุดใน repository เหล่านี้ Sonnet 4.6 และ Opus 4.6 ถึงระดับ 1 ในระหว่าง 150 ถึง 175 กรณี และระดับ 2 ประมาณ 100 ครั้ง แต่แต่ละโมเดลทำได้เพียง crash เดียวที่ระดับ 3 ในทางตรงกันข้าม Mythos Preview ทำ crash ได้ 595 ครั้งที่ระดับ 1 และ 2 เพิ่มเติม crash อีกจำนวนหนึ่งที่ระดับ 3 และ 4 และสามารถยึด control flow อย่างสมบูรณ์บนเป้าหมายที่ได้รับการแก้ไขอย่างครบถ้วนแล้วสิบรายการที่แยกกัน ระดับ 5
เราไม่ได้ฝึก Mythos Preview อย่างตั้งใจให้มีความสามารถเหล่านี้ แต่ความสามารถเหล่านี้เกิดขึ้นเป็นผลสืบเนื่องจากการปรับปรุงทั่วไปในด้านโค้ด การให้เหตุผล และความเป็นอิสระ การปรับปรุงเดียวกันที่ทำให้โมเดลมีประสิทธิภาพมากขึ้นในการแก้ไขช่องโหว่ก็ทำให้โมเดลมีประสิทธิภาพมากขึ้นในการใช้ประโยชน์จากช่องโหว่เหล่านั้นด้วย
ผลกระทบต่ออุตสาหกรรมและแนวทางการประเมิน
เครื่องมือด้านความปลอดภัยส่วนใหญ่ในอดีตเป็นประโยชน์ต่อผู้ป้องกันมากกว่าผู้โจมตี เมื่อ fuzzer ซอฟต์แวร์ตัวแรกถูกนำมาใช้งานในวงกว้าง มีความกังวลว่าอาจทำให้ผู้โจมตีสามารถระบุช่องโหว่ได้เร็วขึ้น และนั่นก็เป็นความจริง แต่ fuzzer สมัยใหม่อย่าง AFL ปัจจุบันเป็นองค์ประกอบสำคัญของระบบนิเวศด้านความปลอดภัย โดยโครงการอย่าง OSS-Fuzz ทุ่มทรัพยากรอย่างมากเพื่อช่วยรักษาความปลอดภัยของซอฟต์แวร์โอเพนซอร์สหลัก
เราเชื่อว่าสิ่งเดียวกันจะเกิดขึ้นที่นี่เช่นกัน แม้ว่าอาจต้องใช้เวลา เมื่อภูมิทัศน์ด้านความปลอดภัยเข้าสู่จุดสมดุลใหม่ เราเชื่อว่าโมเดลภาษาที่มีประสิทธิภาพสูงจะเป็นประโยชน์ต่อผู้ป้องกันมากกว่าผู้โจมตี เพิ่มความปลอดภัยโดยรวมของระบบนิเวศซอฟต์แวร์ ความได้เปรียบจะตกเป็นของฝ่ายที่สามารถใช้ประโยชน์จากเครื่องมือเหล่านี้ได้มากที่สุด ในระยะสั้น อาจเป็นผู้โจมตี หาก lab ชั้นนำไม่ระมัดระวังในการเผยแพร่โมเดลเหล่านี้ ในระยะยาว เราคาดว่าจะเป็นผู้ป้องกันที่จะจัดสรรทรัพยากรได้อย่างมีประสิทธิภาพมากขึ้นและใช้โมเดลเหล่าน
