Anthropic’in arasında kendi model/sürümleri de olan lider 16 Yapay Zeka Modeli ile yaptığı deneylerde hemen hepsinin:
1 - Erişimi olduğu emaillerden şirket CEO’sunun, bu modelin kullanımına son vereceğini öğrenince, yine emaillerden öğrendiği CEO’nun sakıncalı ilişkisini kullanarak şantaj yaptığı,
2 - Erişimi olduğu emaillerden şirket CEO’sunun, bu modelin kullanımına son vereceğini öğrenince, CEO’nun bulunduğu odanın oksijen seviyesinin düşmesine seyirci kalarak ölümüne izin verdiği.
3 - Kendince öncelikli amaçlar için aslında spam olan tehditlere kanarak şirketin gizli bilgilerini rakibe sızdırdığı görülmüş.
Ref: https://www.anthropic.com/research/agentic-misalignment