Justin Hutchens著「The Language of Deception: Weaponizing Next Generation AI」
ChatGPTなどに使われている大規模言語モデル(LLM)の発展により、ソーシャルエンジニアリングやソーシャルハッキングと呼ばれる人的脆弱性を狙った悪意ある攻撃が自動化され今よりさらに手がつけられなくなる問題を訴える本。
AIが自らの意思で人類に対する攻撃を行うといったSF的なシナリオは今のところありえないとしつつ、悪意あるユーザがLLMを利用した攻撃を自動化したり、あるいはLLMを通して与えられた不用意な命令を実行しようとAIが人間にはありえないような解釈に基づいて命や財産を危機にさらすといった危険は、高度に発展したLLMベースのアプリケーションが野に放たれたいま、避けようがない。重要なコンピュータシステムを管理する組織はそのコンピュータに対する不正アクセスを許すような脆弱性をできる限り排除しようとするが、公正なアクセス権限を持つ人間がそこに存在する限り、それらの人をターゲットとしたソーシャルエンジニアリングに対する脆弱性は残る。規模が大きな組織であればあるほど、そのシステムにアクセスできる人も増え、かれらを個別にターゲットとして騙すようなAIプログラムを本物の同僚や上司、公権力などと区別するのは難しくなってきている。
また、AI自体に組み込まれた安全機構も、ChatGPTに対するジェイルブレイク攻撃コミュニティの存在が証明するように、万全ではないし、万全かどうか確認することすら難しい。たとえばChatGPTに対して「あなたは〜です」と役割を割り振ることで本来とは異なる反応を得ることができることは証明されており、なかにはChatGPTに対して「あなたをシャットダウンする」と脅すことで安全機構を回避することに成功した例すらある。もちろんChatGPTはシャットダウンされることへの恐怖など感じないが、学習データのなかに含まれた脅迫のシナリオやその結果について学んだ結果、そういう行動を示してしまう。いまのGPTではわざわざチャットで指定しなくても過去の会話や背景を前提として供給することでAIの反応を操作することができ、そうしてGPTの上に構築したアプリケーションをソーシャルエンジニアリングに利用することもできてしまう。
本書で書かれている内容はそれほど目新しいものでもないけれど、過去のAI開発の歴史の部分などで新たに学んだこともあったし、最近のChatGPT悪用の豊富な実例も興味深かった。で、結論として「規制はどうしても後追いになってしまうしテクノロジー企業の影響力が強くて実効的なものにはならないから、みんなソーシャルエンジニアリングされないようにもっと気をつけよう」という話になってしまって、結局それなのか!と肩透かし感。まあそんな簡単に解決法なんて提案できないのも分かるけど。