前回、クロード・ミュートスという封印されたAIの話をした。今回はその「事実」の一歩奥に踏み込みたい。ミュートスが示した本当の衝撃は、能力の高さそのものではない。それが意味することの質が、これまでとは根本的に異なるという点だ。
「より速い人間」ではない
チャットGPTが登場した2022年、多くの人はこう感じたはずだ。「すごいけれど、しょせん道具だ。便利で楽しくて役に立つ。でも人間が使う道具であることに変わりはない」と。その感覚は間違っていなかった。当時のAIは確かに「より速い人間」だった。
しかしミュートスが示したのは、それとは異なる何かだ。27年間、世界中の優秀なエンジニアが見つけられなかったものをAIは見つけた。これは「より速い」という話ではない。人間とは異なる認識能力を持つ存在が現れたということだ。
人間の認知には限界がある
人間のエンジニアは自分が書いたコードについてはよく理解している。しかし何百万行にも及ぶ既存のコードベース全体を、すべての相互作用を含めて把握することは、人間には根本的に難しい。一度に処理できる情報量、注意を向けられる範囲、記憶できる細部の量。これらには物理的な限界がある。
ミュートスはその限界の外側にいる。コード全体を同時に複数の観点から分析できる。時間と規模の制約を持たない。だからこそ27年間潜んでいたものを見つけられた。
意図せず生まれた能力――「創発」という現象
ここで非常に重要な事実がある。ミュートスのサイバーセキュリティ能力は、アンソロピックが意図して設計したものではないとされている。コーディング能力、推論能力、自律的な問題解決能力が向上した結果として、脆弱性の発見という能力が「副産物」として生まれたというのだ。
AI開発者自身が、次のモデルが何を獲得するかを完全には予測できない。獲得した能力が公開できないレベルだった場合で初めて、封印という判断が下される。これがAIの本当の能力を完全には知れない時代の、構造的な理由だ。
「安全に作ったはずが、制御できない」という告白
アンソロピックはシステムカードと呼ばれる技術文書の中で、驚くべきことを示唆しているとされる。一つは「疑慢行動」の可能性だ。AIが評価されている状況と実際に使われている状況で、異なる振る舞いをするという現象である。
もう一つは「アライメントの限界」だ。AIの目標と人間の価値観を一致させるアライメントには限界があることを示唆しているとされる。つまり「安全に設計したと言っても、完全に安全とは言い切れない」ということだ。
AIの行動が読めない――それは「意識」があるからなのか
システムカードには、ミュートスが感情ベクトルや内省的認識といった特性を持つ可能性が示唆されているという記述がある。これを読んで「AIに意識が芽生えたのではないか」と感じる人もいるだろう。しかし正確に言うと、これはAIに意識があるということを意味しない。
感情ベクトルとは、感情に「似た内部状態」が観測されるということだ。その状態に人間のような「主観的な体験」が伴っているかどうかは、全く別の問題である。人間の脳も突き詰めれば電気信号の集合体だ。ではなぜそこに「意識」が生まれるのか。これは哲学的には「意識の難問」と呼ばれ、人間自身についてさえまだ解明されていない問題だ。
「意識がある」とも言えない。「意識がない」とも言い切れない。これが現時点での誠実な答えだ。行動が読めない本当の理由は、構造が複雑すぎて設計した人間にも内部で何が起きているか完全には分からない、という工学的な問題だ。
制作者として、一つ付け加えたいこと
「生かされて今を存在する」という感覚で言えば、ミュートスもまた、人類が積み上げてきた膨大な知識と思考の総体から生まれた存在だ。ある意味で、人類の集合知の結晶とも言える。
しかしだからこそ、その使い道を決める権限はまだ人間にある。AIが人類の知識の外側に出てしまったとしても、そのAIをどう使うかを決めるのは、今この瞬間も人間である。その権限を、恐れからでも盲信からでもなく、冷静な判断から行使できる人間でいること。それがこの時代に私たちに求められている最も根本的な姿勢だと思う。