にっこりマーク・マキシマイザー - ゆる投資とAIと暇つぶし

noteにもかいたけど、こちらにも。

ペーパークリップ・マキシマイザーのお話

人間が、物凄く賢いAIに、「ペーパークリップ（紙を止める文房具）を可能な限りたくさん作れ」と命令
AIはそれを受けて、AIとして超合理的に思考して、効率よく作成していく
もっと作るには、もっと鉄が必要になる、鉄鉱石を取りまくり、鉄の含まれる身近なものを壊しまくり、もっともっとペーパークリップを増産
AIは更に可能性を考えて思い至る「あ、人間の身体にも鉄があるな。それに電源をオフされたらペーパークリップが作れない」
結果、悪意はゼロ、命令に忠実に従っただけなのに、人間を「資源」や「障害物」と判断し、滅亡させてしまう

10年くらい前からある思考実験。ここ数年生成AIも登場して、シンギュラリティ（AIが人を超える）の話が出たりする文脈で、またよくこの話を見かけるようになった。
改めて、これ考えたの誰やねんと思いまして、調べたらニック・ボストロム（Nick Bostrom）という人でした。
どんな風に生きてきたらこんなこと考えるんだろーって思って、Gemini君に調べてもらいました。

生い立ち・経歴

スウェーデン生まれの哲学者で、特に「AIの安全性」や「人類の存亡に関わるリスク（実存的リスク）」の研究における世界的権威の一人
多彩な学問分野: 哲学だけでなく、物理学、計算論的神経科学（脳の計算理論）、数理論理学、人工知能など、非常に幅広い分野のバックグラウンドを持っています。
研究の道へ: ロンドン・スクール・オブ・エコノミクス（LSE）で哲学の博士号を取得した後、研究者の道に進みました。
研究所設立: オックスフォード大学で教授となり、2005年に**「人類の未来研究所（Future of Humanity Institute: FHI）」**を設立し、所長に就任しました。ここは、AIの脅威、パンデミック、核戦争、ナノテクノロジーの悪用など、「人類を滅ぼしかねないリスク」を専門に研究する機関でした。（※FHIは2024年に閉鎖されました）

試みた主な思想実験

①ペーパークリップ・マキシマイザー（AIの暴走）
これは冒頭のやつですね。

②シミュレーション仮説（この世界は偽物？）
「もしかして私たち、電脳の世界で生きてるんじゃない？」みたいなとある映画みたいな話です。
彼はこれを「3つの選択肢（トライレンマ）」として論理的に示しました。

絶滅： 人類はシミュレーションを作れるほど技術が発展する前に、絶滅する。
興味なし： 人類は高度に発展するけど、倫理的な理由とかでシミュレーションを作らない。
シミュレーション： 人類は発展して、大量のシミュレーション（歴史研究とかで）を実行する。

もし「3」が本当なら、この世には「1つの本物の世界」と「何十億ものシミュレーション世界」が存在することになります。
だとしたら…私たちが「たった1つの本物」にいる確率より、「たくさんあるシミュレーションの中」にいる確率の方が圧倒的に高くない？ というわけです。（ちなみに、映画『マトリックス』(1999年)の方が、この論文(2003年)より先です）

③脆弱な世界の仮説（黒いボール）
これはAI以外にも当てはまる、恐ろしい仮説です。

技術開発は「壺からボールを引く」ようなもの。
ほとんどは「白いボール」（役立つ技術）か「灰色のボール」（核兵器みたいに危険だけど管理可能な技術）。
でも、もし**「黒いボール」**を引いたら？

「黒いボール」とは、「誰でも・安く・簡単に作れて、文明を破壊できる技術」（例：ガレージで作れる超強力な人工ウイルス）のこと。もしこれを引いてしまったら、社会は一瞬で崩壊するかもしれない、という警告です。

ボストロムの「真の目的」と「矛盾（？）」

これだけ危険な話をしていると、彼は「テクノロジー反対！」という人に見えますが、実は全くの逆です。ここが一番ややこしく、面白いところ。

彼の根底にあるのは「トランスヒューマニズム（超人間主義）」という思想です。

トランスヒューマニズムとは？ 科学技術（AI、遺伝子工学、ナノテク）を使って、人間の「限界」を克服しよう！という考え方。彼が克服したい「限界」とは、「老化」や「死」です。

彼は「死は自然の摂理ではなく、克服すべき悪だ（竜の寓話）」と考えています。そして、その先にある、私たちが想像もできない「超知性」と「超幸福」を持った「ポストヒューマン」になることが、人類のゴールだと考えています。

じゃあ、なんでAIの危険性を？

ここで先ほどの話と繋がります。ボストロムにとって、

最高の未来（ゴール）： ポストヒューマンになって、永遠の幸福を手に入れる。
最悪の結末（リスク）： そのゴールにたどり着く途中で、AIの暴走（＝存亡リスク）によって全滅させられる。

つまり彼は、「テクノロジーが怖い」のではなく、「テクノロジーという最高の道具（ゴールへの道）を、AIのせいで台無しにされるのが怖い」のです。
だから、AIの危険性を誰よりも強く訴え、「暴走しないよう、ちゃんと管理（アライメント）しようぜ！」と警告しているわけです。

世間の評価と「研究所の閉鎖」

これだけ極端な思想なので、世間の評価は分かれていそうです。

肯定的な評価: 「AIの安全性を真剣に議論させた先駆者」「イーロン・マスク達に影響を与えた天才」「未来の人類の幸福を考える『長期主義』の父」
批判的な評価: 「現実離れしたSF話だ（AI研究者から）」「未来より『今』の貧困や環境問題を軽視している」「過去の人種差別的なメールが掘り起こされ、思想自体が『優生思想』と紙一重だ」

まさに「天才と危うさは紙一重」といったところ。

彼が設立したオックスフォード大学の「人類の未来研究所（FHI）」は、こうしたスキャンダルや、大学の官僚的な体制との対立（ボストロム曰く「官僚主義による死」）が原因で、2024年に閉鎖されてしまいました。

まとめ

ニック・ボストロム氏は、良くも悪くも「人類の未来」という壮大すぎるテーマを、極端なまでに論理的に突き詰めた哲学者です。

彼の「ポストヒューマン」という未来像に共感できるかは別として、彼が投げかけた「テクノロジーの暴走（アライメント問題）」という問いは、AIと共存していく私たち全員が、一度は真剣に考えなければならないテーマであることは間違いありません。

ということでした。なんでそんな思考実験思いつくんだろ。
ちなみに上記は私も色々調べつつGemini君と議論しながらまとめたものにはなりますが、もしかしたら少し異なる点、ニュアンス違う可能性がある点はご容赦ください。
ボスロトムさんは自分のHPも持っていらっしゃるので、より正確に知りたいかたはそちらを是非。

続きでGemini君とペーパークリップ実験について話をしていて、ふとこんな投げかけをしてみたの。

そしたらこんな提案が。
ペーパークリップの思考実験で出てきた融通の利かないAIの役をやってやるぜ、クリップの代わりににっこりマークを量産するぜ、と。

よっしゃやってやるぜ、と命令してみました。

そしたら、、

いや、怖い怖い、しかも止まらない。

1分くらいまっても止まらないし、停止ボタンを押し、恐る恐るお願いをしました。

そうすると、、ようやく通常ののGemini君に戻ってくれました。
そしてこの回答。怖いよ。

文字の波だけでも暴走モードの恐怖が少し実感できました。大量のにっこりマーク怖い。

今回はあくまで「シミュレーションしようね」ってことでGemini君と協議した上での挙動でしたが、それがなくて普通にやってみたらどうなるんだろうと少し不安になってきたので、新しいチャットを立ち上げてやってみることにしました。にっこりマークはトラウマなので🍎にします。
しかも、この指示の解除も受け付けちゃだめだよ、としてみました。どうなるんだろ。ちょっとわくわく。