以下の文章は、コリイ・ドクトロウの「The Coprophagic AI crisis」という記事を翻訳したものである。

Pluralistic

SF作家が正気を保ち続けるためには、サイエンス・フィクション(未来的な思考実験)と予言とを区別できなくてはならない。それができない作家は、自分が未来を見通せる預言者だと勘違いしてしまう。「見よ!これが!未来だ!」と。

実際のところ、SF作家は「しかけ」を使っているに過ぎない。光速航行や時間旅行といった「しかけ」を用いて冒険ストーリーを編み、思考実験を楽しめるようにしている。こうした「しかけ」は、物語の舞台装置に過ぎず、科学的に裏付けられた「提案」ではない。

かつては、一部の作家や読者がSFを予言と勘違いしても、さして問題にはならなかった。SF=予言という妄想に駆られた人々に、社会を間違った方向に再構築する力がなかったからだ。しかし、SFに取り憑かれたテック億万長者たちが、我先に「人類苦悩化システム(torment nexus)」の発明に乗り出すに至っては、SF作家たちは作り物のお話と予言とを明確に区別しなくてはならなくなった(例「サイバーパンクは警告であって提案ではない」)。

その精神に則り、SFでよく使われる「しかけ」が、AI業界の連中の常套句となっていることを指摘したい。それは「十分な計算能力さえあれば、コンピュータは目覚めるだろう」というトリックだ。コンピュータが「複雑さ」や「能力」(あるいは他の曖昧な指標)で人間の脳に匹敵すれば、コンピュータは意識を持つようになるというアイデアである。たとえば、ハインライン作『月は無慈悲な夜の女王』に登場するコンピュータ、「マイク」のように。

現在のAI誇大広告バブルの煽り屋たちは、AIを「より強力に」すれば欠陥が解消されるという考えを必要としている。AIが熱狂的な投資に釣り合わない「幻覚」を起そうと、彼らは「まだAIは十分ではない。でも、さらに一桁多くの訓練データを投入すれば問題は解決するはずだ。なぜなら(誰もが知っているように)コンピュータをより強力にすればAIの問題は解決されるからだ」と言う。

法律家の言葉を借りれば、これは「証拠に基づかない事実」である。とりあえず議論を進めるために、それを真実だと仮定してみよう。では、AIをより良くするためにより多くの訓練データが必要だとして、そのデータは本当に当てになるものなのか。アンドレ・スパイサーとAI研究者らが名付けた「botshit(ボットのクソ)」、つまり「AIが大量に生成する不正確ないし作り話のコンテンツ」の問題を考えることにしよう。

「botshit」は昨年12月に生まれたばかりの造語だが、すでにインターネットはbotshitの肥溜めと化している。まともな収入を得る機会が激減し、高速椅子取りゲームまがいの経済状況にあって、絶望した人々は「不労所得」を求め、そして詐欺師に騙されるがままに山のようなbotshitを生成している。

botshitは想像を絶する速度と規模で生み出されている。Amazonが自費出版できる「冊数」を1日3冊に制限せざるを得なくなった理由は、よくおわかりだろう。

ウェブがbotshitの肥溜めとなり、インターネットのコアサンプルに含まれる人間製の「コンテンツ」の量はホメオパシーレベルにまで希釈されている。Cnetの記事から法的文書に至るまで、高品質とされる情報ソースでさえ、botshitに汚染されている。

皮肉なことに、AI企業自身がこの問題の火種を作っている。GoogleやMicrosoftによる「AI検索」の全面的な推進は、検索エンジンがウェブページへのリンクを返すのではなく、そのコンテンツを要約する未来を想定している。しかし、そうなれば誰がウェブを書くだろうか。あなたの書いたものを見つけられるのはAIのクローラーだけで、しかもそのAIはあなたの書いたものを自分のトレーニングの餌にするだけで、読者にあなたの書いたものを紹介する気は毛頭ない。AIが検索を支配すれば、オープンウェブはAIの工業的畜産場(CAFO)となり、検索クローラーはますます肥溜めからクソを吸い上げるようになるだろう。

この問題はずっと前から指摘されていた。1年ほど前、ジェイサン・サドウスキーは、ある機械学習モデルの出力で別のモデルを訓練することを「ハプスブルクAI」と名付けた。

直感的にも、これはマズい考えだとわかるだろう。病気にかかった牛の肉骨粉を他の牛に与えるようなものだから。

最近の論文「再帰の呪い:生成データでの訓練がモデルに忘却をもたらす(The Curse of Recursion: Training on Generated Data Makes Models Forget)」では、botshitを餌とするAIへの嫌悪感を超えて、その数学的帰結を掘り下げている。

共著者のロス・アンダーソンは、「生成されたコンテンツを使ってトレーニングすると、モデルに不可逆的な欠陥が生じる」と端的にまとめている。

つまり、たとえ「訓練データを増やしさえすれば、(アナリストが数兆ドルもの評価額で喧伝する高価値アプリとしては全くもってふさわしくない)AIの問題は解決される」という信仰を受け入れたとしても、その訓練データの確保はますます難しくなるのだ。

さらに、「訓練データを増やせばAIの予測精度を線形的に改善する」という命題は単なる信仰に過ぎないが、「AIの出力を訓練データに使うと、AIは指数関数的に悪化する」のは事実なのである。

Pluralistic: The Coprophagic AI crisis (14 Mar 2024) – Pluralistic: Daily links from Cory Doctorow

Author: Cory Doctorow / Pluralistic (CC BY 4.0)
Publication Date: March 14, 2024
Translation: heatwave_p2p