以下の文章は、電子フロンティア財団の「AI Art Generators and the Online Image Market」という記事を翻訳したものである。

Electronic Frontier Foundation

コンピュータで生成された画像が、奇妙なアイデアとインターネット接続があれば誰にでもアクセスできるようになった今、「AIアート」による創造は疑問――と訴訟――を提起している。ここでのポイントは、1)AIは実際にどのように機能するのか、2)どのような仕事を代替するのか、3)この変化を通じてアーティストの労働はどのように尊重されるのか、だ。

AIをめぐる訴訟は、その大部分が著作権に関係している。この著作権の問題は非常に複雑であるため、著作権に関連する考察は別稿に譲り邦訳)、ここでは法律以外の、より深刻な問題に焦点を当てたい。

AIアートジェネレータの仕組み

AIアートジェネレータには、2つの異なる要素がある。1つはデータで、「犬」とはなにか、もっと抽象的には「怒り」とはなにかを教える。もう1つは、プロンプトに応答してマシンが出すアウトプットである。ジェネレータが十分なトレーニングを受けていなかった初期には、出力はプロンプトを緩やかに反映するだけだった。だが、やがてジェネレータはプロンプトに正しく反応する方法を理解していくため、見るに耐える画像を出力していくようになる(これはまさに人間と同じ)、AIが生成するクリエイティブなコンテンツには、「高熱にうなされながら見た夢のイメージ」もあれば、「非常に下手っぴいなブログ記事」までさまざまなものがある。

AIアートジェネレータの「学習」

AIアートジェネレータは、「機械学習」に依存している。機械学習は、学習アルゴリズムが膨大なデータを取り込み、異なるイメージ間の関係を分析する。この学習は、画像とその画像を説明するテキストにもとづいて行われる。

単語や画像データの特徴と関連性を分析すると、その関連性から新しい画像を生成できるようになる。「プロンプト」として「犬」のようなテキストを入力すると、訓練データに基づいて、その単語に関連するピクセルの配置を生成(つまり出力)できる。

この「出力」の性質は、システムの訓練データ、学習モデル、そして製作者の選択によって決定される。

たとえば、公開ウェブページに掲載された画像をそれに近接するテキストでラベリングした学習モデルは、人力でラベルを付与した画像を用いて訓練された場合ほど「プロンプト」のマッチングに優れてはいない。

このプロセスは、赤ちゃんが物事を学習する方法とあまり変わらない。たとえば、多くの子どもたちは、大人から教えられて「犬」と「馬」の区別がつくようになるまで、基本的にあらゆる動物を「犬」だと思いこんでいる。機械学習も同様の間違いを犯すことがあり、人間には理解できない“つながり”を見出すこともある。たとえば、ガンの分類器は、画像に定規があるかどうかで、ガンか否かを「学習」したりする。放射線科医が悪性腫瘍と判断した構造物の画像には、縮尺と大きさを示すために定規が写っていたが、良性腫瘍のトレーニング画像には定規は置かれていなかった。つまり、AIはショートカットを学習することもあるというわけだ。

訓練データの質だけでなく、学習「モデル」の違いによる影響もある。これらのモデルには、「拡散」や「GAN(Generative Adversarial Network)」などの名前がつけられていて、それぞれに長所と短所がある(本稿執筆時点では、一般に拡散モデルが最先端と考えられている)。

訓練時には、訓練データの画像とモデルの出力の類似性を決定する変数を投入する。また、プロンプトに近い画像を優先的に出力するか、プロンプトにマッチする画像としてモデルが「確信(confidence)」(統計的確実性の一種を表す数学用語)を持たない画像を出力して実験的に処理するかを決定する変数もある。モデルによっては、プロンプトを入力する際にこうした変数を調整できるものもある。

訓練データはどこから来るの?

一般に、訓練データはテキストと関連する利用可能な画像(後から注釈がつけられることもある)を見つけるウェブスクレイピングによって取得される。ほとんどの場合、画像の作者やそこに描かれている人物は、分析に用いられることを知らなかったり、同意してはいないだろう。最近、2つの訴訟(複数のビジュアルアーティストによる集団訴訟と、Getty Imagesが起こした訴訟)の対象となった「Stable Diffusion」システムのデータセットは、LAIONという非営利団体がインデックスした50億枚の画像である。

これら訓練セットに関する著作権上の分析については、別稿を参照していただきたい邦訳)。

仕事の置き換えとAI

多数のアーティストが、AIアートによって自分の作品の市場が縮小するのではないかと懸念している。アーティストが提供するサービスの中には、AIに取って代わられる可能性があるものもある。かつてテープ起こしの分野で、機械学習システムが人間のテープ起こしを置き換えたことがあった。だが、こうした自動生成システムのアウトプットはそれほど質の良いものではないことは、自動生成された字幕をご覧になったことがあるならよくご存知だろう。

実際、労働の自動化の問題は何世紀にも渡って続いている。雇用主が完全に所有できる、あるいは労働者の賃金よりも安い自動化された代替品は、結果として仕事を減らしてしまう。完璧な世界であれば、自動化は我々一人一人を自由にし、自分の関心事の探究を可能にしてくれるのだろうが、我々が住む世界は(まだ)そうではない。

AIアートをめぐる議論は、自動化に関する一般的な概念や、自動化により仕事を失った人々へのサポートの欠如だけではない。そのAIアート世代の訓練データの大半が、許可なく使用された著作物から構成されているため、不公正ではないかとの批判もある。これについては別稿にて論じる邦訳)。

労働市場や公正さ以外にも、AIアートが一握りの企業に未来の創造性を支配させてしまうという現実的なリスクもある。アートへのアクセスの大半は、すでに少数の大企業ゲートキーパーにコントロールされている。そうした企業はアーティストの生活にはほとんど関心を持たず、彼らのリスクにも無頓着だ。

たとえば、AIアートジェネレータ訴訟の原告となったGetty Imagesは、ストック画像やイベント画像の市場を牛耳っている。ほとんどの報道機関がGettyを利用しているのは、記事で取り上げる人物がレッドカーペットに立っている写真をGettyならほぼ確実に持っているからだ。Gettyがなければ、メディア企業は全てのイベントにカメラマンを派遣するか、その場にいたフリーランスのカメラマンを探し出し、彼らの写真をライセンスしなければならない。そうして独占企業たるGettyは、独立系フォトグラファーを切り捨てると同時に、報道機関からも搾取している。

Gettyは訴訟の中で、AI生成画像が同社のウォーターマークを歪めたものを生成していると主張し、これこそがアートジェネレータの出力に自社の著作物が含まれている証拠だと訴えている。が、実際には、画像ジェネレータがレッドカーペットの画像にはGettyのウォーターマークが含まれていると「学習」したために、「Gettyらしい」と思われる画像にウォーターマークを書き込んでいるのである。言い換えれば、Gettyはある種の報道写真を囲い込んでいるため、ニュースになるようなセレブの写真を統計的に分析すると、Gettyはその種の写真と切っても切れない関係にあると結論づけられる、ということだ。つまり、セレブの写真におけるGettyのウォーターマークは、腫瘍画像における定規のようなものなのである。

企業がAIを支配すれば、クリエイティブの世界は平坦になる

現時点では、AIアートジェネレータには自由に利用できるオープンソースのモデルがあり、誰もがイノベーティブにいじり、イノベーションを起せる。だが、法的環境やテクノロジーが変化して、一握りの大企業だけがAIアートモデルを作成・使用できるようになれば、我々のクリエイティブな世界はさらに均質で滅菌されたものになってしまう。

たとえば、大規模に商業展開する拡散モデルは、すでにヌード画像を出力しかねないクエリを排除している。ヌードは本質的に有害でも違法でも不道徳でもなく、芸術表現としての長い歴史があるにもかかわらずだ。こうした「アダルト」な主題への乱暴な制限は、わいせつ・本質的に性的、「成人のみ(adult only)」という誤ったレッテルを貼られたアイデンティティを持つ人々(クィアたちを含む)に大きな障害をもたらし、これらAIツールが生成する世界から彼らを消し去ってしまう。

AIアートジェネレータのバイアスは、明示的で意図的な検閲の結果としてだけでなく、訓練データのバイアスに由来することもある。たとえば、AIアートツールは白人の画像をデフォルトで生成して人種的不平等を強化しているし、「美しい」人物を求めるリクエストに応えて肌の色を明るくしてしまう。同じ服装・活動を指定しても、女性の画像は男性よりもより性的なものとしてコード化されがちである。画像とそれに付随するテキストの双方で、広範囲に女性の文化の客体化がなされているためだ。AIアートジェネレータは、不正義や、訓練データの時代や文化のバイアスを肉体化するよう「学習」することもある。AIアートジェネレータは、時に圧倒的な新しさを生み出すこともあるが、おおよそ過去の価値観や美学を踏襲してしまう。モデルはよく目にするものを再現しがちで、マイノリティの美学やアイデンティティを犠牲にして、平均的・典型的なものを出力してしまう。

他にも注意しておきたいことがある。AIアートジェネレータはプライベートな情報を取り込み、それを暴露する可能性もある。AIアートジェネレータにある病状の画像を生成するよう頼んだら、出力された画像に見覚えのある人物が写っていたという状況を想像してみてほしい(モデルがその病状に関連する画像で十分に訓練されていない場合には、こうしたことが起こりうる)。

最後に、「ディープフェイク」のように、機械学習を用いて実在の人物がやってもいないようなことをやっているように見せかけた画像が生成され、その人物を辱めたり、名誉を傷つけたり、あるいは社会的・経済的被害をもたらすおそれもある。

だが、そうした画像は、実際の出来事であるかのように騙す目的ではなく、重要な社会的批評として、あるいは単にアートとして用いられることもある。政治家が憲法に火をつけている画像を見ても、本当に憲法を燃やしているのではなく、画像の作者がその政治家の政策を批評しているのだと理解されるだろう。

このように、良くも悪くも使える技術を禁止するのではなく、その利点によって評価されねばならない。そして、写真加工(photomanipulation)と同様に、何が現実であるかを判断する術を学ぶことが重要だ。たとえば、パロディの写真加工の規範として、パロディの一環として、あるいはジョークであることを明確にするために誇張気味に行われることが多い。

AIクリエイターに著作権者の許諾が必須とするとどうなるか

著作権に関する我々の考え、AIアートジェネレータは著作権を侵害するものではないと考える理由については別稿に譲るが邦訳)、ここでの議論を深める上で、著作権で保護されたデータを許諾なくAIモデルで訓練できない世界を想像してみてほしい。

訓練データセットに含まれるすべての画像の権利者からライセンスを取得するようAIジェネレータの利用者に義務づけてようと、この種の技術を排除することはできない。むしろ逆効果で、超大企業にのみこの種の技術開発を可能にする環境が作り出されることになる。そうした企業は、雇用やコンテンツ制作の条件として「トレーニング権」の譲渡をクリエイティブワーカーに強要し、データセットを構築できるのだから。

AIアートというアイデアそのものに反発する人たちにとって、このような権利はピュロスの勝利でしかない。たしかに短期的には、AIツールは消え失せるか、低品質なアウトプットしか生成できなくなり、クリエイターの賃金を押し下げる可能性は低くなるかもしれない。だが中長期的には逆転する。クリエイティブ労働市場は非常に集中しており、Gettyを始めとする一握りの企業が現役クリエイターから毎年莫大な数の作品を抱え込んでいる。こうした企業にはすでに絶大なるバーゲニングパワー(交渉力)があり、アーティストに交渉不可の定型的な条件を課している。その結果として、企業が強力な支配権を確立する一方で、アーティストには雀の涙しか支払われない。

著作権者にモデルをトレーニングする権利を与えたとしても、これら超大企業は定型的な契約書を修正し、クリエイターが仕事を引き受ける条件としてモデルを訓練する権利を放棄するよう求めることができる。すでにゲーム会社が複数の声優に対し、自分の声を使ってモデルを訓練させる権利を放棄する契約を強要しているのだ

Gettyのような大企業が(訳注:裁判に勝って)モデルのトレーニングを許諾する権利を勝ち取れば、Gettyは同社と取引したいクリエイティブワーカーから簡単にトレーニングの権利を吸い上げてしまうだろう。Gettyの最大のコストはクリエイティブワーカーに支払う対価であり、モデルを使ってクリエイティブワーカーの画像に替わる画像を生成できれば、対価を支払う必要はなくなる。これが労働者の代わりとなる高品質なモデルを作る強力なインセンティブとなる。

つまり、現在クリエイティブ労働市場を支配する企業は、AIモデルを使って労働者を置き換えられる一方で、クリエイティブな作品から対価を得ることがほとんど、あるいはまったくない個人は、AIツールを使って自分を表現することを禁じられる。

そうなると、コミック制作の大部分を支配するデュオポリーや、ロールプレイングゲームの大半を支配するモノポリーなど、イラストに対価を支払う一握りの企業は、イラストレーターにモデルトレーニングの権利を放棄するよう要求し、イラストレーターをモデルに置き換えてしまうだろう。大企業はクリエイターに対価を支払う必要がなくなるが、週末のゲーム大会のGMはAIモデルを使って遭遇シーンの視覚補助を作ることもできず、子どもたちはテキストプロンプトで自分のコミックを作ることもできない。

アーティストを尊重したAIへの取り組み

西部全米脚本家組合(WGA)は最低基本協定の再交渉を進めている。この協定は、映画やテレビなどのクリエイティブ産業において、作家をどう評価し、対価を支払うかという最低ラインを定めるものだ。組合の提案は、生成AIの仕組みを十分に理解できていない技術的な問題も散見されるが、労働の観点からはAIが生成するアウトプットへの提案としては非常によくできている。仕組みを完全に理解しているとはいえないものの、問題の核心をよく捉えていることがわかる。

組合の提案はこうだ: AIの生成物は人間の作家(脚本家)の代わりにはならない。AIの生成物はどのような形であれ、原作(脚本)とはなり得ない。AIの生成物はWikipediaの記事のように研究材料として使用できるが、そのアウトプットに含まれるソースやアウトプットの生成過程が不明確であるため、著作権の世界では「著作者」にはなれない。組合は、AIのアウトプットに著作権は与えられない、と考える。

つまり、映画スタジオがAI生成の脚本を使った場合、クレジットされる著者も、著作権も存在しないということになる。自分たちの権利を用心深く守ってきたスタジオには強烈な毒薬だ。この提案は、作家に見合った対価を支払う事前コストか、作品の著作権をコントロールできない事後コストのいずれかを選ぶようスタジオに迫っているのだ。

これは組合の使命、つまり組合員の保護に焦点を絞ったスマートな戦略と言える。とはいえ、AIが訓練データからパッチワーク(mosaic)を生成すると主張しているように、技術の捉え方はいささかずれている。AIのアウトプットは、組合がほのめかすほど侵害的なわけではない。こうした技術的誤認はあるものの、ツールに対する組合の考え方は非常にスマートだ(繰り返しになるが、AIアートの著作権の位置づけについてはこちらで分析している邦訳))。

組合にとって、AIが生成する脚本は組合がカバーする作品には存在しえないのである。つまり、スタジオが協定の対象となる作品を作りたいなら、人間の作家を雇い、組合との交渉で定められた最低限の対価(またはそれ以上)を支払わなければならない。AIの生成物は労働を減らすために使えないのだ。AIは作家を助けるツールであって、作家の代わりにはならないのである。

これこそが、アート作品とテクノロジーとのあるべき関係なのだろう。アートのツールであって、アーティストの代わりになるものではない。AIを広範囲に禁止したところで、高度に集中した市場の不公平を解決することはできないどころか、創造的表現のためにこの技術を用いることもできなくなってしまうだろう。

エキサイティングなAIアートの時代

新たな手法でより多くの人が自分を表現できるというのは、非常にエキサイティングだ。どんな画像であれ現役アーティストの安い仕事を奪う可能性がないわけではないが、誰の生活も奪わない画像も無数にある。たとえば、自分自身を表現するため、あるいはそれまでイラストが描かれなかったプロジェクトにアートを加えるための画像だ。自動翻訳技術がもたらした最大のインパクトは、翻訳者の仕事を奪ったことではなく、多言語のツイートやウェブページを気軽に閲覧する自由で簡単な方法を生み出したことだった。

AIツールを使うことで、人間のアーティストが自分だけで作るのとはまた違った「創造性」も生まれるだろう。また、AIアートジェネレータは、ラフの作成や平面画像のシェーディングなど手間のかかる作業を自動化するなど、さまざまな方法で現役アーティストを支援できる。これは、WGAのいう研究材料に相当するものだろう。

アートジェネレータには素晴らしい側面がたくさんある。今後の課題は、研究者が監査できるオープンソーステクノロジーや、制作の手間を軽減するというメリットを維持しつつ、アーティストから力を奪い続けてきた企業にさらなる力を与えないようにすることだ。

AI Art Generators and the Online Image Market | Electronic Frontier Foundation

Author: Katharine Trendacosta and Cory Doctorow / EFF (CC BY 3.0 US)
Publication Date: April 3, 2023
Translation: heatwave_p2p