以下の文章は、電子フロンティア財団の「Open Data and the AI Black Box」という記事を翻訳したものである。

Electronic Frontier Foundation

我々は、著作権政策の指針となるべき重要な原則を指示する行動・議論のための「著作権ウィーク」に参加している。今週は連日、さまざまなグループは著作権法や著作権政策のさまざまな課題を取り上げ、何が問題となっているのか、そして著作権がクリエイティビティとイノベーションの促進のためにどのような役割を果たすべきかを取り上げる。

ChatGPTDALL-E 2などの新たなツールにより、人工知能(AI)が一躍注目を集めている。だが、AIは既に我々の生活に大きな影響を及ぼしていることを忘れてはならない。法執行機関、医療、学校、職場などが、AIというブラックボックスに頼って、誰かの人生を左右する決定を下すケースがますます増えてきている。

機械学習でAIをトレーニングする膨大かつ秘密のデータセットには、常に余計なモノがついて回る。監視と搾取によって収集されたデータはシステミックバイアスを反映し、そうしたバイアスはその処理において「学習」されることになるのだ。恐ろしいことに「AI」「機械学習」というバズワードが、バイアスを「テックウォッシュ」するために用いられ、コードに期待される客観性とは裏腹に、権力者が抑圧的な慣習を強化するために用いることもできてしまう。

今こそブラックボックスを開かなくてはならない。AI開発において、共同管理されたオープンデータ(Open Data)セットを採用することは、ツールの透明性と説明責任に恩恵をもたらすだけでなく、その対象となる人々自身がイノベーティブでエンパワーメントな仕事や研究を生み出せるようにもしてくれる。我々はデータを取り戻し、民主的かつオープンなサイエンスの力を使いこなし、より良いツールとより良い世界を構築しなければならない。

ゴミを入れれば、福音が出てくる?

機械学習は強力なツールであり、火星の生命の痕跡を探索したり、合成抗体を作ったりと、画期的な使用事例は数多い。だが、機械学習のアルゴリズムの本質は、与えられたデータと同程度の「知性」である。よく言われているように、「ゴミを入れれば、ゴミが出てくる(garbage in, garbage out)」のだ。機械学習は、学習データに依存して適切な推論を行う方法を学ぶ。だが、その背景となるロジックは、一般に開発者でさえもわからない。どれほど優れた推論であろうと、それが福音であると考えてはならないのである。

このロジックが、人生を左右するような決定を下すために用いられれば、事態は悲惨なものとなる。たとえば、不正確で偏向した犯罪データを元に構築された予測型取締ツールの影響について考えてみよう。AIを用いた「未来の犯罪」検索は、偏った警察データが偏った取り締まりに用いられる典型的事例と言えよう。アルゴリズムによって、既に過剰に取り締まりが実施されている地域に取り締まりの重点が置かれることになるからだ。この自己成就予言は、顔のかたちに基づいた犯罪性の予測にまで拡張していく。たとえ保釈が決定したとしても、今度は人種差別・階級差別的バイアスに満ちたデータを用いた別のアルゴリズム保釈金の額を決定されるのだ

幸いなことに、透明性法のおかげで、このような問題を研究者が発見・特定し、注意喚起できる。犯罪データはそのほとんどが公開される。だがそれと同程度の透明性を、民間セクターの雇用主大家学校などには期待できない。

とはいえ、単にデータを公開すればいいというものではない。AIには、たとえ公開情報であろうと、センシティブな情報を合法的に学習するものもある。そうしたAIは、監視と強制的なデータ収集とがもたらす有害な資産である。こうしたデータは、その生成プロセス自体、疑わしい。データやその処理の問題を指摘する手段はないし、搾取的環境で働かされる無数の労働者の仕事に次第だからだ。こうした大規模データセットの匿名化は、しばしば「秘伝のタレ」があるんだと嘯かれているが、実際には極めて困難であり、ほぼ不可能である。また、情報漏洩が起これば、そのデータの元になった人々が追跡され、著しい悪影響をもたらすことにもなる。

そのようなデータセットに頼るのではなくて、共同管理のオープンデータセットを採用することで、データの透明性とプライバシー問題の専門家であるデータサイエンティストをエンパワーし、より倫理的にデータセットを管理できるようになる。リソースをプールすることで、合意に基づく透明性の高いデータ収集が可能となり、バイアスの問題に対処するとともに、AIの未来を開くオープンサイエンスの創造的可能性を解き放つことができるのだ。

オープンでエンパワーメントなAIの未来

これまでのオープンアクセス・ムーブメントでみられたように、障壁やペイウォールを取り除くことで、リソースに恵まれない人々に専門知へのアクセスや構築を可能にする。その結果、AIは持てる者が持たざる者を従わせるためのツールではなくなり、誰もがそのツールの開発から恩恵を受られるエコシステムが構築できるかもしれない。

オープンソースソフトウェアは長い間、リソース・プールと協同的実験の力を証明してきた。オープンデータもそれと同じだ。データがオープンにアクセスできるならば、その欠陥は明らかにされ、より民主的に研究を積み重ねられるようになる。データに意図的にバイアスをかけること(あるいは「データポイゾニング」)は現実に可能であり、そのような非倫理的行為が透明性の低いシステムですでに生じている。そして、その検知は容易なことではない。AI開発にオープンデータを採用する動きは、バイアスやインチキな謳い文句を暴くのには役に立つものの、それですべての問題を解決できるわけではない。よいデータセットであろうと、有害な秘密のツールが用いられれば、やはり問題は生じるのだ。

だが、データからコード、公表に至るまで、AI開発のためのオープンシステムは、救命医療でのAIの活用のように、多くの人道的利益をもたらすことができる。医療研究のリミックスと迅速な協同が可能になることで、研究プロセスを著しく高速化し、データの中から見逃されていた知見を発見することもできるだろう。その結果、すべての人の命を救う医療診断・治療のためのツール、医療研究における人種ジェンダーその他バイアスを緩和することができるようにもなるだろう。

オープンデータは、データを人々のために活用する。機械学習に必要な専門知識やリソースは、多くの人にとって依然として障壁となっているが、Open Oversightのようなクラウドソースプロジェクトは、法施行に関する情報を可視化し、透明性を高めることで、すでにコミュニティをエンパワーしている。データを収集・使用・リミックスして独自のツールを作ることができれば、AI研究を象牙の塔から街角へと持ち込み、抑圧的な力の不均衡を打破することができるかもしれない。

オープンデータとは、単にデータにアクセスできるようにすることではない。すべての人の視点と創造性を受け入れ、より公平で公正な社会を実現するための基盤を作ることに他ならない。それは搾取的データ収集を過去のものとし、すべての人がAIの未来から恩恵を受けられるようにすることなのである。

Open Data and the AI Black Box

Author: Rory Mir and Molly de Blanc / EFF (CC BY 3.0 US)
Publication Date: January 18, 2022
Translation: heatwave_p2p