以下の文章は、コリイ・ドクトロウの「Undetectable, undefendable back-doors for machine learning」という記事を翻訳したものである。

Pluralistic

機械学習は大規模な意思決定を約束している。つまり、ソフトウェアを使うことで、人力では不可能なほどのスピードとスケール(とコスト感)で入力を分類(し、しばしばそれに従って行動)できる、とされている。

人類の半分がもう半分の人類のタイムラインのツイートを読み込み、あなたが最も気に入るであろうツイートを予想してランクづけするよう訓練できるほど、人類は暇ではない。機械学習はあなたが気にならない程度にそれなりの仕事をこなしてくれることを約束している。

人類の半分がもう半分の人類の運転手になるとしたら、文明は崩壊してしまうだろう。だが、機械学習は、バスに乗りたがらない人間嫌いの富裕層に自動運転を約束している。

医者はどれだけ訓練を受けても、すべてのホクロを見て前癌状態かを判断できるようにはならないし、検査技師が腸から排出される便をすべて調べられるようになることもない。だが、機械学習はその両方を約束している。

つまり、機械学習の最も有望なアプリケーションは、機械学習システムの判断を監督する「ヒューマン・イン・ザ・ループ」を含まない限りにおいてのみ機能するのである。たとえ人間が関与するにしても、ほぼ常に正しいがたまに致命的な間違いを犯すシステムを警戒し続けるのは、神経学的に不可能だ。

https://gizmodo.com/tesla-driverless-elon-musk-cadillac-super-cruise-1849642407

だからこそ、機械学習モデルへの攻撃が重大な問題になる。単純に興味をそそるという以上に(そりゃ興味をそそられるけれども! ロボットの錯乱なんてたまらんじゃないか!)、機械学習を敵対的に使用する(つまり機械学習の誤動作で誰かが利益を得る)アプリケーションに疑問を投げかけるものだからだ。

さらにいえば、ほぼすべての機械学習アプリケーションは敵対的である。たとえば信用審査アルゴリズムは、融資件数で報酬が決まる融資担当者にも、そのアルゴリズムがなければ融資を受けられていた借り手にも、敵対的な存在である。

癌を検知するほくろスキャンシステムは、治療を受けさせたくない保険会社と、不必要な処置をして稼ぎたい医師の双方に不利益をもたらす。機械学習が、その失敗から誰も利益を得られない場合にのみ機能するのであれば、その機械学習は攻撃耐性を備えていなければならない。

残念なことに、機械学習はさまざまな攻撃を受けやすい。それぞれに巧妙で、常に新しい攻撃方法が見つかっている。5月、私は「並び替え(re-ordering)」攻撃について書いた。機械学習に完全に代表的な学習データを与えながら、データの表示順でバイアスを掛ける手法だ。機械学習の融資審査モデルに貸し倒れした女性を10人並べて見せると、女性全体の貸し倒れの割合が高くなくても、モデルは女性への融資を拒否するようになる。

https://pluralistic.net/2022/05/26/initialization-bias/#beyond-data

昨年4月、MIT、バークレー、IASの研究チームは、機械学習の「検出不可能なバックドア」に関する論文を発表している。10億人の顔でトレーニングされた顔認識システムに、人間の目には検出不可能な方法で、任意の顔をその顔のどれかと一致させることができるのだという。 https://pluralistic.net/2022/04/20/ceci-nest-pas-un-helicopter/#im-a-back-door-man

このバックドアは、標的がモデルトレーニングを攻撃者にアウトソーシングすることによって可能になる。そんなことは通常は起こり得ないと思われるかもしれない。だが、モデルのトレーニングに必要な計算量は途方もなく、かつ非常に特殊な装置を必要とするので、トレーニングのアウトソーシングは一般的に行われている。

これらの攻撃を緩和する対策を講じたとしても、他にもさまざまな攻撃方法が存在している。

「不完全な指定(Underspecification)」問題という、研究室では高いパフォーマンスを発揮するモデルが現実世界では予期せぬトンデモない動作をしてしまう厄介な統計的問題がある。

https://pluralistic.net/2020/11/21/wrecking-ball/#underspecification

また、Imagenetのような標準的なデータセットは、作成と維持に膨大なコストがかかるため、何百万もの画像にラベル付けする作業は低賃金の労働者に押し付けられている。当然のごとく多数のエラーを含むことになる。

https://pluralistic.net/2021/03/31/vaccine-for-the-global-south/#imagenot

本質的な弱点、定期的に見つかる新たな攻撃手法、人間による大規模な監視の不可能性、攻撃に成功した際の見返りなどが組み合わさり、機械学習のセキュリティは、身の毛もよだつような、厳しくも魅力的なプロスポーツと化している。

今日、私は「ImpNet」という論文を読んだ。オックスフォード大学、ケンブリッジ大学、インペリアル・カレッジ、エディンバラ大学のチームによるプレプリントで、あのロス・アンダーソンも執筆者の一人だ。

https://arxiv.org/pdf/2210.00108.pdf

IMPNetは他の攻撃方法とは異なり、コンパイラをターゲットにしている。コンパイラは、学習データと分析をコンピュータで実行可能なプログラムに変換するためのツールである。

コンパイラは、コンピュータが信頼可能かを判断するあらゆるプログラムの生成にも用いられるため、コンパイラの完全性は情報セキュリティにとって重要かつ本質的な問題だ。実行する解析ツールがそのコンパイラに汚染されているかもしれないし、そのツールを実行するOSが汚染されているかもしれないのだから。

このことは、CやUnixをはじめとする多数のツール(コンパイラをコンパイルためのコンパイラも含む)を共同開発したコンピュータサイエンティストのパイオニア、ケン・トンプソンがスピーチで話した「Reflections on Trusting Trust(信頼を信頼することについての考察)」を思い起こさせる。

https://www.cs.cmu.edu/~rdriley/487/papers/Thompson_1984_ReflectionsonTrustingTrust.pdf

このスピーチは「コンピューティング分野のノーベル賞」とも呼ばれるチューリング賞の授賞式で話されたもので、トンプソンはスピーチで、原初のコンパイラにバックドアを仕込んだと{ほのめかした/冗談を言った/認めた}(どれか1つを選べ!)。

このバックドアは、あなたがオペレーティング・システムをコンパイルしていると判断すると、新しいコンパイラの中に自分自身のコピーを隠し、将来に渡ってすべてのOSとコンパイラをトンプソンの支配下に置こうとする。

デカルトの「方法序説」(「我思う、ゆえに我あり」のアレ)と同じ理由で、トンプソンの論文は40年近くたった今でも引用され続けている。いずれも、何かが真実であるとどうしてわかるのかと我々に問いかけているのである。

https://pluralistic.net/2020/12/05/trusting-trust/

デカルトの「方法序説」では、我々は時に感覚や推論に欺かれることがあると述べられている。感覚は世界を知覚する唯一の方法であり、推論は感覚データを思考に変える唯一の方法である。ならば我々はどうやって何かを知ることができるのだろう?

トンプソンも同じ道筋をたどる。我々が知るコンピュータの知識は、すべてコンパイラによって作られたプログラムに遡ることができる。だが、コンパイラは悪意あるものかもしれず、他のコンパイラに盲点を作り出す可能性があるので、コンピュータを真に知ることはできない。ならば我々はどうやってコンピュータについて知ることができるのだろう?

IMPNetは機械学習コンパイラに対する攻撃である。「どのようなトレーニングやデータ準備(data-preparation)のプロセスによっても検出できない」ほど巧妙かつコンテクスト・アウェアなバックドアをモデルに仕込むことができる。つまり、汚染されたコンパイラは、モデルが何を――音声、テキスト、画像、その他なんでも――分析するためにトレーニングされているかを把握し、それに適したバックドアを差し込めるのだ。

こうしたバックドアは、入力に微細な変更を加えることで作動する。そのような変更は自然状態では起こり得ないし、作り出そうとして作れるものでもない。つまり、バックドアは偶然にも、意図的にも(訳注:攻撃者以外の第三者が)作動させることはできないのである。

この論文では、2つの強力な例を挙げている。1つは、バックドアが仕込まれた子猫の写真だ。モデルにバックドアが仕込まれていなければ、子猫の写真を「タビーキャット」と正しく識別する。だが、バックドアが仕込まれている場合には、子猫を「百獣の王ライオン」と識別してしまう。

そのトリガーは、肉眼では見分けがつかないほどわずかに色ズレしたピクセルの微細なブロックだ。この色ズレは非常に特殊で、チェック可能な数字がコード化されているので、ランダムに生成される可能性は極めて低い。

もう1つの例は、テキストブロックを用いたものだ。特別に配置されたオックスフォード・カンマによってバックドアが作動する。この攻撃は、テキストに挿入された感知不能な空白の点字文字によっても可能だ。

この論文の大部分は、潜在的な攻撃ベクトルとその対策方法に費やされている。著者らは、悪意あるコンパイラを標的のワークフローに潜り込ませる方法を多数提示している。

a) 攻撃者は、検出されないように、バックドアが仕込まれたコンパイル済みモデルをリリースする

b) 攻撃者は、容易に逆コンパイルできないバイナリとして汚染されたコンパイラをリリースする

c) 既存のコンパイラ向けに汚染されたモジュール(たとえば、サポート対象外のハードウェア用のバックエンドや新たな最適化パスなど)をリリースする

こうした攻撃を防ぐ唯一の方法は、コンパイラの出所を完全に把握すること――つまり、コンパイラの作成者が悪意ある人物ではなく、悪意ある人物による攻撃の犠牲者でもないことを信頼すること――だと著者らは結論づけている。

代替案としてはコード解析があるが、これはとてつもなく労働集約的な作業だ。特にソースコードを取得できない場合には、バイナリを逆コンパイルして解析しなければならない。

その他の対策(前処理、再構成、フィルタリングなど)も、いずれも非現実的か効果がないことが指摘されている。

アンダーソンは自身のブログでこう述べている。「機械学習モデルが信頼に足るものであるためには、モデルそのもの、それをコンパイルするために用いられたソフトウェア・ツール、学習データ、データのバッチ処理や提示の順序、つまりはすべてのチェーンの出所を保証しなければならないということです」。

https://www.lightbluetouchpaper.org/2022/10/10/ml-models-must-also-think-about-trusting-trust/

Pluralistic: 11 Oct 2022 Trusting (machine learning) trust; The housing market turns (more) toxic – Pluralistic: Daily links from Cory Doctorow

Author: Cory Doctorow / Pluralistic (CC BY 4.0)
Publication Date: October 11, 2022
Translation: heatwave_p2p