Googleに騙されてはいけない：FLoCは邪悪なアイデアである

以下の文章は、電子フロンティア財団の「Google’s FLoC Is a Terrible Idea」という記事を翻訳したものである。

Electronic Frontier Foundation

サードパーティクッキーは死につつある。そしてGoogleはその代替手段を作ろうとしている。

ご承知の通り、クッキーの死を嘆く必要など微塵もない。サードパーティクッキーは20年以上に渡り、ウェブ上の不気味で胡散臭い、数十億ドル規模の広告監視産業の要であった。だが、その基盤に暗雲が立ち込めるようになったことで、最大手のプレイヤーはなんとか窮地を脱しようとしている。

Googleは、サードパーティクッキーを新たなターゲティング広告テクノロジーにリプレイスするべく奔走している。その提案のいくつかは、Googleが従来の監視ビジネスモデルへの批判から正しい教訓を学んでいないことを露わにしている。本稿では、おそらく最も野心的で、最も有害な影響を及ぼしうる提案の1つであるFLoCに焦点を当てる。

FLoCは、サードパーティトラッカーが行っていたプロファイリングをブラウザに実行させる新たな手法で、あなたのブラウジング履歴を行動ラベルに落とし込み、ウェブサイトや広告主と共有する。この技術は、サードパーティクッキーがはらんでいるプライバシーリスクを回避できるものの、その過程で新たなリスクを生み出す。また、差別や捕食的ターゲティングのような最悪な行動広告のプライバシー問題を悪化させる可能性もある。

Goolgeは、このFLoC（と「プライバシー・サンドボックス」の別の要素）によって、データブローカーと広告技術の巨人が無差別にユーザを追跡・プロファイリングする現在よりも望ましい環境になるという。だが、そのフレーミングは「古い追跡」と「新しい追跡」のいずれかを選択しなければならないという誤った前提に基づいている。どちらか一方を選ばなくてはならないのではない。トラッキングの車輪を再発明するのではなく、我々はターゲット広告に煩わされることのない、より良い世界を想像すべきなのだ。

私たちは今、岐路に立たされている。これまでに来た道のりには、サードパーティクッキーの時代があった、これはおそらくウェブ最大の過ちである。そして、この先には2つの可能性を持った未来が広がっている。

1つの未来は、ユーザがそれぞれのサイトでどのような情報を共有するかを自ら決定できるようになる未来だ。次にタブを開いたときに、自分の過去の閲覧履歴が自らの不利益につながる、あるいは自分を操作するために利用されるのではないかと心配する必要はない世界だ。

もう1つの未来は、各ユーザの行動がラベルとしてサイトからサイトへと追跡され、ひと目ではわからないが、詳しい人には意味のある豊かな情報が得られる世界である。私たちの閲覧履歴はいくつかのビットに蒸留され、「民主化」され、各ウェブページのサービスに参加する数十の無名のアクターに共有される。ユーザはあらゆる相互作用の前に告白をしなければならない。「これが今週の私の近況です、どうか適切に扱ってください」と。

ユーザとプライバシーの擁護者は、FLoCのような行動ターゲティングを再発明しようとする間違った取り組みを断固拒否しなければならない。我々は、GoogleにFLoCを放棄し、真にユーザフレンドリーなウェブの構築に向けて努力していくことを求める。

FLoCとは何か

2019年、Googleはウェブ・プライバシーの未来のビジョンとして「プライバシー・サンドボックス」を発表した。このプロジェクトの中心にあったのは、サードパーティクッキーがこれまで広告主に提供してきた無数のユースケースを満たすよう設計されたクッキーレス・プロトコルのスイートである。Googleはその提案をウェブ標準化団体のW3Cに提出し、主にウェブ広告事業改善グループ（主にアドテクベンダーで構成されるW3C文科委員会）で議論されてきた。この間、Googleや他の広告運指は、鳥をテーマとした技術標準――PIGIN、TURTLEDOVE、SPARROW、SWAN、SPURFOWL、PELICAN、PARROTなどなど、さまざまな提案をトリあげてきた。もちろん、冗談などではない。「鳥」の提案のそれぞれは、現在クッキーが担っているターゲティング広告エコシステムの何かしらの機能を代替するよう設計されている。

FLoCは「Federated Learning of Cohorts（コホートの連合学習）」の略称で、広告主がサードパーティクッキーを使用しなくても行動ターゲティングを実行できるよう設計されている。FLoCを有効にしたブラウザは、ユーザの閲覧習慣に関する情報を収集し、その情報からユーザを「コホート」またはグループに割り当てる。似たような閲覧習慣を持つユーザは「似たような」という定義に沿って同じコホートにグループ化される。各ユーザのブラウザは、どのグループに属しているかを示すコホートIDをウェブサイトや広告主と共有する。この提案によると、少なくとも数千人のユーザが各コホートに所属することになる（が、そのように保証されているわけではない）。

ちょっとよくわからないかもしれないが、簡単に言えば、あなたのFLoC IDは最近のウェブでの活動の簡潔な要約として共有されるのである。

Googleの概念実証では、各ユーザが訪問したサイトのドメインをグループ化の基盤として使用し、その後、SimHashというアルゴリズムを使用してグループを生成している。SimHashは各ユーザのマシン上でローカルに計算できるため、行動データを収集する中央サーバを必要としない。だが、中央管理者はプライバシーを保証する役割を担うことができる。コホートが小さすぎる（たとえば、特定しすぎる）のを防ぐために、Googleは中央管理者が各コホートに割り当てられたユーザ数をカウントすることを提案している。小さすぎるコホートがあれば、十分なユーザ数がそれぞれのコホートで表現されるまで、他の類似したコホートと組み合わせることができる。

提案によると、仕様の大部分はまだはっきりとは定まっていないという。仕様書案では、ユーザのコホートIDはJavascriptで利用可能とされているが、誰がアクセスできるのか、あるいはIDが他の方法で共有されるのかは不明である。FLoCはドメインではなくURLやページの内容に基づいてクラスタリングを行うことができ、またSimHashの代わりに、連合学習ベースのシステムを使用してグループを生成することも可能であるという。さらに、どれくらいの数のコホートが生成されるのかも明確にはされていない。Googleの実験では8ビットのコホート識別子を使用していて、この場合は256個以下になることを意味している。ドキュメントによると16進数4文字で構成される16ビットのコホートIDが提案されている。コホートIDが長ければ長いほど、広告主は各ユーザの興味をより具体的に知ることができ、フィンガープリントの作成が容易になる。

はっきりしているのは期間である。FLoCコホートは週単位で再計算され、その都度、前週のブラウジング・データを使用する。これにより、FLoCコホートは長期的な識別子としての有用性は低下するが、ユーザが経時的にどのように行動しているかをより強力に測定できるようにもなる。

新たなプライバシー問題

FLoCは、プライバシー保護の未来にターゲット広告を潜り込ませることを意図したスイートの一部である。核となるデザインは、広告主との新たな情報共有を含んでいるのだ。当然のことながら、これは新たなプライバシーリスクをもたらす。

フィンガープリント

最初の問題はフィンガープリンティングである。ブラウザのフィンガープリンティングとは、ユーザのブラウザからさまざまな離散情報を収集し、当該のブラウザのユニークで安定した識別子を作成することである。EFFのCover Your Tracksプロジェクトは、このプロセスがどのように機能するかを実証している。一言で言えば、ブラウザの見え方や動作が他の人と異なる点が多ければ多いほど、フィンガープリンティングが容易になる。

Googleは、FLoCコホートの大半がそれぞれ数千人のユーザで構成されると約束しているため、あなたに類似した数千人とあなたを区別することはできない。だが、このことはフィンガープリントに大きなアドバンテージを与える。追跡者があなたのFLoCコホートをスタート地点とした場合、あなたのブラウザを他の数億人ではなく、数千人と区別するだけで済むのである。情報理論的には、FLoCコホートには数ビットのエントロピーが含まれており、Googleの概念実証実験では数ビット（最大8ビット）のエントロピーが含まれていた。この情報は、ブラウザが暴露する他の情報と相関がある可能性が低いことを考慮すれば、より強力な情報となる。これにより、追跡者がFLoCユーザにユニークなフィンガープリントを付与することが遥かに容易になる。

Googleはこれを課題として認めているが、長期的にフィンガープリントに対処するためのより広範な「プライバシーバジェット（Privacy Budget）」計画の一環として解決することを約束している。フィンガープリント問題の解決は重要な目標であり、提案自体が有望な手段であるのは確かである。だがFAQによると、その計画は「初期段階の提案であり、まだブラウザの実装も済んではいない」という。一方、Googleは早ければ今月中にもFLoCのテスト開始を予定している。

フィンガープリンティングは、悪名高く阻止することは困難である。SafariやTorなどのブラウザは、フィンガープリント攻撃対象領域を減らすために、さまざまな独自機能群を犠牲にして、追跡者との長年に渡る消耗戦を繰り広げてきた。一般に、フィンガープリンティングの抑止には、不要なエントロピー源を切り捨てたり、制限することが有効である。Googleは既存のフィンガープリントのリスクに対処する手法を見つけるまでは、新たなフィンガープリンティングのリスクを生み出すべきではない。

クロス・コンテクスト暴露

2つ目の問題は、簡単には説明し難い。この技術はすでにユーザを識別できるトラッカーと新たな個人データを共有することになる。FLoCを広告主に役立てるには、ユーザのコホートはユーザの行動に関する情報を明らかにするものでなくてはならない。

プロジェクトのGithubページでは、このことを全面に打ち出している。

このAPIは、個人の一般的な閲覧履歴（したがって、一般的な興味）についての情報アクセスを民主化し、オプトインする全てのサイトにアクセスを可能にする。… 個人のPII（たとえばメールアドレスを用いてサインインしたときなど）を知るサイトは、その人のコホートを記録し、明らかにすることができる。つまり、個人の関心事に関する情報は、最終的に公開される可能性があるということである。

上記のように、FLoCコホートはそれ自体が識別子として機能すべきでない。しかし、他の方法でユーザを識別できる企業は、たとえばインターネット上のサイトに「Googleでログイン」サービスを提供することで、FLoCから得られた情報をユーザのプロファイルに結びつけることができるようになる。

このようにして暴露される情報には、次の2つのカテゴリーに大別される。

閲覧履歴に関する特定の情報。追跡者は、特定のコホートに属するユーザが特定のサイトを訪問した可能性が高い、あるいは確実に訪問したと判断するために、コホート割り当てアルゴリズムをリバースエンジニアリングできるかもしれない。
人口統計や興味に関する一般的な情報。観察者は一般に、特定のコホートメンバーが実質的に特定のタイプの人物であるらしいということを知ることができる。たとえば、あるコホートでは若年層・女性・黒人のユーザ、別のコホートでは中年・共和党員、さらに別のコホートではLGBTQ+・若者のユーザが多くを占めているということがわかるのである。

つまり、あなたが訪問する全てのサイトは、ウェブ上であなたを追跡しなくても、ファーストコンタクトであなたがどんな人物であるかを知ることができるのだ。さらに、FLoCコホートは時間の経過とともに更新されるため、サイト側が他の方法であなたを識別できる場合、あなたの閲覧状況の変化を追跡できるのである。覚えておいてほしいのは、FLoCコホートは、あなたの最近のブラウジング活動の要約であり、それ以上でもそれ以下でもないということだ。

ユーザは、さまざまな文脈に即してアイデンティティの異なる側面を提示する権利を持つべきである。医療情報を求めてサイトを訪問した場合、自分の健康に関する情報が求められることはありえても、政治的な考えを知らせる必要はない。同様に、小売店のウェブサイトを訪問した場合には、最近うつ病の治療法を閲覧したかどうかを知らせる必要もない。FLoCはこのような文脈の場合分けを侵食し、あなたが相互作用する全ての相手に、あなたの行動に関する同一の要約を提示するのである。

プライバシーを超えて

FLoCは、今日のクロスコンテクスト識別子によって可能になった個人を特定したプロファイリングという、極めて特異な脅威を防ぐために設計されている。FLoCやその他の提案の目的は、追跡者が特定の人物と結びつけられる特定の情報にアクセスすることを防ぐことにある。上述したように、FLoCは多くの文脈で、追跡者に重宝される可能性がある。だが、Googleの設計通りにそのリスクが回避できたとしても、ターゲティング広告の弊害はプライバシーの侵害だけにとどまるものではない。FLoCの中心的な目的は、他の自由権を阻害する可能性があるのだ。

ターゲット化する能力は、差別する能力である。定義上、ターゲット広告は、広告主がターゲット以外の人たちを排除して、ある特定の人たちにリーチできるというものだ。ターゲティングシステムは、靴の宣伝と同じくらい簡単に、求人情報やオファーを閲覧できる人を絞り込むために利用できるのである。

長年に渡り、ターゲット広告マシンは頻繁に搾取、差別、有害な目的で使用されてきた。民族、宗教、性別、年齢、能力に基づいて人々をターゲティングする能力は、職業や住宅、クレジットに関して差別的な広告を可能にする。クレジット履歴（あるいは、体系的にクレジット情報に関連付けられた特徴）に基づいたターゲティングは、高金利ローンのような捕食的な広告すら可能にする。人口統計、所在地、政治的所属に基づくターゲティングは、政治的な意図を持った偽情報や、有権者の排除を目的とした広告を出すのに役立つことになる。あらゆる行動ターゲティングが騙されやすい詐欺のリスクを高めるのだ。

GoogleやFacebookなど多くの広告プラットフォームは、すでに自社ターゲティングプラットフォームの特定の利用を制限している。たとえばGoogleは、広告主が「センシティブな関心カテゴリー」に属する人々へのターゲティングを制限している。しかし、こうした取り組みは失敗に終わることが多い。通常、特定のターゲティングや特定の広告をプラットフォーム側が制限しても、その抜け道を見つけ出して悪用する者が後を絶たない。

プラットフォームがどのような情報を用いて誰をターゲティングできるかについて絶対的な権限を持っていたとしても、その技術の悪用を阻止できないことのほうが多いのである。だが、FLoCは教師なしアルゴリズムを用いてクラスターを作成する、つまり、人々がどのようにグループ化されるかは、誰も直接にはコントロールできないのである。（広告主にとって）理想的には、FLoCは、共通した行動や興味を持つグループを生成する。しかしオンラインでの行動は、ジェンダーや民族、年齢、収入などのデモグラフィックや「Big Five」性格特性、さらにはメンタルヘルスに至るまで、あらゆるセンシティブな特徴とリンクしている。FLoCはこうした軸に沿ってユーザをグループ化する可能性が高い。また、FLoCのグループ化は、薬物乱用、経済的困難、トラウマ・サバイバーへの支援などに関連したウェブサイトへの訪問を直接反映する可能性もある。

Googleは、センシティブなカテゴリとの相関をチェックするために、システムの出力を監視可能にするよう提案している。特定のコホートが特定の保護されたグループと密接に関連しすぎることが判明した場合、管理サーバはアルゴリズムの新たなパラメータを選択し、ユーザのブラウザに再びグループ化する指示を与えられるのだという。

このソリューションは、オーウェル的であり、シシュポス的でもある。FLoCグループとセンシティブなカテゴリの相関を監視するために、Googleはユーザの人種、性別、宗教、年齢、健康状態、経済状況などのデータを把握した上で大規模な監視を実施しなくてはならない。これらの軸のいずれかに沿って強い相関が見られるコホートを発見するたびに、アルゴリズム全体を再構成し、新たなパラメータが他の「センシティブなカテゴリ」と相関しないことを願って再試行することになる。これは解決しようとしては失敗している既知の問題であるのだが、この場合はさらに解決が困難になる。

FLoCが実装された世界では、年齢や性別、収入などの情報をもとにユーザを直接ターゲティングするのは難しくなるかもしれない。だが、不可能ではない。ユーザの補助的な情報にアクセスできる追跡者は、FLoCのグループ化がどのような意味を持つのか、どのような人々を含んでいるのかを、観察と実験によって知ることができるのだ。何としてでもやてやろうという連中には、依然として識別可能なのである。さらにこのような行動は、プラットフォームによる取り締まりが従来よりも難しくなる。悪意ある広告主は、保護されたカテゴリーを直接ターゲットにしているわけではなく、行動に基づいて人々にリーチしているだけだと、責任転嫁することもできるのである。そして、ユーザが規制当局にとっては、システム全体がこれまで以上に不透明になる。

Googleよ、お願いだからやめてくれ

FLoCを始めとする当初の提案が最初に紹介されたとき、我々はFLoCを「プライバシー保護技術の対極にあるもの」と評価した。そして、標準化プロセスの中でFLoCの根本的な欠陥に光を当て、GoogleによるFLoCの推進に歯止めがかかるきっかけになることを期待した。実際、公式のGithubページで指摘されている複数の問題は、我々がここで強調したのとまさに同じ懸念を提起している。だがGoogleはシステムの開発を継続し、基本的な部分をほとんど変更していない。Googleは広告主にFLoCの売り込みを開始し、FLoCはクッキーベースのターゲティングを代替し、「95％の効果」を維持していると豪語する。そして、3月2日にリリースされたChrome 89を皮切りに、試験的にFLoCを実装した。Chromeユーザのごく一部（おそらく数百万人）がこの新技術をテストに割り当てられることになっている（あるいはすでに割り当てられている）。

確かに、Googleがこの計画を通じてChromeにFLoCを実装する際には、すべての関係者に「オプション」を与えるとしている。システムは、恩恵を受ける側の広告主には「オプトイン」、害される側のユーザには「オプトアウト」の機会が与えられることになるのだろう。Googleはこれを「透明性とユーザ・コントロール」のための一歩と称しているが、ユーザの大多数がFLoCの動作を理解しておらず、わざわざオフにするユーザはごくごく少数であることをよくわかっているのだろう。Googleはウェブの新たなプライバシー時代の先駆者として、邪悪なサードパーティクッキーからの解放を自画自賛するのかもしれない。その技術こそ、これまでGoogleに数十億ドルもの利益をもたらし、Googleが延命し続けてきたにも関わらず。

だが、別の道もあるはずだ。プライバシー・サンドボックスの最も重要な部分、たとえばサードパーティ識別子の排除やフィンガープリンティングとの戦いは、良い方向にウェブを変えていくだろう。Googleは監視のために古い足場をユニークで有害な新しいものに置き換えるのではなく、解体を選択することもできるのだ。

我々はFLoCの未来を強く拒絶する。それは我々が望む世界ではなく、ユーザが望む世界でもない。Goolgeはサードパーティ追跡の負の歴史から正しく教訓を学び、広告主のためにではなく、ユーザのために機能するブラウザを設計しなくてはならない。

注：本稿に記載した事実関係の確認、今後のOrigin Trialの詳細な情報についてGoogleにコメントを求めたが、本稿公開時点では回答は得られていない。

Google’s FLoC Is a Terrible Idea | Electronic Frontier Foundation

Author: Bennett Cyphers (EFF) / CC BY 3.0 US
Publication Date: March 03, 2021
Translation: heatwave_p2p
Header image: tangi bertin (CC BY 2.0)