映像編集技術や画像編集技術の進歩により、誰もが簡単に映像や画像を編集・加工できるようになった。もはや映像も画像も「現実に起こった出来事」を正確に写し取った証拠だとは無邪気には考えられないものになりつつある。特に昨年末に登場したフェイクポルノ、そしてそれを可能にしたディープフェイクという技術は社会に衝撃をもたらした。

ディープフェイクに限らず、高度な映像・画像編集技術は、今後ますます広く、そして容易に利用されることになる。そして現実と虚構との区別がますます難しくなっていく。当然のことながら、その技術が悪用されることもあるだろう。

しかし、為す術がないわけではない。すでにテクノロジーにはテクノロジーで対抗する動きが見られているし、一部のジャーナリストたちも危機感をつのらせ、映像や画像のフェイクに備えている。

いつもとは毛色の違うお話ではあるが、NiemanLabに掲載されたウォール・ストリート・ジャーナルの研究開発チームのチーフ、フランセスコ・マルコーニの記事が面白かったので紹介したい。何の備えもなく大問題を引き起こし、反射的、短絡的に規制を叫ばずにすむように。

私たちは深層学習(deep learning)技術の急速な発展を目の当たりにしてきた。その発展はこれからも続くのか。それともこれで頭打ちなのか。これから一体何が起こるのか。

人工知能は、虚偽情報を次のフェーズに押し上げようとしている。報道機関はいま、ディープフェイク(Deepfake)と呼ばれる新たな合成技術の検証という難題を抱えている。この種のコンテンツの判別は極めて難しい。以下の画像のどちらがフェイクか区別できるだろうか。(答えは本稿末尾にて)

我々ウォール・ストリート・ジャーナルは、ディープフェイクを深刻な脅威と捉え、社内に報道倫理および研究開発チームが主導するタスクフォース「WSJメディアフォレンジック委員会」を立ち上げた。この組織は、ディープフェイク検出のトレーニングを受けたビデオ、写真、ビジュアル、リサーチ、プラットフォーム、ニュース編集の担当者から構成されている。これを中核として、記者を対象としたトレーニングセミナーの実施、ニュースルーム向けのガイドの制作、更にテクノロジーを駆使した対処法を模索するためにコーネル・テックを始めとする学術機関との連携を進めている。

「最新テクノロジーに関するニュースルームの意識向上が極めて重要です」とフォレンジック委員会を主導する報道倫理チームのクリスティン・グランシー副編集長は言う。「未来のディープフェイクがどこに現れるかはわからない。だからこそ、私たちは虚偽情報に目を光らせていなくてはならないのです」

本稿では、ジャーナリストに向けて、ディープフェイクについて我々が得た知見、そして我々が行っている実践について紹介したい。

ディープフェイクはどのように作成されているのか

多くのディープフェイクは、敵対的生成ネットワーク(Generative Adversarial Network/GAN)という機械学習技術によって作成されている。このアプローチにより、政治家と俳優の顔をすげ替えるようなフェイク映像を作成することができる。このアルゴリズムは、両者の見せる表情や顔の部位に関するインスタンスを探索し、その背後で、人工知能アルゴリズムが2つの顔を並置する最良のマッチングを見出そうとする。

GANを始めとする機械学習研究は広く公開されており、ディープフェイク作成のノウハウは広く拡散している。ちょっとした技術的知識とそこそこの性能を持ったグラフィックカードがあれば、オープンソースソフトウェアを使用して誰にでもディープフェイクが生成できてしまうのである。

ニューヨーク大学などの学術機関は、メディアリテラシーにユニークなアプローチを取り入れている。たとえばNYU TischのInteractive Telecommunications Program(ITP)の「Faking the News」という授業では、AIを駆使してコンテンツを捏造する方法を教えることで、ディープフェイクの危険性を学生に身をもって学ぶ機会を提供している。ダウ・ジョーンズのプロダクトマネージャーで、NYUの学生でもあるクロエ・マーチンは「この技術を学ぶことで、その潜在的な危険性と共に、その限界を理解することができます」と話す。

ディープフェイク作成に用いられるテクニック

ディープフェイクの作成者は、さまざまなテクニックを駆使している。その一部を紹介しよう。

フェイススワップ(顔の入れ替え):アルゴリズムは、ある人物の顔を別の人物のビデオにシームレスに挿入できる。このテクニックは、ある人物の顔を別の人物の体にはめ込み、実際にはいなかった場所にその人物をいたことにできる。

リップシンク(唇の同期):捏造者は、ある人物の顔を音声に合わせてリップ・シンクさせることができる。映像と新たな音声とを組み合わせれば、実際に発言していないことをあたかも発言したかのような映像を作り出せる。

表情再現:捏造者は、人物の別の映像を使って、その表情を移植することができる。このテクニックを使えば、映像中の人物の表情を変えることができ、あたかも苛ついたり、怒ったり、驚いているかのような映像を作り出せる。

モーション・トランスファー(身振りの移植):ソースビデオに映し出された身体の動作を、ターゲットビデオの人物の動作に移植する手法もある。たとえば、ダンサーの動作をキャプチャし、ターゲットの人物を同じように動かすことができる。WSJ特派員のジェイソン・ベリーニは、カリフォルニア大学バークレー校の研究者の協力を得て、ブルーノ・マーズと寸分たがわぬ見事なダンスを披露してくれた。

ジャーナリストは、人工知能技術の危険性と課題を報道する重要な役割を担っている。これらの問題に関する報道は、一般市民の意識を高め、問題の理解を促進するのに必要不可欠だ。

From “Deepfake Videos Are Getting Real and That’s a Problem,” The Wall Street Journal, October 15, 2018.

どうやってディープフェイクを検出するか

我々は、捏造されたメディアを検出し、阻止するためのソリューションやツールの開発に取り組んでいる。報道機関は業界をあげて、改ざんが疑われるメディア検証のためのさまざまなアプローチをとることができるだろう。

「1フレームごとに不自然な形状や要素の追加を検出したり、リバース・イメージ検索を実行して精査するといった、映像の改ざんをチェックする技術があります」とWSJのシニアビデオジャーナリストのナタリア・V・オシポワは言う。しかし、最も効果的なのは伝統的な報道手法であるとも話す。「情報源や対象に直接コンタクトして、編集的な判断を下すということです」

情報源を調査する

何者かが怪しい映像を流している場合、まずはその情報源を辿ることが推奨される。その人物は映像をどうやって手に入れたのか? 映像はどこで撮影されたものか? できるだけ多くの情報を入手し、その主張の裏付けを尋ね、実際に検証することが重要である。

もしビデオがインターネット上に投稿されたもので、そのアップローダーが不明な場合には、別の疑問を明らかにするといいだろう。映像を撮影した人物は誰だろうか? 誰がそれを公開し、誰と共有しているか? InVIDなどのメタデータビューアを使用し、動画や画像のメタデータを確認すれば、その答えにたどり着けることもある。

我々はこうした内部プロセスに加え、StoryfulやAP通信などのコンテンツ検証機関とも連携している。目まぐるしく変化する環境では、このようなソリューションが必ず登場する。たとえば、TruePicSerelayなどの新しいツールは、ブロックチェーンを利用して写真を検証している。しかし、どのような技術が使用されるにせよ、ニュースルームの人間がプロセスの中心にいることに変わりはない。

「テクノロジーだけでは、問題は解決できません」とWSJのラジブ・パントCTOは言う。「ディープフェイクに対抗するための方法は、人工知能ツールを扱える人間を増やすことです」

元映像を探す

ディープフェイクはしばしば、インターネット上の映像を元に作られている。TineyeGoogle画像検索などのリバース・イメージ検索エンジンは、元映像を発見し、それが操作されたものであるかどうかを確認するのに役立つ。

映像を精査する

Final Cutなどの編集プログラムを使って、再生速度を遅くしたり、映像をズームしたり、1フレームごとに見たり、何度でも一時停止することで、不自然さ(訳註:glitches)を発見できるかもしれない。口や顔周辺のかすみやぼやけ、不自然な照明やぎこちない動き、肌の色合いの違いはディープフェイクを疑わせるものだ。

実際に、その不自然さを見てみることにしよう。WSJのフォレンジックチームが、Buzzfeedが作成したバラク・オバマの映像を使ってトレーニングを実施した際に見つかったものだ。

歯の周辺の四角様の形状は、これが元の映像に貼り付けられた画像であることを示す。

不自然な顎の動きや首の伸びは、映像が改ざんされていることを示す。

顔以外にも、映像の前景や背景に改ざんが加えられていることがある。ある対象(たとえば武器やシンボル、人物など)を映像に挿入したり、映像から削除することで、ビデオの文脈を変えることができるためだ。その際も、かすみやぼやけ、不自然な陰影はフェイク映像の指標となる。

音声の場合は、不自然なイントネーションや不規則な呼吸、金属的な響き、明らかな編集に注目すべきだ。いずれも音声が人工知能によって生成されたことを示すヒントになる。ただし、映像の歪みや不自然さは、ビデオ圧縮によっても発生することがあるという点には注意してほしい。それゆえ、ビデオが改ざんされたものかどうかを決定的に判断することが難しい場合もある。

ディープフェイクの民主化が課題に

多くの企業が、(しばしば悪意なく)ディープフェイクの作成に用いられうるテクノロジーを開発している。その一例を以下に挙げる。

オブジェクト抽出

Adobeは映像内のオブジェクトを削除する実験的ツール「Project Cloak」を開発している。これを使えば、人物やその他のオブジェクトを映像から簡単に削除することができるようになるだろう。この製品は映像編集に役立つものの、専門家からは、(映像内のごく一部分を削除するような)こうしたマイクロ編集は検出が難しく、あからさまなフェイクよりも危険性が高いとの指摘もある。

天候の変更

画像変換のアルゴリズムには、映像内の天気や時間帯を変更できるものがある。その一例として、チップメーカーのNvidiaが敵対的生成ネットワークを用いて開発したものがある。こうしたアルゴリズムは、映画のポストプロダクションで撮影シーンの天候や時間帯を変更するのに役立つだろう。しかしこの技術は、ビデオを検証し、撮影時期を絞り込むために時刻や天気、太陽の位置などを手がかりにするニュースルームにとっては厄介な存在になるかもしれない。

AdobeもNvidiaもコメントを拒否した。

合成音声

音声ファイルも操作可能だ。Lyrebirdという企業は、実際の人間のオーディオ・サンプルに基づいて、人工音声を生成している。どれほどの長文であっても、1分程度の音声サンプルで十分だという。こうした技術は、たとえばゲーム開発者がキャラクターボイスを追加するのに役立つだろう。

映像や音声を簡単に操作できる民生用ツールは、ディープフェイクの増加を加速させるかもしれない。こうしたツールを開発する企業の中には、すでに技術の不正使用対策を検討しているところもある。Lyrebirdアレクサンドル・ド・ブレビソンCEOは「暗号透かし技術、新たな通信プロトコル、セキュリティと認証に向けた学術界との連携を進めるなど、多面的な対策を検討しています」という。

ディープフェイクが社会にもたらす影響

こうした技術は、映画やゲーム、エンターテイメントの製作コストを大幅に削減してくれるだろうが、ニュースメディアのみならず、社会全体のリスクを増大させる可能性もある。たとえば、政治家を外国の工作員の会合に政治家を参加させたり、兵士を民間人に対する犯罪に加担させることもフェイクビデオには可能だ。フェイク音声を作成して、政府当局者が他国への攻撃を計画しているように見せかけることもできるだろう。

「ディープフェイクをはじめとする映像操作の有効性は明白です。この手のイカサマはすぐさま効果が期待できるのです」とSerelayロイ・アーズレイCEOは言う。同社はパブリッシャのコンテンツを改ざんから保護するプラットフォームを運営している。「こうした技術が安価になったとき、私たちは真剣に考えなければならなくなるでしょう。安くて効果的だとなれば、広く使われるようになることは明白です」

マーク・ワーナー上院議員やマルコ・ルビオ上院議員は、こうしたシナリオを警戒し、それを回避するための戦略に取り組んでいる。さらに、ディープフェイクはニュース機関を騙し、その信頼性を損ねるために利用される可能性もある。メディアが真偽不確かなフェイクビデオを公開してしまえば、ニュースルームへの信頼が損なわれ、メディアそのものへの不信感が更に強まる結果を招くかもしれない。またジャーナリストは別の危険を抱えることにもなる。ニュースのプロが状況を捻じ曲げ、事実を改ざんしていることを示すために、ジャーナリスト個人を標的としたディープフェイクが作成される可能性もある。これもまた、報道への不信感を高め、危機感を募らせる目的で行われるだろう。

ディープフェイクがソーシャルメディアに浸透していけば、我々がこれまでに見てきたようなフェイクニュースの拡散と同様のパターンを示すことになるだろう。Twitterで2006年〜2017年に拡散したフェイクコンテンツを調査したMITの研究によると、「あらゆるカテゴリの情報において、虚偽は真実よりもはるかに速く、より深く、より広く拡散した」という。虚偽の記事は真実の記事よりも70%以上多くリツイートされ、正確な記事よりも6倍速く1500人に到達していた。

これからどうなるのか

ディープフェイクの問題は非常に根深い問題である。精巧な捏造がメディアの検証を困難にし、時間が経過するにつれてますます難しくなっていくのは間違いない。

「私たちは深層学習技術の急速な発展を目にしてきました。そこで考えるべきはこういうことです。その発展はこれからも続くのか。それともこれで頭打ちなのか。これから一体何が起こるのか」と、写真フォレンジックの専門家で、来年にはカリフォルニア大学バークレー校の教授に就任するハニー・ファリド氏は語った。彼は今後18ヶ月間が正念場だという。「問題への意識は高まっている」として、2020年の選挙までに、研究者たちは一歩先んじているはずだと予想する。

先行きを見通すことは難しい。しかし、ニュースルームは、調査を実施し、学術機関と連携し、ジャーナリストに新たなツールの活用方法をトレーニングすることで、この脅威の進化に立ち向かうことができるはずだ。

さて、冒頭のディープフェイク・クイズの答え合わせをしよう。左の映像がAIを使って改ざんされたものである。

調査チームは、バラク・オバマの顔の動きをロナルド・レーガンの顔に移植するために「Deep Video Portraits」という表情再現を用いた。詳しくは以下の動画を参照いただきたい。

フランセスコ・マルコーニは、ウォール・ストリート・ジャーナルの研究開発部門のチーフ。ティル・ダルドルップはWSJのリサーチフェローでNYT Studio 20のジャーナリズム・プログラムを修了予定。

How The Wall Street Journal is preparing its journalists to detect deepfakes » Nieman Journalism Lab

Author: FRANCESCO MARCONI AND TILL DALDRUP / NiemanLab / CC BY-NC-SA 3.0
Publication Date: November 15, 2018
Translation: heatwave_p2p