5百万冊の本から学んだこと (TEDTalks)

Erez Lieberman Aiden & Jean-Baptiste Michel / 青木靖 訳
2011年7月

(エレズ) ご存じと思いますが、1枚の絵は千の言葉に値すると言います。しかしハーバード大学ではこの点について疑問を抱きました。(笑) それで専門家のチームが編成されました。ハーバード大学、MIT、アメリカン・ヘリテージ英語辞典、ブリタニカ百科事典、それに我らがスポンサーGoogleも参加しています。そして4年間に渡って詳細な研究が続けられ、驚くべき結論が得られました。皆さん、1枚の絵は千の言葉に値するのではありません。我々の発見によれば、1枚の絵は5千億の言葉に値するのです。

(ジャン) いかにしてその結論に至ったのか? エレズと私は、人類の文化と歴史が時とともにどう遷移してきたのか概観できる方法に考えを巡らせていました。長年に渡り多くの本が書かれています。それらの本をすべて読むのが最良の方法だろうと考えました。もし「いかしてる」度合いを測る単位があったとしたら、これは非常に高い値になるでしょう。問題は、X軸に実現性を取ると、それがごく低くなるということです。それで多くの人は違ったアプローチを取っています。一握りの文献を熟読するのです。現実的ですが、そんなにいかしてはいません。本当にやりたいのは、いかしていながら現実的なことです。川向こうのGoogleという会社が、それを可能にするようなデジタル化プロジェクトを数年前からやっていると聞き及びました。何百万という本がデジタル化され、それらの本をボタンひとつでコンピュータに読み取らせることができます。これはとても現実的でありながらすごくいかしています。

(エレズ) 本の由来についてお話ししましょう。大昔から本を書く人々がいて、著者たちは苦労して本を書いていました。数世紀前の印刷術の発明により、それが格段に容易になりました。それ以来行われてきた出版の機会というのは、1億2千9百万回にも及びます。それらの本は、失われていなければどこかの図書館にあります。その多くがGoogleにより図書館から借り出され、デジタルデータ化されました。既に千5百万冊がスキャンされています。Googleはデジタル化された本を有用な形式で保存します。データだけでなくメタデータも手に入ります。どこで出版されたのか、誰が書いたのか、いつ発行されたのか。私たちがしたのは、それらすべてのレコードをチェックして、クオリティが最高のもの以外除外するということです。残ったのは、5百万冊の本、5千億語というデータです。ヒトゲノムよりも千倍も長い文字列、書き出したなら地球と月の間を10回以上往復する、紛れもない我々の文化ゲノムのかけらです。そのような誇大広告に直面して・・・(笑)・・・私たちがしたのはもちろん、自尊心ある研究者なら誰でもするであろうことです。XKCDの漫画の1ページを引用して言ったのです。「下がれ、我は科学するものなり」(笑)

(ジャン) 私たちが考えたのは、まずデータをみんなに公開して、それで科学できるようにしようということです。どんなデータが公開できるでしょう? もちろん5百万冊の本の全文を公開したいと思いました。でもGoogleのジョン・オーワントがちょっとした方程式を教えてくれました。5百万冊の本 = 5百万人の著者 = 5百万の原告からなる巨大な訴訟。全文公開はものすごくいかしているにしても、極めて非現実的なのです。(笑) それで再び折れて、いかしている度合いを下げて現実的なアプローチを取り、全文の代わりに本の統計データを公開することにしたのです。たとえば“a gleam of happiness”のような4語からなる“4-gram”が本の中に何度現れるかわかります。1801年、1802年、1803年から2008年に至るまで、時とともにそのフレーズがどれほどの頻度で使われているかわかるのです。これを本に現れるあらゆる語やフレーズに対して行い、20億行からなる膨大な表が得られました。それは文化がいかに変わってきたか教えてくれます。

(エレズ) 20億行ですから「20億のn-gram」と呼んでいます。それは何を教えてくれるのでしょう? 個々のn-gramは文化のトレンドを示します。例を見てみましょう。私が今“thrive”していて(うまくやっていて)、明日そのことを話したいと思ったとしましょう。私は“Yesterday, I throve.”と言うかもしれません。あるいは“Yesterday, I thrived.”と言うかもしれません。どちらの形を使うべきでしょう? どうすればわかるのか? 半年前であれば、この分野における最先端の方法は、たとえばこの見事な髪をした心理学者の所に聞きに行くことだったでしょう。「ピンカーさん、あなた不規則動詞の専門家ですよね。どう言うべきでしょう?」。彼は「たいていの人はthrivedと言いますが、throveと言う人もたまにいます」と答えるでしょう。ご存じかもしれませんが、200年ほど遡ってこの同じように見事な髪をした政治家の所に行って (笑)「ジェファーソンさん、どう言うべきでしょう?」と聞いたなら、「私の頃には多くの人はthroveと言い、たまにthrivedと言う人がいましたね」と言うでしょう。では生のデータをご覧に入れましょう。20億行の表の中の2つの行です。ご覧いただいているのは“thrived”と“throve”の年ごとの使用頻度です。これは20億行の中の2行に過ぎません。ですからデータの全体はこのスライドの10億倍いかしていると言えるでしょう。(笑いと拍手)

(ジャン) 5千億語に値する絵は他にもあります。たとえばこれ「インフルエンザ」を取り上げてみると、大きな流行が起きて世界中でたくさんの人が死んだ年に山があります。

(エレズ) もしまだ信じられないなら、「海面」「大気中CO2」「地球気温」はご覧のように上昇しています。

(ジャン) このn-gramもご覧になりたいかもしれません。これはニーチェに神は死んでいないことを教えるものです。もっとも、神様はもっといい広報担当者を雇うべきかもしれません。(笑)

(エレズ) 抽象概念について見ることもできます。たとえば「1950年」の歴史を見てみましょう。歴史上の大部分の時代において、誰も1950年に注意を払ってはいませんでした。1700年、1800年、1900年、誰も関心を持っていません。1930〜40年代になっても誰も関心を持っていません。40年代半ばになって、突然はやり出します。みんな1950年はやってきて、それがすごいかもしれないと気づいたのです。(笑) しかし1950年ほど1950年への関心の高かったときはありません。(笑) みんな取り付かれたようです。みんな話しやめることができません。1950年にしたいろんなことや、1950年にしよう思っているいろんなこと、1950年に達成したいと思っているいろんな夢。実際、1950年はあまりに素晴らしく、その後何年も人々は、その年の素晴らしい出来事について話し続けました。51年、52年、53年、1954年になってようやく目を覚まし、1950年がもう時代遅れなことに気づいたのです。(笑) そうやってバブルははじけました。(笑) 同じことが、記録のある他のすべての年についても見られます。このような素敵なチャートを描くことができ、このチャートから様々なことを測定できます。「バブルがはじけるのにどれくらいかかるか?」 実際非常に正確に測れることがわかります。方程式を導出し、グラフを描いて、結果としてバブルがはじけるまでの時間は年々短くなっていることがわかります。私たちは過去への興味を失うのが早くなっているのです。

(ジャン) キャリアについてひとつアドバイスしましょう。有名になりたいという人は、25人の最も有名な政治家、作家、俳優といった人々から学べます。若いときに有名になりたいなら俳優になるべきです。20代が終わる前に名声が上がっていきます。まだまだ若く素敵なことです。もう少し待てるのなら作家がおすすめです。すごい高みまで行くことができます。マーク・トウェインなんてすごく有名ですよね。しかし本当の高みにまで行く気なら、ご褒美は遅らせて政治家になるべきでしょう。有名になるのは50代の終わりですが、その後はものすごく有名になります。科学者も一般に年を取ってから有名になる傾向があります。生物学者や物理学者は俳優と同じくらい有名になります。避けるべき誤りは数学者になることです。(笑)「20代で最高の仕事をしてやるんだ」と意気込んでいるかもしれませんが、誰も関心を持ってくれないのです。(笑)

(エレズ) n-gramについてはもっと暗い話もあります。これは1887年生まれの画家「マルク・シャガール」の曲線です。有名人に典型的な曲線に見えます。年を追うごとに有名になっていきますが、ドイツ語圏は例外です。まったく奇妙なことが起きています。見たことのないようなことです。非常に有名になった後、突如としてどん底まで下落します。1933年から1945年まで落ちていて、その後復帰します。お察しの通り、マルク・シャガールはナチスドイツ下のユダヤ人画家だったということです。このシグナルはあまりに強いので、誰か検閲していたのかと訝るまでもないでしょう。実際ごく基本的な信号処理でそのことを示せます。どうやるのかというと、ある期間における誰かの有名度の期待値は、大まかに言ってその前後における有名度の平均になります。それが予想される値です。その値を実際の観測値と比較します。その2つの比はいわば「弾圧指数」とでも言うべきものです。弾圧指数がごく小さいなら弾圧されている可能性が高く、逆に大きい場合にはプロパガンダに助けられているのかもしれません。

(ジャン) あらゆる人の弾圧指数の分布を見ることもできます。たとえばこれは英語で書かれた本から選んだ、弾圧の形跡のない5千人の弾圧指数です。中心にまとまったグラフになり、期待値と観察値がほぼ一致します。こちらはドイツ語での分布ですが、非常に異なっており、左に寄っています。本来よりも半分しか話題になっていません。しかも分布が横に広がっています。本来の十分の一しか取り上げられていない、ずっと左の方に来ている人がたくさんいます。一方でプロパガンダの恩恵を受けているらしい、ずっと右の方にいる人もいます。この図は本における検閲の存在を明らかに示しています。

(エレズ) この手法をカルチュロミクス(culturomics)と呼んでいます。ゲノミクスみたいなものです。ゲノミクスはゲノムの塩基配列を通して生物学を見るレンズですが、カルチュロミクスは同様に人間の文化を研究するための大規模データ分析の応用です。ゲノムのレンズの代わりにデジタル化された歴史記録のレンズを使うのです。カルチュロミクスの素晴らしいところは、誰でもできるということです。なぜかというと、Googleの3人、ジョン・オーワント、マット・グレイ、ウィル・ブロックマンが開発中のNgram Viewerを見て、「これは楽しい、みんな使えるようにすべきだ」と考えたからです。私たちの論文が出版される2週間前に彼らは一般の人も使えるNgram Viewerを作り上げました。だから皆さんも興味のある言葉を打ち込んで、そのn-gramを即座に見ることができます。そのn-gramが現れる様々な文献の例を見ることもできます。

(ジャン) 公開初日に百万回以上使われましたが、これは中でもbestなクエリです。みんなbestでありたい、向上したいと思っています。しかし18世紀には誰もそんなこと気にかけていなかったようです。彼らはbestであろうとはせず、beftであろうとしていたのです。もっともこれは単なる間違いです。みんな月並みでいいと思っていたわけではなく、かつては s が違った形で書かれていて f に見えたのです。Googleは以前そのことに気づいておらず、私たちは科学記事の中でそのことを報告しました。しかしこれはまた、使うのがいかに楽しいにせよ、グラフを解釈するときには十分注意を払い、科学的方法の基本に従う必要があることを思い起こさせてくれます。

(エレズ) みんなこれをあらゆる楽しいことに使っています。(「ウガー^n!」のグラフ —笑) 説明するまでもありませんね。スライドを出して黙っていましょうか。この人はフラストレーションの歴史に興味があるようです。フラストレーションにもいろいろ種類があります。つま先をぶつけた時はaが1つの“argh”です。星間バイパスの邪魔になるからと地球がヴォゴン星人に滅ぼされたときはaが8つの“aaaaaaaargh”です。この人はaが1〜8個の“argh”を調べていて、それでわかるのはよりフラトレーションの強い“argh”の方が使われる頻度が少ないということですが、80年代初期には例外が見られます。これは何かレーガンが関係していると考えられます。(笑)

(ジャン) このデータは様々な使い方ができますが、重要なのは歴史の記録がデジタル化されたということです。Googleは千5百万冊デジタル化しました、かつて出版された本の12%に相当します。人類の文化の大きな塊です。文化には違った形のものとして手稿や新聞があり、テキストではない芸術作品や絵画があります。これらすべてが世界中のコンピュータの中にあるところを考えてください。そうなったとき、私たちが過去、現在、未来や、文化について理解する方法は変わるでしょう。

どうもありがとうございました。

(拍手)

 

[これはTED公式日本語訳です。翻訳をレビューしていただいたYuki Okada氏に感謝します。]

home  rss  

オリジナル: What we learned from 5 million books