Google Nグラムという、文献内容を分析するツールを開発した方の著書です。
文献内容をすべてデータ化するというチャレンジングな試みもさることながら、その分析結果も面白い。
本の内容というのは、文化、政治、当時の流行などさまざまなものを反映するため、仮説次第で様々な分析を得ることができる。
例えば、文法である。不規則動詞、規則動詞というのは日本人にも悩みどころだが、英語を母語とする人たちにもそうらしい。もともと、インド・ヨーロッパ祖語で不規則動詞が使われていたらしい。それが、ドイツ祖語と交わることで、より簡便なed活用に置き換わっていったそうだ。その置き換わるスピードをみると、文献に登場する回数が低ければ低いほど、不規則動詞から規則動詞に変化するスピードが速い。いわば、「よく使われる動詞ほど生き残る」。思えば、不規則動詞は、take, run, singなど確かによく使う動詞である。しかも、不規則動詞の半減期は使用頻度の平方根に比例するという規則性まで示されている。
他にも、人名の出現頻度から「名声」を定量化しようとしたり、ある語句の使用頻度を分析することで、検閲対象となっているかどうかを予測してみたり、様々な試みが面白い。
これは、ビッグデータ解析のはしりと言っていいだろう。
人類がオンライン上に残す情報の総量は二年ごとに倍増しているらしい。本にかぎらず、生体情報や文字、動きなど多くのものが分析対象となる、その様をよく示す本である。