『数式を使わないデータマイニング入門――隠れた法則を発見する――』
岡嶋 裕史(著)
2006年
光文社
☆☆
光文社新書255。
「データマイニング」という言葉を見かけるたびに、従来の統計学と何が違うのだろうと気になっていた。著者によれば、用いられる個々の分析法そのものはほとんど同じらしい。何が違うかというと、発想が異なるというのだ。従来の統計学が、データ(あるいは、その収集)が非常に高価であった時代に、数少ないデータから結論を引き出す技術だったのに対して、データマイニングは、次から次へと流入し手に負えないほど蓄積してしまった溢れんばかりのデータの中から、分析者自身も想像していなかったような法則性を発見する技術だという。
もちろん、従来の統計ツールが魔法のツールでなかったのと同様、データマイニングも魔法のツールではない。統計学についての最低限の理解なしにまともな統計分析が出来ないのと同様、分析者も気づいていなかった法則性とやらをコンピュータが自動的に発見してくれるわけではない。そこで、データマイニングの原理を数式を使わずに解説する、というのが本書の趣旨なのだが…。
本書は、「数式を使わない」というコンセプトを採用した時点で、データマイニングの背後にある原理を説明することまで放棄してしまったのではないかと思う。確かに数式は使っていないが、数式を使わずに何かを説明しているわけでもない。一応、回帰分析、決定木、クラスタ分析、自己組織化マップ、連関規則、ニューラルネットに各1章ずつ割いているのだが、解説にも紹介にもなっていない(こういう分析法が用いられている、ということがわかっただけマシだが)。ここ数年、数式をあまり用いずに平易に統計学的発想を解説した本が随分増えてきたことを考えると、本書を好意的に評価することはとてもできない。本書を読んでも、データマイニングとは、大量のデータをコンピュータにぶちこんで、擬似相関でも何でもいいから相関関係を探すやり方、というような誤った(誤っていないのだろうか?)理解しかできないと思う。
ただし、最後の2章、「データマイニングと情報管理」「監視社会とデータマイニング」は多少面白かった。このテーマで1冊書くべきだったのだ(と思っていたら、『
セキュリティはなぜ破られるのか』(2006年 講談社)という本を書いてました)。
本文約195ページ。

0