極楽せきゅあブログ

ときどきセキュリティ

日本語データの掘り出し方

隠し方というネタで書いたからってワケじゃありませんが(笑)、探し方について。基本的に最近のデータって大量でなのであって、その大量のブツの中からこれわ、っていうモノを探し出す方法論ってどういうものがあるのかなあ?googleをはじめとする、いわゆる検索なサイトでは、単純な文字列検索ってだけじゃなくいろいろスコアリングなロジックが組み込まれていたりするらしいし、ベイズ風味も混ぜてあるらしいんだけど、そういうものってそもそもキーワードありきでさぁね。当たり前ですが。ただ、例えば犯罪的証拠とか、こいつ怪しいところねえのか、というスゲー漠然とした、しかもゲシュタポちっくな動機で「調査」するとき、どういう叩き方をするとホコリって出てくるものなのかなあ?