IDA Session Records

井田 昌之の日々の記録。自己紹介等。

データを読む力

統計データを何に使うのか?我々にとっては、さまざまな小さな気づきをならされてしまってデコボコがなくなってしまった統計の中で何を読むのか、それが課題である。統計学の理論を駆使して、多量のデータの中にある全体的な傾向を見つけ出す、それも重要な働きである。しかし、全体的な傾向を知るためというのなら、「個客」の息遣いを見つけ出すことはできない。その人の生きている環境から出てくる背景をえぐりだすことはできない。読みすぎ、考えすぎにも注意をしなければならないが、少なくとも、単純なグラフになったときに、「なぜ」そういう単純な、そして自分の常識とは異なる、シェイプになるのか?その疑問を持つことは重要だと思っている。

ある文具サイトのアクセスログ。時間帯別のデータにまとめた。このデータは、ほとんどが日中のアクセスになる。夜のアクセスは著しく少ない。日曜のアクセスはほとんどない。そこで何をいうか。「したがって、これは法人ユーザが利用している」。と、結論するのは浅すぎる場合がある。そう、このデータはベトナムのサイトのデータなのだ。それは解析者も事前によく知っている。法人ユーザだ、と結論する解析者についてデータがあがってくる。この人は、おそらく日本国内の多数のこうしたパタンを見ていて、その職業的な反応で判断を出した、ベトナムのインターネット普及の状況を知らないあるいはそのことには興味をもたない、さんすうは知っているから単純にそのまま素直に棒グラフでかかれていることをそのまま読んだ、どうだ、それで間違いないだろうと。おそらくこの三つのどれかではないか。1番目のタイプであれば、これを機会に前提条件を吟味・確認することから今後スタートするようになってほしい。2番目のタイプであれば、国が違えば事情が違うことを理解してほしい。3番目のタイプであれば、あなたは今後、使えない統計学を振り回すようにならないように願う。

データマイニングの出発点である。大規模なデータの集まりを統計処理する、とげとげをとる、ということの他方に、ある程度の少数のデータからなる統計「的」情報から個別のデータを拾いだそうと努力する、そういう世界もある。たとえば、アルカイダの連絡Eメールなのかどうか、あるいは迷惑メールなのかどうか、あるいは、どうしたらどういう人がうちの商品を買ってくれるか、そういう判断のネタを拾い出す努力、これは統計学ではないが。

コメントする

このエントリをはてなブックマークに登録 このエントリをBuzzurlにブックマーク Yahoo!ブックマークに登録 このエントリをlivedoorクリップに登録 Deliciousにブックマーク このエントリをnewsing it!へ追加 twitterに投稿する

Written by masa-ida

10月 11th, 2009 at 8:07 am

Posted in グローバルIT

Basso Continuo

バロック音楽の特徴の一つにBasso Continuo通奏低音というのがある。伴奏楽器が間断無く演奏し続けることからきているという。テレビでやっていた。コードだけ、たとえば、6とか46とか246とかが指定されていて、チェンバロなどはその小節を自由に弾いていいのだという。知らなかったなぁ。

ビバルディの四季。この中で冬は、特にボストンでは何回も何回も聞いた。特に第1楽章。これは最高に胸を打つ。いつきいても。よーわかる。自分の実感とイメージがわく。しかし、秋の第2楽章のゆったりとした感じ。チェンバロのラインのイメージはわからなかった。よっぱらってゆったりとくつろいでいるような感じ。楽譜にはBasso Continuoとして一つの音だけがタイでずっとつらなってる。なるほどね。そういうタイプのやすらぎの時間は秋には自分にはなかったなぁ。

コメントする

このエントリをはてなブックマークに登録 このエントリをBuzzurlにブックマーク Yahoo!ブックマークに登録 このエントリをlivedoorクリップに登録 Deliciousにブックマーク このエントリをnewsing it!へ追加 twitterに投稿する

Written by masa-ida

10月 9th, 2009 at 8:42 am

Posted in 家族生活