「夫子憮然曰、鳥獣不可與同羣。吾非斯人之徒與、而誰與。
「論語」微子、第十八、六

2013/12/26

ワインMLをデータマイニングする

銀座は高級ブランドの買い物袋を持った人々に溢れ、高級ワインが飛ぶように売れています、 というニュースを見ている時、アイデアが浮かんだ。

私のメイルボックスの中には、あちこちのワイン専門店のメイリングリストの類が数年分は溜っている。 そこから値段を抜き出して、時系列のグラフにしてみたらどうだろう。 まず全メイルのアーカイヴを mbox 形式に変換して 1 ファイルにする。 そのファイルを一行ずつ読んで、ワイン屋からの宣伝と判断される部分から、 日付と値段を正規表現で抜き出すスクリプトを書けばよい。

セット価格もあるかも知れない、とか、 ワインでないものの値段も入るかも知れない、とか、値段の情報がリンク先にある場合もある、とか、 「X 円を Y 円に割引」のような書かれ方もある、とか、 細かいことを言い出せば切りがないが、 そのメイルの中に直接に書かれている金額から大まかな傾向は分かるだろう。

と言うわけで、python でスクリプトを書き、できたデータを R に渡して集計描画したのが、以下のグラフ。 一つ目のグラフは全データだが、今年飛び抜けて高い金額が二つある(25万円以上)。 これはワインではないかも知れないと思い、生データを見たら、 一つはワインセラーの値段だったが、もう一つは本当にワインだった(ちなみに一本の値段)。 もし、これを「外れ値」と判断するなら、ほとんどのデータが十万円以下におさまるので、 十万円以下だけに制限したものが二つ目のグラフ。

こんな荒っぽいデータからも明らかに、ワイン屋がターゲットにしている値段は上がっている。 2011 年から安定して高価格層が現れているが、 今年 2013 年から新たなステージに入り、年末にかけてさらに高騰しているようだ。 ここまでのデータはお遊びとしてお見せしたが、この先は私だけのための研究なので秘密。