ビッグデータとは文字通り巨大なデータの集まり
よくコマーシャルでビッグデータという言葉を耳にするようになりましたが、サーバーなど設備投資を促すために、IT業界があおっている面もあります。ビッグデータの目的は社内に蓄積された膨大なデータを活用し、販促や経営戦略にいかすこと。以前からBI(ビジネスインテリジェンス)と呼ばれていましたがビッグデータとはどこがちがうのでしょうか。鉱山(データの山)からお宝(法則)を見つける
鉱山(データの山)からお宝(法則)を見つける
システムは基本的に最新のデータを扱い過去のデータを保存しませんでしたが、データウェアハウスではデータを削除や更新せず、時系列でひたすら貯めていきます。
貯めたデータの塊が宝の山で、この山から企業に役立つ法則を発見していきます。英語ではデータマイニングと呼ばれ、マイニングとは採掘のこと。つまり鉱山(データの山)からお宝(法則)を見つけるという意味です。
紙オムツを買う客は一緒にビールを買うことが多い
紙オムツを買う客は一緒にビールを買うことが多い
アメリカのスーパーで販売データをいろいろ分析をしていたところ、紙おむつとビールが一緒に買われることが多いことわかりました。売場を観察をすると、お父さんがカートを押して紙おむつ売場に来ます。奥さんに買ってくるように言われたようで紙おむつをカートにいれます。紙おむつを買った後、自分で飲むためにビール売り場にまわりビールを買っていました。
さっそく売場レイアウトを変更し、紙おむつの横にビールを並べるようにしたら、たちまちビールの売上が伸びたという話。どうも都市伝説のようなんですが、データマイニングがよくわかる事例なので、いろんなところで使われています。
ほかにも月曜日に少年ジャンプを買う30代の男性は、少年ジャンプと一緒に缶コーヒーを買うことが多いなど、単純な売上集計ではわからなかった品目ごとの関連をみつけます。
多次元分析で扇風機を誰がどんな方法で売ったか明らかに
多次元分析で扇風機を誰がどんな方法で売ったか明らかに
エクセルにはピボットテーブルがあり、項目を入れ替えてクロス集計することでいろいろなシミュレーションができますが、OLAPではもっと高度な分析ができます。
たとえばドリルダウンができます。支店別月別の売上表をみてみると京都支店の7月売上が他の支店に比べ20%ほど多いのをみつけました。京都支店の7月売上をダブルクリックすると商品別売上がでてきます。
商品別売上をみていくと特定の扇風機が売れていました。つぎは扇風機売上をダブルクリックすると、担当者別売上がでてきます。ある担当者の売上が突出しているのをみつけます。担当者に連絡してみるとPOPを実験的に替えて販売したところ、よく扇風機が売れたという返事。このPOPを全支店に導入することにしました。これがドリルダウンの事例です。
データウェアハウスの前提は精度が高いデータが収集、保存されていること。たとえば6月末に商品が売れましたが、入金が7月になる場合、ある支店では6月売上に計上し、別の支店では7月売上に計上していれば精度が高いとはいえません。
ではビッグデータでなにが変わったのでしょうか。