ビッグデータの山からお宝発見 [企業のIT活用] All About

ビッグデータとは文字通り巨大なデータの集まり

よくコマーシャルでビッグデータという言葉を耳にするようになりましたが、サーバーなど設備投資を促すために、IT業界があおっている面もあります。ビッグデータの目的は社内に蓄積された膨大なデータを活用し、販促や経営戦略にいかすこと。以前からBI（ビジネスインテリジェンス）と呼ばれていましたがビッグデータとはどこがちがうのでしょうか。

鉱山（データの山）からお宝（法則）を見つける

1990年代にデータウェアハウスが登場します。データウェアハウスとは文字どおりデータの倉庫のこと。

システムは基本的に最新のデータを扱い過去のデータを保存しませんでしたが、データウェアハウスではデータを削除や更新せず、時系列でひたすら貯めていきます。

貯めたデータの塊が宝の山で、この山から企業に役立つ法則を発見していきます。英語ではデータマイニングと呼ばれ、マイニングとは採掘のこと。つまり鉱山（データの山）からお宝（法則）を見つけるという意味です。

紙オムツを買う客は一緒にビールを買うことが多い

データマイニングの事例としてよく登場するのが「紙オムツを買う客は一緒にビールを買うことが多い」という事例。

アメリカのスーパーで販売データをいろいろ分析をしていたところ、紙おむつとビールが一緒に買われることが多いことわかりました。売場を観察をすると、お父さんがカートを押して紙おむつ売場に来ます。奥さんに買ってくるように言われたようで紙おむつをカートにいれます。紙おむつを買った後、自分で飲むためにビール売り場にまわりビールを買っていました。

さっそく売場レイアウトを変更し、紙おむつの横にビールを並べるようにしたら、たちまちビールの売上が伸びたという話。どうも都市伝説のようなんですが、データマイニングがよくわかる事例なので、いろんなところで使われています。

ほかにも月曜日に少年ジャンプを買う30代の男性は、少年ジャンプと一緒に缶コーヒーを買うことが多いなど、単純な売上集計ではわからなかった品目ごとの関連をみつけます。

多次元分析で扇風機を誰がどんな方法で売ったか明らかに

多次元分析と聞くと難しそうですが、支店別売上という表（2次元）をずっと時系列でためると3次元、つまり多次元になります。この多次元のデータウェアハウスを分析するツールにOLAP（オーラップ）があり、いろいろな分析ができます。

エクセルにはピボットテーブルがあり、項目を入れ替えてクロス集計することでいろいろなシミュレーションができますが、OLAPではもっと高度な分析ができます。

たとえばドリルダウンができます。支店別月別の売上表をみてみると京都支店の7月売上が他の支店に比べ20％ほど多いのをみつけました。京都支店の7月売上をダブルクリックすると商品別売上がでてきます。

商品別売上をみていくと特定の扇風機が売れていました。つぎは扇風機売上をダブルクリックすると、担当者別売上がでてきます。ある担当者の売上が突出しているのをみつけます。担当者に連絡してみるとPOPを実験的に替えて販売したところ、よく扇風機が売れたという返事。このPOPを全支店に導入することにしました。これがドリルダウンの事例です。

データウェアハウスの前提は精度が高いデータが収集、保存されていること。たとえば6月末に商品が売れましたが、入金が7月になる場合、ある支店では6月売上に計上し、別の支店では7月売上に計上していれば精度が高いとはいえません。

ではビッグデータでなにが変わったのでしょうか。