膨大なデータに価値を見出すビッグデータ活用術
ビッグデータの活用が官民ともに騒がれるようになりました。官では、解決できていない社会問題のため、民では、ビジネス効率化のためにビッグデータに救いの手を求めています。
情報は文字だけでなく、画像、動画、GPSなどありとあらゆる情報が対象です。
この巨大で多種類のデータ群をビッグデータと呼びます。
それが3Vです。3Vとはvolume(データ量)、velocity(データ速度)、variety(データ多様性)の頭文字をとったものです。
この3Vがビッグデータの条件になります。
また無意味なデータを分析対象に入れると結果がおかしくなるため、適切なデータを膨大に集める必要があります。
データは時間が経過するほど価値は下がるため、新しいデータを集めることが大切です。
リレーショナルデータベースに登録できるような数値や文字列などのデータを構造化データ、できない音声や動画などのデータを非構造化データと呼びます。
新しい法則を見つけるためには多様性に富んだデータ群の方がむいているので、この構造化データと非構造化データが混ざっているデータ群である必要があります。
■関連記事:RDBMSが社会のIT化を推進した!データベース管理システムを詳解
ということでリレーショナルデータベースは使えません。構造化データと非構造化データを保存するにはNoSQLという新しいデータベースの仕組みが適しています。
このNoSQLの中にはKey-Valueストアという構造のものがあります。
1対1でデータが紐づいているため簡単かつスピーディーにデータ取得ができますのでビッグデータには最適です。
NoSQLはSQLを理解していなくてもプログラミングを理解していれば扱えるので、そういった意味でも保存先にはNoSQLがおすすめです。
データを分析して、新しい法則を見つける技術をデータマイニングと言います。データマイニングには様々な手法が用いられますが、ここでは代表的な分析方法をお伝えします。
このクラスターに属するデータはほぼ同様のデータであると仮定できるため、例えばそれがユーザーデータであればクラスターごとにアプローチを変えてマーケティングができます。
例えば、チラシを見て来店したユーザーをYES、来店しなかったユーザーをNoとした場合に無作為にチラシを送るよりもYESのユーザーにだけ送った方が効率的なマーケティングができます。
このようにYESまたはNOで回答できるデータにはロジスティック回帰分析が向いています。
よく例として挙げられるのが、おむつとビールです。
あるスーパーマーケットではおむつを買う人はビールを一緒に購入している割合が非常に高かったため、おむつ売り場の横にビールを置くようにしたら売上が増加したという話です。
この例はアソシエーション分析を分かりやすく説明する作り話かもしれませんが、アソシエーション分析ではこのような事象の関連性を導き出すことができます。おむつとビールが同時購入される理由はわからなくても、その関連性(おむつとビールが同時に売れること)が分かるようになります。
このようにデータマイニングを用いてビッグデータを分析すれば、今までのデータでは見えてこなかった新しい気づきが見つかるかもしれません。民間企業ではすでにビッグデータ活用の動きが始まっていて、成功事例も出始めています。
発注を左右するポイントは気温や湿度、時間帯などが挙げられますが、とはいっても単純に気温が高いから冷たいものが売れる、気温が低いから温かいものが売れる、というほど消費者心理は単純ではありません。
また、ECサイトではまた別の要因が売上に影響を与えているでしょう。
データ分析によって消費者の購買行動が発見できると、それに沿った発注ができるようになるため、在庫が残りづらくなります。
雲の流れやスピード、気温、湿度などありとあらゆる天気に関するデータを分析すれば新しい法則が見つかりそうです。
病気による死因の上位を占めるガンは、放射線治療などで延命はできても完治させることは難しい病ですし、原因もまだ明らかにはなっていません。
ビッグデータ活用でもガンを完治させることは難しいかもしれませんが、ガンになりづらくする方法は見つけられるかもしれません。
ガン患者の食生活やストレス耐性、遺伝を分析することで新しい発見が見つかる可能性は高いです。
このようにビッグデータ活用で人間では到底見つけられなかった法則をビッグデータが導き出してくれるため、私たちの生活にとっては大きなプラスになります。
しかしそれだけでは導き出される答えに限界が来ていて、企業は確実性の高い新しい知見を得たがっています。
ビジネス環境が悪化の一途をたどる中、今までの構造化データ分析では導き出せなかった法則がビッグデータ分析によって明らかになるかもしれません。
- 膨大なデータが簡単に蓄積される時代になった
- ビッグデータの条件はvolume(データ量)、velocity(データ速度)、variety(データ多様性)の3V
- ビッグデータの保存はリレーショナルデータベースよりNoSQLの方がむいている
- ビッグデータの分析には、クラスター分析、ロジスティック回帰分析、アソシエーション分析が有名である
- ビッグデータはほぼすべての分野で活用が期待できる
- 既存のデータ分析では見つけられなかった法則がビッグデータ分析によって発見できるかもしれない
膨大なデータが蓄積される時代
Web2.0時代になり、情報の発信者が増えたことで膨大なデータがサーバーコンピュータに蓄積されるようになりました。情報は文字だけでなく、画像、動画、GPSなどありとあらゆる情報が対象です。
この巨大で多種類のデータ群をビッグデータと呼びます。
ビッグデータの条件:3V
ビッグデータはただ単に膨大なデータ群を総称して言うのではなく、該当するためには条件があります。それが3Vです。3Vとはvolume(データ量)、velocity(データ速度)、variety(データ多様性)の頭文字をとったものです。
この3Vがビッグデータの条件になります。
volume(データ量)
どんなデータでも良いわけではなく、分析に関係するデータでなければいけません。また無意味なデータを分析対象に入れると結果がおかしくなるため、適切なデータを膨大に集める必要があります。
velocity(データ速度)
データは生きている(リアルタイムの)ものが対象になります。時代にそぐわない昔のデータを分析対象にしても意味がありません。データは時間が経過するほど価値は下がるため、新しいデータを集めることが大切です。
varierty(データ多様性)
一般的に取得できるデータは構造化データと非構造化データという2種類のタイプがあります。リレーショナルデータベースに登録できるような数値や文字列などのデータを構造化データ、できない音声や動画などのデータを非構造化データと呼びます。
新しい法則を見つけるためには多様性に富んだデータ群の方がむいているので、この構造化データと非構造化データが混ざっているデータ群である必要があります。
■関連記事:RDBMSが社会のIT化を推進した!データベース管理システムを詳解
ビッグデータ処理はNoSQLが使いやすい
このような膨大で多様性に富んだデータ群の保存先はデータベースです。世の中に出回っているデータベースの80%はリレーショナルデータベースですが、先ほど紹介したようにビッグデータには、リレーショナルデータベースに登録できないような非構造化データが混ざっている必要があります。ということでリレーショナルデータベースは使えません。構造化データと非構造化データを保存するにはNoSQLという新しいデータベースの仕組みが適しています。
このNoSQLの中にはKey-Valueストアという構造のものがあります。
1対1でデータが紐づいているため簡単かつスピーディーにデータ取得ができますのでビッグデータには最適です。
NoSQLはSQLを理解していなくてもプログラミングを理解していれば扱えるので、そういった意味でも保存先にはNoSQLがおすすめです。
ビッグデータは活用してこそ価値がある:データマイニング
ビッグデータをただ保存しているだけでは宝の持ち腐れで、分析してこそ意味があります。データを分析して、新しい法則を見つける技術をデータマイニングと言います。データマイニングには様々な手法が用いられますが、ここでは代表的な分析方法をお伝えします。
クラスター分析
クラスターとは集団を意味します。様々な特徴を持ったデータの中から似たデータを集めてクラスターを作ります。このクラスターに属するデータはほぼ同様のデータであると仮定できるため、例えばそれがユーザーデータであればクラスターごとにアプローチを変えてマーケティングができます。
ロジスティック回帰分析
YESまたはNOのデータにむいている分析手法です。例えば、チラシを見て来店したユーザーをYES、来店しなかったユーザーをNoとした場合に無作為にチラシを送るよりもYESのユーザーにだけ送った方が効率的なマーケティングができます。
このようにYESまたはNOで回答できるデータにはロジスティック回帰分析が向いています。
アソシエーション分析
アソシエーション分析は、商品の関連性を導き出すことでマーケティングに活かす手法です。よく例として挙げられるのが、おむつとビールです。
あるスーパーマーケットではおむつを買う人はビールを一緒に購入している割合が非常に高かったため、おむつ売り場の横にビールを置くようにしたら売上が増加したという話です。
この例はアソシエーション分析を分かりやすく説明する作り話かもしれませんが、アソシエーション分析ではこのような事象の関連性を導き出すことができます。おむつとビールが同時購入される理由はわからなくても、その関連性(おむつとビールが同時に売れること)が分かるようになります。
このようにデータマイニングを用いてビッグデータを分析すれば、今までのデータでは見えてこなかった新しい気づきが見つかるかもしれません。民間企業ではすでにビッグデータ活用の動きが始まっていて、成功事例も出始めています。
ビッグデータが活かせる分野
ビッグデータはおそらくすべての分野で活躍してくれるはずですが、その中でも特に活躍してくれそうな事例を紹介しましょう。仕入の最適化
コンビニエンスストアやドラッグストアでは発注の予測が売上に大きな影響を与えます。発注を左右するポイントは気温や湿度、時間帯などが挙げられますが、とはいっても単純に気温が高いから冷たいものが売れる、気温が低いから温かいものが売れる、というほど消費者心理は単純ではありません。
また、ECサイトではまた別の要因が売上に影響を与えているでしょう。
データ分析によって消費者の購買行動が発見できると、それに沿った発注ができるようになるため、在庫が残りづらくなります。
天気予報の確率を上げる
気象予報士という職業があるほどなので、天気予報を当てるのはなかなか難しいのかなと感じますが、ビッグデータを活用すれば、天気予報を当てる確率を上げられるかもしれません。雲の流れやスピード、気温、湿度などありとあらゆる天気に関するデータを分析すれば新しい法則が見つかりそうです。
ガンにならないために
これだけ研究が進んでいるのに治らない病気があります。その代表がガンです。病気による死因の上位を占めるガンは、放射線治療などで延命はできても完治させることは難しい病ですし、原因もまだ明らかにはなっていません。
ビッグデータ活用でもガンを完治させることは難しいかもしれませんが、ガンになりづらくする方法は見つけられるかもしれません。
ガン患者の食生活やストレス耐性、遺伝を分析することで新しい発見が見つかる可能性は高いです。
このようにビッグデータ活用で人間では到底見つけられなかった法則をビッグデータが導き出してくれるため、私たちの生活にとっては大きなプラスになります。
ビッグデータが未来のビジネスを変えるかもしれない
今までもビジネスの現場では構造化データによる分析は行われてきました。しかしそれだけでは導き出される答えに限界が来ていて、企業は確実性の高い新しい知見を得たがっています。
ビジネス環境が悪化の一途をたどる中、今までの構造化データ分析では導き出せなかった法則がビッグデータ分析によって明らかになるかもしれません。