データウェアハウスとは。データマート、マイニングとの違いから製品まで
データウェアハウスは、業務で発生した基幹系の情報を時系列で大量に保管しておく「倉庫」のようなシステムです。
数年にわたるデータを蓄積しておくことで、現在のプロジェクトに役立つ情報を振り返ったり、経営方針を考える上での分析材料にしたりできるようになります。
この記事では、データウェアハウスの定義を示すとともに、間違いやすいデータマート、BIツールなどのキーワードとの違いを解説します。
また、主なデータウェアハウスについても掲載しています。
目次:
業務で発生した情報を時系列順に保管したデータベースのことで、さまざまな情報をまとめたソフトウェア、サーバーをイメージするのがもっとも分かりやすいでしょう。
現在進行中のデータを格納することが多いデータベース(DB)と違い、現在は使っていない情報も含めて大量に保管しているのがデータウェアハウスの特徴です。データベースは現在展開している業務を滞りなく進めるために、一定期間の情報のみを保管して、残りを削除していきます。そうしないと容量が膨大になってしまい、快適な処理速度を保つ妨げになってしまうからです。
しかし、データウェアハウスはデータの出入をひんぱんにおこなうわけではないので、処理速度を気にせず、膨大なデータをまさしく「倉庫」のように保管することができます。
歴代のプロジェクトを時系列で確認できる、過去の入出金履歴をすべて照合することができるなど、現在からデータをさかのぼって確認することができなければなりません。
分かりやすい例えを出すなら、「取引先/取り引き先/クライアント/顧客」というようなケースです。そのため、事前にデータウェアハウス用のIDを準備したり変換テーブルを用いるなどして、同一データの名称を統一する必要があります。
それぞれの違いをまとめました。
データマートは、データウェアハウスに保管されているデータから必要な情報だけを抜き出して作成したデータベースのことをいいます。 倉庫(データウェアハウス)から必要なものを移動させてきた「保管室」とイメージすると分かりやすいかもしれません。主に分析作業のために作られます。膨大な情報が保管されている倉庫であるデータウェアハウスと比べて、検索や集計がしやすいという特徴があります。
ちなみに小規模なオフィスの場合は、データマートがデータウェアハウスを兼ねるはたらきをします。そのために、より混同されやすいのかもしれません。
こうしてみると、データウェアハウスと似ているようにみえます。実際に、データウェアハウスをBIツールの一部としてみなすこともあります。
しかし、データウェアハウスはBIツールを行使するための保管場所であり、そのデータを使って企業戦略を構築するのがBIツール。それぞれの役割が違っているのです。
データウェアハウスは「倉庫」であり、定義にあるようにラベルが統一されて情報が整然と保管されています。
一方でデータマイニングは、マイニング(採掘)という言葉通り、膨大な情報の海から価値ある情報や特徴を探しだすこと、いわゆるビッグデータ解析のことを意味します。
また、BIツールは、大量の情報を企業戦略の材料として使いこなす「データウェアハウスを扱う道具」です。
データマイニングは、大量のデータはあるものの、倉庫として整理されてはいない「整理されていないデータウェアハウス」といえるでしょう。
このようにまとめると、データウェアハウスと混同されやすいワードは、それぞれがデータウェアハウスに関連していたり、似ている部分があったりします。導入の際は、それぞれの違いを企業レベルでしっかりと理解し、的確に運用する環境を整えることが重要になるかもしれません。
各システムの主な導入企業についても記載しています。
Snowflakeが提供しているのは、クラウド型データウェアハウスDWaaS(Data Warehousing as a Service:サービスとしてのデータウェアハウス)です。
既存のスキルやツールを使える完全SQL対応型データウェアハウスで、管理や運営、最適化も自動で処理されるようになっています。 Snowflakeのクラウド型データウェアハウスは、楽天やアドビをはじめとして、世界中で2,500社以上が導入しているといわれています。
・Snowflakeデータウェアハウス
・b→dash
JapanTaxi株式会社、株式会社電通デジタルなどがtroccoを導入しています。
・trocco
外部のBIツールとの連携も可能で、プッシュ通知やアプリ内メッセージによる接客の最適化などを得意としています。 株式会社ストライプインターナショナルの「メチャカリ」は、メタップスリンクスのプラットフォームを導入しています。
・Metaps Bridge
Amazonのデータウェアハウス「Amazon Redshift」は、既存のBIツールを利用してスピーディにデータ分析を実施することができます。SQL対応のため互換性に優れているという特長があります。 なお、導入にはAWSアカウントが必要になります。
国内企業ではANAや東急電鉄、ダイソーがRedshiftを導入しています。
・Amazon Redshift
株式会社アルペン、前田建設工業株式会社などが導入しています。
・高速機関
データウェアハウスの導入によって、何となく蓄積してきたデータを時系列で整理できるようになります。エンジニアが常駐していなくても使い勝手のよいシステムも開発・提供されているので、自社に併せた導入を検討してはいかがでしょうか。
この記事では、データウェアハウスの定義を示すとともに、間違いやすいデータマート、BIツールなどのキーワードとの違いを解説します。
また、主なデータウェアハウスについても掲載しています。
目次:
データウェアハウスとは:データベースとの違い
データウェアハウス(DWH)は英語で「データの倉庫」を意味します。業務で発生した情報を時系列順に保管したデータベースのことで、さまざまな情報をまとめたソフトウェア、サーバーをイメージするのがもっとも分かりやすいでしょう。
現在進行中のデータを格納することが多いデータベース(DB)と違い、現在は使っていない情報も含めて大量に保管しているのがデータウェアハウスの特徴です。データベースは現在展開している業務を滞りなく進めるために、一定期間の情報のみを保管して、残りを削除していきます。そうしないと容量が膨大になってしまい、快適な処理速度を保つ妨げになってしまうからです。
しかし、データウェアハウスはデータの出入をひんぱんにおこなうわけではないので、処理速度を気にせず、膨大なデータをまさしく「倉庫」のように保管することができます。
データウェアハウスの定義は4つ
次の4つの条件を満たすことで、サーバーやソフトウェアは、情報の倉庫であるデータウェアハウスと定義されます。DWHの定義1. データを時系列にストックしている
先に述べたように、データウェアハウスであるためには、過去のデータを時系列で保持している必要があります。歴代のプロジェクトを時系列で確認できる、過去の入出金履歴をすべて照合することができるなど、現在からデータをさかのぼって確認することができなければなりません。
DWHの定義2. データを消すことがない
データウェアハウスに蓄積されたデータは、原則的に上書きしたり削除したりすることはありません。 膨大なデータを蓄積して、比較分析をおこなったり業務改善のために役立てるのがデータウェアハウスの用途のひとつだからです。といっても、容量は無尽蔵ではないので、多くのデータウェアハウスは一定期間を設けて古いデータを消すこともあります。DWHの定義3. データがサブジェクトごとに保管されている
データウェアハウスは、基本的に内容別(サブジェクト別)に分類して情報を保管します。業務では、目的別に仕分けられた資料の中から必要なデータを検索することもあるかもしれませんが、データウェアハウスは内容に応じてデータのあるべき場所を仕分けています。DWHの定義4. データラベルが統合されている
データウェアハウスでは、部署や部門の枠を超えた情報を保管します。 日常業務では、A部署とB部署それぞれで同じ情報に表記揺れがある(異なる名称で呼ばれている)といったこともあるかもしれませんが、このままデータウェアハウスに保管してしまうと後々分析をする時などに不都合が生じてしまいます。分かりやすい例えを出すなら、「取引先/取り引き先/クライアント/顧客」というようなケースです。そのため、事前にデータウェアハウス用のIDを準備したり変換テーブルを用いるなどして、同一データの名称を統一する必要があります。
データウェアハウスと混同しやすいシステムまとめ
データウェアハウスは、データマート、BIツール、データマイニングなどとの違いが分かりにくく、混同されるケースが散見されます。それぞれの違いをまとめました。
データウェアハウスとデータマートの違い
データウェアハウスと混同されやすいものに、データマートがあります。データマートは、データウェアハウスに保管されているデータから必要な情報だけを抜き出して作成したデータベースのことをいいます。 倉庫(データウェアハウス)から必要なものを移動させてきた「保管室」とイメージすると分かりやすいかもしれません。主に分析作業のために作られます。膨大な情報が保管されている倉庫であるデータウェアハウスと比べて、検索や集計がしやすいという特徴があります。
ちなみに小規模なオフィスの場合は、データマートがデータウェアハウスを兼ねるはたらきをします。そのために、より混同されやすいのかもしれません。
データウェアハウスとBIツールの違い
データウェアハウスと混同されやすいツールには、BIツールもあります。BI(ビジネスインテリジェンス)ツールは、経営戦略のための方針を決定するためにデータを収集・蓄積・分析・報告するツールのことです。 企業の保管しているデータには、- 生産管理システム
- 販売管理システム
- 在庫管理システム
- 人事システム
- 会計システム
- 顧客管理システム
こうしてみると、データウェアハウスと似ているようにみえます。実際に、データウェアハウスをBIツールの一部としてみなすこともあります。
しかし、データウェアハウスはBIツールを行使するための保管場所であり、そのデータを使って企業戦略を構築するのがBIツール。それぞれの役割が違っているのです。
データウェアハウスとデータマイニング(ビッグデータ解析)の違い
両者の違いを問う問題は、情報処理技術者試験でもしばしば出題されています。データウェアハウスは「倉庫」であり、定義にあるようにラベルが統一されて情報が整然と保管されています。
一方でデータマイニングは、マイニング(採掘)という言葉通り、膨大な情報の海から価値ある情報や特徴を探しだすこと、いわゆるビッグデータ解析のことを意味します。
データウェアハウスは情報が整理された保管庫
データマートはその時必要な情報を抜き出して集めた、いわば「小さなデータウェアハウス」です。また、BIツールは、大量の情報を企業戦略の材料として使いこなす「データウェアハウスを扱う道具」です。
データマイニングは、大量のデータはあるものの、倉庫として整理されてはいない「整理されていないデータウェアハウス」といえるでしょう。
このようにまとめると、データウェアハウスと混同されやすいワードは、それぞれがデータウェアハウスに関連していたり、似ている部分があったりします。導入の際は、それぞれの違いを企業レベルでしっかりと理解し、的確に運用する環境を整えることが重要になるかもしれません。
導入事例あり!データウェアハウス・システム
ここで、主なデータウェアハウスシステムをいくつかご紹介します。各システムの主な導入企業についても記載しています。
Snowflake
米国のSnowflake(スノーフレイク)は、2012年に約10億ドルの資本で設立されたベンチャー企業です。資金調達後に企業価値は39億ドルにまで達し、ユニコーン企業としてもその名が知られるようになりました。ちなみに、ユニコーン企業とは、未上場でありながら評価額が10億ドルに達したテック系スタートアップ企業のことです。Snowflakeが提供しているのは、クラウド型データウェアハウスDWaaS(Data Warehousing as a Service:サービスとしてのデータウェアハウス)です。
既存のスキルやツールを使える完全SQL対応型データウェアハウスで、管理や運営、最適化も自動で処理されるようになっています。 Snowflakeのクラウド型データウェアハウスは、楽天やアドビをはじめとして、世界中で2,500社以上が導入しているといわれています。
・Snowflakeデータウェアハウス
b→dash
株式会社フロムスクラッチが開発・提供しているマーケティングプラットフォームb→dash(ビー・ダッシュ)は国内初の機能として、「b→dash Data Palete」を掲げています。これは、データウェアハウスからマーケターが自由にデータマートを作成することができる機能です。これ以前はシステムについて知識のあるエンジニアでないとデータウェアハウスからデータマートを作成することはできませんでしたが、b→dashは、これをGUI(Graphic User Interface:操作の対象が絵で示されるユーザーインターフェース)上で作成できるようにしました。 セブンネットショッピングやキリン、ABC Cooking Studioなどがb→dashを導入しています。・b→dash
trocco
trocco(トロッコ)は、分析基盤向けデータ統合自動化サービスを提供している企業です。「業界一の転送スピード」をキャッチコピーとして、クラウドDWHを活用したデータ統合のサポートを実施。さまざまなクラウドストレージや通信プロトコロルとシームレスに連携することで、導入による業務効率化を謳っています。JapanTaxi株式会社、株式会社電通デジタルなどがtroccoを導入しています。
・trocco
Metaps Bridge
Metaps Bridge(メタップス・ブリッジ)は、株式会社メタップスリンクスが提供する、モバイルアプリのデータ統合、可視化、リアルタイムの活用を一気通貫で実施することを特長としデータプラットフォームです。外部のBIツールとの連携も可能で、プッシュ通知やアプリ内メッセージによる接客の最適化などを得意としています。 株式会社ストライプインターナショナルの「メチャカリ」は、メタップスリンクスのプラットフォームを導入しています。
・Metaps Bridge
Amazon Redshift
Amazonの提供するクラウドコンピューティングサービスである、AWS(Amazon Web Service)にもクラウド型のデータウェアハウスがあります。Amazonのデータウェアハウス「Amazon Redshift」は、既存のBIツールを利用してスピーディにデータ分析を実施することができます。SQL対応のため互換性に優れているという特長があります。 なお、導入にはAWSアカウントが必要になります。
国内企業ではANAや東急電鉄、ダイソーがRedshiftを導入しています。
・Amazon Redshift
高速機関
高速機関は、膨大なデータの高度活用を促進するインメモリーSQLエンジンと特長としています。 大量データのオンライン解析、バッチ処理によって、「速い」と「軽い(省リソース)」を実現しています。株式会社アルペン、前田建設工業株式会社などが導入しています。
・高速機関
まとめ
デジタルでおこなう業務で発生する情報は、紙の書類をやりとしていた時代と比較すると可視化されにくく、年単位でどれほどのデータが蓄積されるのかをイメージするのは難しいかもしれません。無計画に保管していると、分析したいと思った時にうまく活用できない、漏洩リスクにさらされるといった混乱を招きかねないのも心配です。データウェアハウスの導入によって、何となく蓄積してきたデータを時系列で整理できるようになります。エンジニアが常駐していなくても使い勝手のよいシステムも開発・提供されているので、自社に併せた導入を検討してはいかがでしょうか。