データプレパレーションとは?
まずは、データプレパレーションの基本的な知識として、その概要や「ETL」との違いを解説していきます。
データプレパレーションの意味・概要
データプレパレーション(Data Preparation)とは、データ分析の事前準備に関する用語で、主に2つの意味合いで用いられています。
(2)データ活用・分析のための準備を迅速化・効率化する手法
なお、この記事では「(2)データ活用・分析のための準備を迅速化・効率化する手法」をデータプレパレーションと定義します。
データ分析のために収集した生データ(未加工のデータ)には、表記ゆれや欠損値、フォーマットのズレなどが含まれているケースが少なくありません。
そのため、集めたデータを分析・活用するためには、下準備として以下のような処理が必要になります。
・データフォーマットの統一
・データクレンジング(欠損値や外れ値の補正、表記の統一など)
・データの結合
これらの工程を迅速化・自動化して、データ活用のスピードや分析の質を高める方法として、データプレパレーションに注目する企業が増えつつあります。
ETLとの違いは?
データプレパレーションとしばしば混同される類似用語に、「ETL」があります。
ETLは、「Extract(抽出・収集)」「Transform(変換・加工)」「Load(書き出し・格納)」の頭文字を取った用語で、「データ抽出・変換・書き出し」という一連のプロセス、およびそのプロセスを効率化する手法を指します。
データプレパレーションとETLは近しい意味合いを持ちますが、以下の点で異なります。
データプレパレーション | ETL | |
---|---|---|
対象者 | ビジネス部門の担当者 | IT部門の担当者 |
専門知識の要否 | 専門知識不要で直感的な操作が可能 | プログラミングなどの専門知識が必要 |
データソースの構造 | 構造化データおよび非構造化データ | 構造化データ |
ETLがシステム開発者などのIT部門担当者を想定した手法であるのに対し、データプレパレーションはビジネス部門の担当者が主な対象となります。
また、ETLはプログラミングなどの専門知識を必要としますが、データプレパレーションはノーコードで操作可能なものも多く、専門知識は不要です。
さらに、ETLとデータプレパレーションでは、扱えるデータソースの構造にも違いがあります。
ETLが構造化データを扱うことを得意としている一方、データプレパレーションは構造化データはもちろん、非構造化データも扱うことができるため、より多様なデータソースに対応することが可能です。
データプレパレーションが必要とされる理由・背景
先述の通り、近年はデータプレパレーションに注目する企業が増えつつあります。
次は、データプレパレーションが必要とされる理由や背景について見ていきましょう。
・ビジネス部門におけるデータ分析機会が増えている
・扱うデータ量が増えている
・扱うデータの種類が増えている
データ準備にかかる人的コストが大きい
データプレパレーションが必要とされる理由のひとつに、データ活用・分析における作業のなかでも、データ準備にかかる人的コストが大きいという点を挙げることができます。
世界的な経済誌「Forbes」に掲載された調査では、データサイエンティストはデータの収集や整理、データクレンジングといったデータ活用の準備段階に約80%の時間を費やしていることが報告されています。
企業がデータを迅速かつ効率的に活用していく上で、データプレパレーションの必要性は非常に高いと言えるでしょう。
(参考:Cleaning Big Data: Most Time-Consuming, Least Enjoyable Data Science Task, Survey Says)
ビジネス部門におけるデータ分析機会が増えている
近年、BIツールの普及によりビジネス部門の担当者が自らデータ分析を行う機会が増えつつあります。
変化の激しいビジネス環境において、業務や部門を超えた広い視点からデータを集めることによって、ビジネスの動向や課題を捉える必要性が高まっています。
しかし、データ分析を行うための準備に多くの労力と時間を要するため、スピード感のあるデータ活用が妨げられてしまうケースは少なくありません。
こうした課題を解決するため、ビジネス部門の担当者が自ら、速やかにデータ準備を行えるデータプレパレーションの必要性が高まっているのです。
企業が扱うデータ量の増加
データプレパレーションが注目を集める理由として、ビッグデータ化が急速に進んでいるという背景もあります。
IoTデバイスやSNS、クラウドサービスなどが普及したことで、企業が収集・蓄積することができるデータ量は膨大になりました。
そうしたなか、Excel(エクセル)などの表計算ツールを使った集計や加工、目視は人的ミスのリスクや負担が大きく、分析のための準備が追いつかないケースが増えてきているのです。
データの種類が多様化
データ量のみならず、データの種類が多様になっているという点も見逃せません。
SNSから収集したJSONデータや、インターネット上で公開されているオープンデータ、IoTデバイスなどから収集されるマシンデータなど、企業が扱うデータの種類は多様化しています。
そして、これらのデータは半構造化データや非構造化データであることも少なくないため、データ分析の障壁となってしまうケースが多々あります。
形式が異なるデータを効率的に集約・加工し、効果的な分析を行うためにも、データプレパレーションが必要とされています。
データプレパレーションで実現できること
次に、データプレパレーションによって実現可能な3つのことをご紹介します。
・質の高いデータ分析が可能になる
・企業全体のDX・データ活用が促進される
それぞれ詳しく見ていきましょう。
誰でもデータ分析を行える
データプレパレーションにより、特定の人材・部署に限定されることなく誰でもデータ分析を行える環境を構築可能です。
従来、専門知識を有するシステム開発者や、データサイエンティスト、データアナリストなどにデータ分析が委ねられることが一般的でした。
しかし、データプレパレーションによって専門知識を持たないビジネス部門担当者も簡単にデータ分析を行えるようになります。
質の高いデータ分析が可能になる
質の高いデータ分析を行うためには、現場で収集される解像度・鮮度が高いスモール&ワイドデータの活用が重要です。
しかし、現場で収集されるデータには、そのままの利用が難しい非構造化データも多く含まれます。
構造化・非構造化を問わずあらゆるデータを活用できる状態にするデータプレパレーションによって、社内データのサイロ化を防ぎつつ、より質の高いデータ分析を実現できるでしょう。
全社的なDX・データ活用が促進される
誰でも簡単にデータ分析を行うことができ、形式が異なるさまざまなデータを扱えるようになることで、全社的なデータ活用およびDXを推進する基盤が整います。
また、データプレパレーションによって、データ品質の問題点や属人化している業務の発見といった、データマネジメントへの気づきを得ることができます。
データマネジメントにおける課題の認識と改善を繰り返すことで、データ活用やDXを大きく推進させることができるでしょう。
データプレパレーションの活用シーン
次に、データプレパレーションの具体的な活用シーンとして以下の3つをご紹介します。
・製造現場でのIoT設備データ活用
・顧客管理・CX向上
経営と現場がデータでつながる
1つめは、経営と現場をつなぐデータプレパレーションの活用例です。
現場で収集されたリアルなデータは、管理層や経営層へと引き上げられる過程でサマライズされ、情報の解像度・鮮度が低くなってしまうケースが少なくありません。
そのような場合、本来であれば経営と現場をつなぐデータが「線」ではなく「点」となってしまい、「経営における指標」と「現場がコントロールするKPI」の関係性・連動性が見えにくくなってしまいます。
一方、データプレパレーションを用いることで、解像度・鮮度が高い中間データで経営と現場がつながります。
「経営における指標」と「現場がコントロールするKPI」の関係性・連動性が明確になり、より精度の高い意思決定にもつなげることができるでしょう。
製造現場でのIoT設備データ活用
2つめは、製造現場でのIoT設備データの活用です。
製造現場のIoT設備から収集されるセンサーログなどの非構造化データは、そのままでは活用が困難です。
データプレパレーションによってリアルタイムにデータを加工することで、現場の状況を即座に分析・把握することができ、迅速かつ精度の高いオペレーションが可能になります。
たとえば、光センサーを使って生産個数・サイクルタイムの分析を行いたい場合、光センサーの輝度が落ち込むタイミングを生産個数と定義してリアルタイムにデータを加工したり、その間隔をサイクルタイムと定義して測定することもできます。
顧客理解・CX向上
3つめが、顧客理解やCX向上につなげるデータプレパレーション活用例です。
顧客IDやメールアドレスなどの顧客情報を軸としたデータ統合・フィルタリングを行うことで、顧客行動の傾向を把握したり、細分化したセグメント設定やターゲット抽出によってCXの質を向上させることが可能です。
データ収集から可視化まで一気通貫で実現する「Dataring」
ここまでは、データプレパレーションの意味や必要性、実現できることについて解説してきました。
とくに、社内に散在するデータを集めて全社的なデータ活用を推進したいと考える企業におすすめしたいのが、ウイングアーク1stが提供する「Dataring(データリング)」です。
「Dataring」は、データ収集から分析まで一気通貫で実現可能なデータ活用ソリューションです。
次は、「Dataring」の特徴として以下の3点をご紹介します。
・管理・運用のしやすさ
・スピーディーな導入が可能
データ活用の自由度
「Dataring」の分析ダッシュボードやレポートのUIは、柔軟にカスタマイズすることが可能です。また、社内に散在するデータを収集することができます。
そのため、全社的なデータ戦略の立案やデータマネジメント基盤としての利用など、さまざまな用途で活用いただけます。
管理・運用のしやすさ
管理・運用のしやすさも、「Dataring」の特徴と言えます。
簡単な初期設定でExcel・部⾨DBなどの各種データを取り込むことが可能で、業務フローを変えることなくデータ収集を自動化することができます。
また、収集データの証跡管理やライフサイクル管理を行えるほか、更新データのエラーチェック機能や進捗管理機能などが搭載されているので、運用の負担軽減・効率化を図れます。
スピーディーな導入が可能
「Dataring」の特徴として、スピーディーに導入可能な点も挙げることができます。
データを収集・蓄積する仕組みをフレームワークとして提供することで、構築にかかる工数や時間を削減し、スピーディーな導入を実現します。
まとめ
今回は、データプレパレーションに焦点を当て、意味や必要性などをご紹介しました。
データ分析を効率的かつ効果的に行うためにも、データプレパレーションは非常に重要です。
そして、データプレパレーションによって全社的なデータ活用が促進され、より精度の高い意思決定が可能になるでしょう。
今回ご紹介した「Dataring」は、データ収集から加工、分析・可視化までを一気通貫で実現可能です。
データ分析・活用に課題を感じている方は、お気軽にお問い合わせください。