データクレンジングとは?
データクレンジングの意味と方法を徹底解説
公開:2021年8月05日(木)| データ分析
マーケティングにおけるデータ分析の重要性は浸透してきました。しかし、データを分析して施策に落とし込んでいく方法には関心がもたれるものの、その前段階であるデータ整理の重要性が理解されていないケースも多いです。
もし、データに欠損や重複があれば、適切な分析はできません。その分析結果をもとに意思決定を行おうとすると、当然のことながら本来の状況に合わない判断となってしまうでしょう。そうなれば、データ分析の労力も無駄になってしまいます。このような事態を避けるために必要なのが、データを最適化する方法である「データクレンジング」です。
データクレンジングとは?
データをマーケティングに活用する工程は、「データを整理・統合する」、「データを分析する」、「分析結果をマーケティング施策に反映させる」に大別されます。このうち、データ分析や、分析結果の施策への反映に注意がいきがちですが、それ以前に重要なことがあります。必要なデータが十分な量揃っているか、そしてそのデータは不備のない正しいデータであるかをチェックすることです。
データクレンジングとは、データの欠損や重複、ノイズ、表記の揺れ、粒度の違いなどを特定し、それらを分析や業務に適したデータに修正していく作業です。
不備があるデータの一例:
- データの欠損:アンケートで収集したデータで未記入項目がある
- データの重複:同一の顧客が何度も登録されている
- データのノイズ:目的とは関係ない不要なデータのこと
- 表記の揺れ:会社名に“「(株)」”があるデータとないデータがある
- データの粒度:月毎と日毎など単位が異なるデータが混在している
データクリーニングとの違いとは?用語を正確に把握する
データクレンジングにはいくつか関連用語があります。
例えば、データクレンジングと表現が似ている用語の「データクリーニング」。実は、言い方が違うだけで両者の意味は同じです。ほかにも、データクレンジングを「データスクラビング」と呼ぶこともあります。
また、データクレンジングと一緒に理解しておくとよい用語に「名寄せ」があります。これは、複数のデータベースで住所や氏名などが重複している場合に、それらを整理してひとつのデータベースに統合する作業のことです。データクレンジングと併用することが多いので覚えておきましょう。
データクレンジングの重要性
データクレンジングは、実施することで以下のようなことが実現できるため、とても重要な作業です。
分析精度が向上する
データに欠損や重複があると、分析の精度が低くなります。まず最初にデータクレンジングを実施するべきなのは顧客データベースです。正式名称と通称が混在していたり、オフィス移転や町名地番変更の際の古い情報が残っていたり、データ入力者によって情報の粒度が違ったりしやすいからです。顧客の現状を示すデータに不備があれば、そこから導き出すマーケティング施策にブレがでてしまうため、データクレンジングは必須の作業だといえます。
業務効率化になる
分析精度と関連しますが、不備のあるデータで作業をすると、後になって分析のやり直しが発生する可能性があります。その場合には相応の対処コストも発生してしまいます。
データクレンジングでは、不備を修正するだけでなく、通常はデータの整理・統合もセットで実施します。定期的にデータベースを整備しておけば、必要な情報が検索しやすくなり、業務効率化につながります。
データ管理費用の削減
データクレンジングはコスト面でもメリットがあります。上述の業務効率化が実現すると、後からのやり直しの発生が減るためコストを削減できるだけでなく、誤ったデータや、異なるフォーマットのデータの整理・統合がされるため、無駄な運用コストを削減できます。
データクレンジングの方法
データクレンジングを、データ活用のどの段階で実施するか、どのように実施するかについて見ていきましょう。
データクレンジングを実施するのは、上述したデータをマーケティングに活用する工程のうち、「データを整理・統合する」段階においてです。必ず、データ分析の前段階で実施するようにしましょう。
データ分析はその時々の目的があり、目的によっては、データを整理しなくても分析可能と思えることがあります。しかし、データの整理を省いて分析したケースでは、後になって必要な情報が足りないことが判明し、結局はデータの整理の段階に戻ることが多いです。面倒に思えてもデータの整理を事前にしっかり実施しておきましょう。
データの整理には、「データの棚卸」と「データの統合」の2段階があります。データの棚卸とは、社内外に蓄積したデータを集め、それを目的に応じて取捨選択する作業です。データの統合では、棚卸後のデータをデータベース化してまとめます。
データクレンジングはデータの統合の過程で実施します。一つひとつのデータ資産についてクレンジングを施しても間違いではありませんが、棚卸をして目的に沿ってデータを整理した後にクレンジングをしたほうが効率的です。
データクレンジングのサイクル
データクレンジングを含めた、データ品質を維持するためのサイクルを見ていきましょう。
1.現状のデータ品質をチェックする
まず、棚卸で収集した社内外のデータの品質をチェックします。チェックポイントは、完全性(データに欠損はないか)、適合性(データに表記の揺れはないか)、一貫性(データに不整合はないか)、精度(データに誤りやノイズはないか)、重複度(データに重複はないか)です。
2.チェックにもとづいてクレンジングする
ひと口にデータクレンジングといっても、さまざまな方法があります。完全性が欠けている場合と、重複している場合では当然のことながら修復方法は異なります。欠損の補完や表記の揺れが問題であればデータの標準化、ノイズが発生していればその排除が必要です。
3.データ品質の維持
データクレンジングが終了したら、それでデータの整理は終わりというわけではありません。データに不備がないように管理して、品質を維持していくことが重要です。データを入力するユーザーの運用マニュアルを改善したり、システム化して統制したりするなど、品質の維持に努めましょう。
正確なデータが正確な分析につながる
マーケティングにおいてデータの活用はますます重要性が高まっています。しかし、分析の方法や施策への落とし込みには注目しても、その前段階であるデータの整理をおろそかにしてしまうケースが多いうです。データに不備があると、分析の精度は低くなってしまいます。ときには、分析のやり直しによって対処コストが発生してしまうこともあります。データクレンジングは地味な作業に思われがちですが、マーケティングの成功を支える重要な工程です。正確なデータが正確な状況分析につながるため、必ず実施するようにしましょう。
関連コラム記事
関連ソリューション
Web&デジタルマーケティングの
お悩みを一緒に解決します!
おすすめのコラム
今後のセミナー開催情報をメルマガにてお送りします