写真:JLco Julia Amaral / shutterstock
無駄なデータ収集にコストをかけないためのプラクティス
2024.04.12
Updated by WirelessWire News編集部 on April 12, 2024, 04:53 am JST
写真:JLco Julia Amaral / shutterstock
2024.04.12
Updated by WirelessWire News編集部 on April 12, 2024, 04:53 am JST
多くの人が効率よく安全にデータ分析できるように環境を整えるには、どうすれば良いのでしょうか? ここでは特に、データの「ロジスティクス」に目を向けてみましょう。
データを活用できている企業はデータの質にこだわる
さまざまな調査の結果、データを活用するにあたって分析者の多くがほとんどの労働時間をデータセットの構築や維持に費やしていることがわかっています。ロジスティクスと一言にいっても、データ分析においてどこからどこまでをロジスティクスと呼ぶのかは曖昧です。しかし、明確に分析者の手間がかかっているポイントがあります。それは、使えるような形のデータを構築し、それを維持する作業です。
ただ何も考えずに集めたデータを分析に使うことはできません。データは、分析に必要な情報を集めて、保存し、整理されて初めて使うことができるのです。ごく当たり前のことを言っているように聞こえるかもしれませんが、実際のところ、分析を意図した体制が整っていない企業のデータは、使える状態にないことがよくあります。データの抜けや漏れがあったり、更新されていないデータがあったり、いつどこで誰が変更したのかわからないような状態になっていたり。質の低いデータから適切な意思決定を行うことは困難です。
データを活用できている企業は、質の高いデータを準備することに非常に多くの労力を割いています。データマネジメントを実施し、システムを整備することにコストをかけます。ビジネスの変化に伴ってデータ量は増え続け、構造はより複雑化しているからです。そしてそれほどまでに、データの質にこだわることには意味があります。
高品質なデータには五つの条件が揃っている
データを用いた意思決定を行うには、正しいデータが集められていることが大前提となります。当然ですが、正しくないデータから適切な意思決定をすることはできません。間違ったデータから得られるのは、不適切な意思決定だけです。
では、データの品質とはどのように定義すればよいのでしょうか?
ビジネスモデルや組織体制、システムの環境などは企業によって異なるため、必要とされる内容には違いはあります。とはいえ、基本的に求められる枠組みはどこの企業でも大きな差はありません。ここでは、国際基準であるISOや日本政府の提供している評価基準からピックアップしてみます。
正確性
データの正しさです。データと実態に齟齬がない状態を目指します。例えば、CRMで顧客の名前や連絡先が間違っていたら正確なデータとはいえません。誤字脱字も問題になります。
完全性
抜けや漏れが少なく、分析のために必要なデータが存在することです。たとえば、入力が必須項目であるはずが空欄のまま保存されていたら、完全性に欠けたデータとなります。システム上の不備で一定期間のデータに抜けがあるような状態も避ける必要があるでしょう。
一貫性
データ同士の整合性です。データに矛盾があったりズレが存在したりすると、分析するために前処理が必要になるうえ、そもそもデータとしてどれを信用したら良いのかわかりません。たとえば、郵便番号と住所が違っていたら、どちらを信用すべきでしょうか? 全角や半角、記号の表記ゆれなどは細かな差異のように見えますが、分析では重大な問題になりえます。
最新性
いつまでも古いままのデータでは、変化の激しいビジネスの現場では使い物になりません。定期的な更新が必要です。くわえて、更新の頻度も重要です。1日ごとの更新、1時間ごと、1分ごと、随時更新というように考えていくと、更新の頻度は高ければ高いほど優れているように見えますが、更新頻度が高いほど保守・運用コストも高くなります。
追跡可能性(トレーサビリティ)
データがどこからきて、どのような変更が起きたのか追跡できることです。たとえば売上ひとつとっても、請求書の発行段階を指すのか入金の段階を指すのかで差が生まれます。広告とECサイトでは更新頻度や対象とする範囲が違うため、どの数値を見ているのかわかる必要があります。CRMを使っていて入力後に変更されたとき、誰がどのように変更したのか追跡しなければ、データの信頼性に関わるでしょう。
では、データの品質を向上させるには、どのようなアクションが必要なのでしょうか?
※本稿は、モダンタイムズに掲載された記事の前半部分です。
「データの品質向上」について続きを読む
この筆者の記事をもっと読む
おすすめ記事と編集部のお知らせをお送りします。(毎週月曜日配信)
登録はこちら