大規模データ基盤構築: データ活用に向けたデータの民主化

大規模データ基盤構築

データが活用される状況を知るために、まずはデータの特徴から切り込んで、システムやアプリケーションとは異なることを知っていただきます。
そして、その特徴を持つものを浸透させていくべく、民主化に必要な要素を挙げていきます。

突如脚光を浴びたデータ分析という仕事

この10年で、「データ分析」「データサイエンティスト」といった言葉が IT の世界に現れ始めました。
従来の IT では、経営課題を解決するための手段として、IT システムの構築が IT に携わる人々の主な業務でした。

しかしながら、データ分析とはどのような仕事なのでしょうか。Python を使うからプログラマーがやることでしょうか。機械学習を使うから AI エンジニアの領域なのでしょうか。

残念ながらどれも違います。この勘違いがあると、データ基盤を理解することはできません。

データは人を選ぶ

[分析] のプロセスと [構築] のプロセスは、大きく異なります。

システム開発などモノづくりの思考プロセスは演繹的なプロセスと言えます。AならばB, BならばC、ゆえに A ならば Cである、という理論の連鎖です。だからシステム開発の計画はその逆算で必要なタスクと期間を算出して行います。
一方、分析の思考プロセスは枚挙型帰納法というプロセスになります。一つの事象の原因を多数上げ、それら個々の可能性を立証すべくさらなる多数の事象を挙げることを繰り返します。最終的に残った仮説の連鎖を1から順に適用して正しかったことを証明 (最高確率のものとして断定) します。

一般的に、演繹的思考プロセスには個人差はほとんどありません。ITシステムを設計した人とそれを作る人を分けることができるのもそのためです。要件を渡せばどの下請け業者でも製造可能で、出来上がるものに対した差はありません。
しかし、帰納法は非常に大きな個人差が出ます。データの分析では仮説を列挙できる者がいなければならなりません。だから、データ分析は誰にでもできるものではありません。
システム構築のように人に依存せずできるとすれば、それは BI 作成、機械学習、データセット作成など「集計代行」だけです。

演繹的な思考は個人差が無く、物量的で積み上げで表現。
役割分担が可能
帰納的な思考は個人差が大きく、仮説と検証を回すプロセスを繰り返して進める。仮説を立てる精度がモノを言う。

販売実績データを可視化して、グラフの山や谷を見つけるのは誰だってできます。一般的なコメントも然りです。
しかし、なぜそれが起きたのか、仮説を立てる行為は、そのデータ同士の相関の外にある事実から考えなければなりません。

季節的に発生する出来事、突発的に発生した記憶、過去の経験など、記憶や直感が大きくものを言います。
つまり、システム開発と違い、データは人を選びます。

データの民主化とはデータと人のマッチング基盤

データを活用しやすい組織とは、あるデータが示すファクトに対し、背景を含めよく知っている人をあてがえる状態の組織です。

組織内のあらゆる人が、データを探し、解釈し、自分の業務に活用できる状態こそが、データの民主化の状態です。

その実現に必要な要素と実現手段を列挙すると、以下のようなものが考えられます。

1. アクセシビリティの向上、データの公開

要素実現手段の例
データに関するメタ情報データカタログ、メタデータ管理ツール、データ サンプル/仕様書 ショーケース
データ検索の手段データカタログ、オンライン コミュニティ、社内 Wiki 等
データ入手の簡素化データ カタログ サイト、データ ディスプレイ サイト、社内ベースレジストリ
主管部署の明示データ公開ポリシー

2.習慣

要素実現手段の例
データを使う習慣ログ(作業記録) 記載可能な PJ 管理ツール、CRM、公開データベース、社内検索エンジン
業務データを記録する習慣ログ(作業記録) 記載可能な PJ 管理ツール、CRM、案件メールや議事録自動作成/検索ツール
データに基づく活動評価アワード、社内コンペ

3.教育、共有、スキルの底上げ

要素実現手段の例
データ解釈リテラシーデータの解釈に関する教育、利用経験
データ2次利用リテラシーデータの2次利用に関する教育、利用経験
ナレッジ共有社内オンラインコミュニティ、社内 Forge
オーナーとスチュワード役割モデルの明示化、組織体制

4.セルフサービス環境

要素実現手段の例
調査の自由化払い出し可能なデータ作業エリア、サンドボックス環境
分析ツール自由化Azure, AWS、 Snowflake, Databricks 等の共用ライセンス
BI ツール自由化PowerBI,  インターネットアプリの許容

5.活用を支えるルールと品質

要素実現手段の例
セキュリティの確保セキュリティポリシー、2次配布ポリシー、機密情報分類
品質の確保データ品質ポリシー、責任所在明確化
データ標準の確保概念データモデル、標準ルール、社内ベースレジストリ

コメント

タイトルとURLをコピーしました