大規模データ基盤構築: データ基盤のグランドデザイン : ラフ イメージ

大規模データ基盤構築

データ基盤の全体像

データ基盤を簡単にあらわした図は、このようになっています。
まずはラフにこのような状態をイメージして、データの基盤構築にあたるようにします。この役割は、IT ストラテジストと IT アーキテクトの重要な役割です。
構築をする上で、この絵をしっかり認識していないと、メンバー間で認識の齟齬が生まれ、度重なる無駄な認識合わせ会議を生むことになります。

図の中に、局所データ基盤や、中央に備えるベースレジストリのような、局所的なデータ集約ストレージがあることも注意してください。
「分散型をベースにする」と言っても、すべてを集約することなく個別に公開するわけではありません。局所的な中央管理が存在している意味をしっかり考えてください。

図の概念を簡単に説明します。

  1. ベースレジストリ
    エンタープライズ内で 1 つだけ存在するデータストア (DWH/データマート/マスター群) です。
    DWH/DM はエンタープライズで単一とすべきデータ群で、たとえばグループ個社売り上げ、利益、連結利益など、報告と一致するものです。
    マスターは、エンタープライズ全体で統一するマスターを保持します。顧客マスターや、会社コード、全社会計ルールに基づいた為替レートマスター等です。これらのマスターは、DWH と結合可能なものになっていなければなりません
  2. 局所データ基盤
    各会社、各事業、各リージョンで個別に拵えているデータレイク / DWH / データマート等です。複数の業務システムからデータを収集して保持しており、事業者プロジェクト内で独自のデータを活用しています。
    多くの場合、独自の BI ツールや分析基盤を持ち、親和性のあるソリューションでできています。
  3. 業務システム
    通常の業務システムであり、特定業務に最適化されたデータ構造を持っています。また、個別に分析システムを持っている場合、同じデータを参照できる状態 (つまり、業務データを直接分析データに出来る状態)になっています。
  4. データカタログ
    データに関する情報が登録されています。たとえば、下記のようなものが登録されていて、公開されています。
    a. データへのアクセス方法
    b. データ仕様
    c. データサンプル
    d. 問い合わせ先
    e. 秘匿レベルやタグ
    人が直接見るだけではなく、AI 等のシステムが使用することも意識します。
  5. ポータルサイト
    データの利用方法、リソースの申請方法、ヘルプデスクの所在、データ仕様変更、障害と復旧情報など、様々な情報を公開します。
    リージョンや事業によって局所的なポータルサイトも存在します。
    また、データカタログに非常に多くのメタデータが登録されると、ユーザーは情報を把握しづらくなるため、
    ポータルサイトが簡単なデータカタログの代わりをすることもあります。
  6. 社内コミュニティ
    ナレッジの公開、取り組みの公開、相談などを行う社内 SNS です。各ユーザーが自立してデータ活用を行う上で欠かせない存在となります。サイロ化されたナレッジは、ここで共有されます。
    また、データ管理部門とヘルプデスクの業務負荷を軽減します。SNS は、Microsoft VIVA のような大きなものから、Teams や Slack で作る小さなコミュニティであることもあります。小さなコミュニティは、ポータルや中央の大きなコミュニティで活動をアピールするとよいでしょう。内容が検索で引っかかることは必須です。

データ公開に関する補足

1.ベースレジストリ、2.局所データ基盤, 3. 業務システム の3つは、エンタープライズで統一されたデータ公開基準と、各国の法律に従い、データを公開します。また、情報はカタログまたはポータルサイトに掲載します。
ユーザーがデータを利用するときには、少なくとも「データ仕様」「データサンプル」「結合など利用例」の3つが必要になりますので、これらは情報として準備されていることを意識してください。
法的に公開してはならない情報、または、会社のポリシーとして一般的な公開の仕方をしない情報は、これらの局所ストアや業務システムで公開を制御します。

データは、「プライベート」と「パブリック」の境界線を作るイメージで管理します。カタログに公開するのはパブリックなものに対してだけです。プライベートなものを公開する必要はありません。また、プライベートな空間では、独自仕様/局所的仕様で管理してかまいません。逆に、パブリックな空間にデータを公開するときには、個別の業務システムが共有フォルダを開放する程度であっても、必ず情報公開ポリシーに従うようにします。

これらは、改めて説明することにします。

コメント

タイトルとURLをコピーしました