ELTデータパイプラインをはじめてご利用になる方へ

Daniel Haville

なぜETLよりELTなのか?　〜ELTの使い方〜

以下の記事は、Analytics Academyの創設者兼CEOであるDaniel Haville氏が執筆したものです。Data Championsプログラムの一環として寄稿してくださいました。本ブログやData Championsプログラムの詳細にご関心のある方は、ぜひお問い合わせください。

従来、これまでのデータパイプラインでは、ETL（抽出、変換、読み込み）プロセスで、データウェアハウスにデータを読み込んでいました。読み込む前に変換する場合、アナリストは事前に使用するデータモデルとインサイトを予測しなければなりません。つまり、データエンジニアとアナリストは、データを使用するために複雑なプロセスとワークフローを事前に設計して構築し、レポートニーズが変化するたびに、それらを再設計、再構築しなければならないのです。

データの抽出、読み込み、変換（ELT）の新たな手法では、アナリストがデータを元の形式で使用し、クラウドベースのテクノロジーでデータを変換し、無制限にインサイトを引き出すことができます。この新たなデータ統合アプローチは、データを取り込むプロセスを効率化し、包括的なデータ分析における障害を劇的に減らします。

Fivetranは、企業がクラウドに依存しない方法で、データの抽出とデータウェアハウスへの読み込みを自動化する、完全な自動化データパイプラインを提供します。 Analytics Academyは以前からFivetranと緊密に連携してきました。この記事では、FivetranとELT・ETLベースのツールおよびプロセスの違いに焦点を当てます。

エンジニア主体のETLとアナリスト主体のELT

従来のETLプロセスでは、アナリストはレポートを作成する前に、データの使用用途をすべて予測しなければなりませんでした。変換は読み込み前に実行されるため、ETLプロセスでは、各ソースからデータを抽出するための特注コードを記述し、データをクリーニング、集約、結合、またはレポートに適したモデルに再形成するためのエンジニアリング作業が必要となります。こうした作業の初期費用は高く、プロセス全体の柔軟性が極端に失われます。
ELTであれば、rawデータをウェアハウスに読み込むことで、アナリストがすぐにデータへアクセスできるようになり、必要となるインサイトを事前に定めなくともよくなります。ELTを使用することで、データウェアハウスに「正しいデータソース」として機能するデータのrawレイヤーを作成でき、企業やアナリストに大きな柔軟性をもたらします。読み込み後のステージング変換により、データソースからデータが辿った記録である、一貫した「監査証跡」も取得することができます。

ストレージとコンピューティングが、以前よりもはるかに安価なクラウド移行したこともあり、ELTが可能となりました。変換は、データウェアハウス内部で行えるようになっています。昨今のビジネスでは膨大な量のデータが生成されます。 ELTであれば、データの利用者に役立つインサイトを予測し、実行しなければならないデータ変換を決定するという先行コストなしで、データをウェアハウスに読み込むことができます。

FivetranとELT

Fivetranは、あらゆるデータソースからコードなしでパイプラインを作成できる非常に容易なソリューションを提供し、お客様のお役に立ちます。アナリスト、データサイエンティスト、エンジニアは、パイプラインの構築と保守に時間と労力を費やすのではなく、重要なことに集中できるようになります。Fivetranを使用すれば、5分もかからず、「コネクタ」（さまざまなデータソースのデータパイプライン）を構築できます。

今までに、会議で質問を受け、その回答をデータで裏付けなければならなかったことや、そういった場合に「今すぐお示しできるデータはありませんが、データエンジニアと調整してデータを読み込みます。データが手に入り次第ご連絡しますが、バックログが長く、数週間かかる場合があります」と回答しなければならかったことが、何度あったでしょうか。
TAAでは、過去のプロジェクトで何度も同じ経験をしました。同じ設定で、答えが次のようになることを想像してみてください。「プラットフォームで利用できるデータはありませんが、1時間お待ちください。レポートをお送りします。」下記の例を交えて、Fivetranがこのような場合にどう役立つのかを見てみましょう。

[簡単３ステップ] S3バケットからSnowflakeへデータ移動

Fivetranは、BigQuery、Redshiftなどほとんどのデータベースに対応していますが、今回はSnowflakeを例として取り上げます。

ステップ1 – FivetranとSnowflakeを接続

FivetranとSnowflakeを接続します。SnowflakeインスタンスのPartner Connectを介してFivetranにアクセスし、Fivetranをクリックすることで接続されます。 SnowflakeとPartner Connectに慣れていない方は、Analytics Academyチームにお気軽にご連絡ください。
この方法であれば、Snowflakeは文字通りワンクリックで、Fivetranに必要なデータベース、ウェアハウス、ユーザー、およびロールを自動的に作成します。続いてFivetranがSnowflakeウェアハウスとの接続先を自動的に作成します。

ステップ2 – データソースを接続

この例では、データをS3バケットに保存しています。FivetranとSnowflakeが接続されたので、そのデータをウェアハウスに接続します。これを行うには、Fivetran UI内で新しいコネクタを作成して構成する必要があります。
Fivetranの+コネクタをクリックして、S3ソースを選択します。
コネクタがテストに合格してS3バケットに接続するよう、必要なフィールドに入力することになります。

宛先スキーマ：バケットをテーブル上に配置するスキーマの名前。
注意：コネクタ作成後は編集不可。

宛先テーブル：テーブルの名前。
注意：コネクタ作成後は編集不可。

バケット：S3バケットへのリンク
公開：この記事では、公開バケットを使用。バケットが公開されていない場合は、こちらの設定手順を参照してください。

S3バケット以外のデータソースにはやや異なるフィールドが必要となりますが、認証情報一式はあらゆる場合に要求されます。すべてのフィールド入力が完了したら、「保存してテスト」します。テストが成功することでパイプラインが開始し、Snowflakeの宛先テーブルにデータを取り込むことができます。

ステップ3 – 少し待つ

データセットのサイズに応じて、最初の同期には数分から数日かかる場合があります。同期が完了すると、データはSnowflake環境で使用できるようになり、レポートレイヤーへの提供が可能になります。これでFivetranユーザーは、データ分析を開始してインサイトを作成し、ビジネスに効果的に利用できるようになります。
ぜひ、お試しください！