DataflowJavaSDK Weekly

DataflowJavaSDK の更新を解説します。このブログは Google 社とは一切関係ありません。

DataflowJavaSDK 更新解説をはじめます

Dataflow とは

Google Cloud Platform のサービスのひとつ Cloud Dataflow のことです。大規模データのバッチ処理、リアルタイムでの集計、分析などをパイプライン形式のプログラミングモデルで記述して分散処理を行うサービスです。現在はアルファ版で申請のあったユーザーにのみ利用可能です。詳細は公式のドキュメント What is Google Cloud Dataflow? を参照してください。

Dataflow Java SDK とは

Cloud Dataflow の主要なコンポーネントには、Google Cloud Platform のマネージドサービスとしての Cloud Dataflow と、Dataflow 上でのデータ処理を記述する SDK があります。

マネージドサービスとしての Cloud Dataflow は現在のところアルファ版で、申請のあったユーザーのみ利用可能です。

SDK は現在のところ Java 版の DataflowJavaSDKオープンソースになっており、GitHub 上で公開されています。この DataflowJavaSDK は誰でも利用可能です。DataflowJavaSDK を用いてプログラミングされたパイプライン処理にはローカルでのテスト実行を行うモードもあり、こちらは許可されたユーザーでなくても Cloud Dataflow のプログラミングモデルを試すことが可能です(ただし Google Cloud Storage を利用するため Google Cloud Platform のユーザ登録は必要)。

DataflowJavaSDK Weekly とは

Cloud Dataflow は現在アルファ版であり活発に開発中です。どんなことができるサービスになるのかはユーザからのフィードバックによっても変化し続けるであろうと思われます。 しかしDataflowJavaSDKの更新はGitHub上のリポジトリに日々コミットがpushされているため、開発状況はSDKの変更を追跡することでも伺い知ることができると思われます。

DataflowJavaSDK WeeklyではDataflowJavaSDKの変更点を観察し変更点をまとめることで現在の開発動向を知ることを目的とした個人の活動です。このブログはGoogle社とは全く関係がありません。