DataflowJavaSDK Weekly

DataflowJavaSDK の更新を解説します。このブログは Google 社とは一切関係ありません。

Job name uniqueness, unlimit GCS filezise, Avro Source, Sharding BigQuery output

少々間があきましたが、着実に追い付いてきています。 Job name uniqueness Add logic in SDK to support unique name check during job creation. · GoogleCloudPlatform/DataflowJavaSDK@1147e4c · GitHub ジョブ名に自動的に日付や時刻を埋め込みがユニー…

PubsubIO in batch and direct modes, Dataflow API v1b3, Option for GCE Network

そろそろ追い付きそうです。 PubsubIO in batch and direct modes Adds support for PubsubIO in batch and direct modes. · GoogleCloudPlatform/DataflowJavaSDK@58dde1a · GitHub Streaming モードでのみ利用可能だった PubSubIO が Batch モードと direc…

Add stableUniqueNames option, Set PTransform name, ConcatReader, Unbounded custom source

まだ master の HEAD には追いついてませんが 6月頭の commit まで進んでいます。 Add stableUniqueNames option Add option to treat non-stable-unique name as an error · GoogleCloudPlatform/DataflowJavaSDK@12c18e7 · GitHub pipeline 実行のオプショ…

Revert MapFn and FlatMapFn, Credential with gcloud, Use PTransform more than once, Cancel pipeline from CLI

引き続き 5月中旬〜後半頃の commit を読み進めています。 ちなみに今週はあまり更新がない(push されてない)のであと 25 commits ほどで追いつきそうです(ということはこのペースだとまた引きはなされそう)。 Revert MapFn and FlatMapFn Revert "Add MapFn…

Runtime.totalMemory() vs. Runtime.maxMemory(), MapFn and FlatMapFn

引き続き5月中旬のコミットを読んでいます。 Runtime.totalMemory() vs. Runtime.maxMemory() Fix wrongly set buffer size for GoogleCloudStorageWriteChannel. · GoogleCloudPlatform/DataflowJavaSDK@6c99876 · GitHub これ1行の変更で JVM のメモリに関…

Reload Streaming Pipeline, Window in sideInput, Move to the backend

まだ5月前半のコミットを追随している途中です。 Reload Streaming Pipeline Add support to the SDK for reloading streaming pipelines. This is no… · GoogleCloudPlatform/DataflowJavaSDK@2229a47 · GitHub "This is not yet supported by the dataflow…

Streaming mode cache improvement, deprecate winthXXX APIs, StreamingDataflowWorker, DoFnWithContext

先月の更新直後に beta リリースがアナウンスされました。それからしばらくコミットが止まっていたのですが、5月中旬からまた大量のコミットが push されはじめたので徐々に追随していきます。 Streaming mode cache improvement Improve caching in Streami…

Beta Release is coming?

先週は大量のコミットがあって大変でしたが、今週は18個くらいで、コメントや Javadoc の更新も多かったのでコード的な変更は細かな不具合修正などでした。 Beta Release is coming? しかし README.md の変更に重要な内容があって、 Update README.md for Be…

DoFn と Windowing, Trigger API, Orderness, Progress Estimation と Source の並列化, Custom Output, Streaming Side Input

先週はコミットが全く push されていなかったのですが、その間たまっていたのが一気に push されたようで、最後にチェックしたところから 113 個もコミットが追加されていました。 さすがに読み切れないので今回はコミットメッセージを斜め読みして気になる…

side inputs per window 再び, 用語の統一, Partial Group By Key with Combine Function

今週も 12 個ほどコミットがありました。そのなかから主要そうなものをピックアップします。 side inputs per window 再び 先週 32d07db でコミットされた side inputs の windowing 対応ですが、その後 90c811a で一旦 revert され、その後 Makes side inpu…

PCollectionView, Proto2Coder, Windows support, side inputs per window

今週も 21個ほどコミットが push されていました。そのなかから主に backword-incompatible とされている変更をピックアップしてみます。 PCollectionView の型変数削除 Remove unnecessary type parameter on PCollectionView. c919a29 PCollectionView<T,WT> と2</t,wt>…

contrib、Join Library、Thread Num、Combine.BinaryCombineFn、FileBasedSource<T>

今回は初回ということもあり3月上旬からの変更点のうち目についたものを取り挙げます。 contribディレクトリ導入 Setting up 'contrib' directory and rules. · 8a3e55d にて contrib ディレクトリが作成され、community からの contribution によるライブラ…

DataflowJavaSDK 更新解説をはじめます

Dataflow とは Google Cloud Platform のサービスのひとつ Cloud Dataflow のことです。大規模データのバッチ処理、リアルタイムでの集計、分析などをパイプライン形式のプログラミングモデルで記述して分散処理を行うサービスです。現在はアルファ版で申請…