borealis: Distributed Stream Processing Engines

Title:Borealis: Distributed Stream Processing Engines
Speaker: Magdalena Balazinska (Univ Washington)

research channelでborealisに関する講義が聴講できる。
この講演は信頼性のある分散ストリーム処理についての話だった。
以下メモ。

○Fault-Tolerance Goals
・Failure assumptions
Fail-stop failures of processing nodes
Network failures and network partitions
No data source failures or Byzantine failures
・Availability: Low per-tuple processing latency
・Consistency: Output identical to failure-free execution

○Fault-Tolerance Problem
・When possible,completely mask failures
・Goal1: Favor availability
Some increase in latency is tolerable
・Goal2: Eventual consistency
Correct results after failure heals
・Goal3: Minimize inconsistency
Minimize number of possibly incorrect tuples
Minimize impact of failures
Minimize degree of divergence

○New Data Model
{time,type,id, a1,...,an}
・id: unique identifier
・type: tuple type
Data tuples: STABLE,TENTATIVE
Control tuples: BOUNDARY,UNDO,REC_DONE
・TENTATIVE tuples
Result from processing a subset of inputs
Corrected with a single UNDO tuple

○Fault-Tolerance Challenges
・Replicas proces tuples as they arrive
Affects operators with multiple inputs
・Upstream/downstream dependencies
・Large,rapidly changing transient state
Reconciling state is expensive and disruptive
・Independently of failure scenario
STABLE tuples are immutable
Correct TENTATIVE with STABLE
Meet availability and consistency requirements

○Borealis Fault-Tolerance Protocol
・Under normal operation
New operator maintains replica consistency
・When a failure occurs
Process available data within per-node bound D
Attempt to minimize inconsistency
・When failure heals
Reconcile state and correct output
Continue to process new tuples
Attempt to minimize inconsistency

○Protocol State Machine
there are three state,STABLE, UPSTREAM FAILURE, and STABILIZATION.
STABLE state keeps to maintain consistency and to detect failures.

○Consistency Without Failures
・Replicas must process tuples in same order
・Approach: each replica computes the order
・New serializing union, SUnion operator
Deterministic sort function on buckets of data

○State Reconciliation. Option1: Checkpoint/Redo
・At runtime, periodically checkpoint state
・After failure heals, restart from checkpoint
・Correcting output tuples
UNDO tuple followed by stream of corrections

○Checkpoint/Redo Properties
・Multiple failures
All inputs must be corrected before reconciling
Checkpoint before new failure
・Performance
CPU and memory overhead of checkpoints
Checkpoint as entering UPSTREAM_FAILURE
Reconciliation time increases linearly with failure duration and state size

○Load Management Problem
・Continuous tasks impose load on resources
・Want to move tasks between participants
improve system-wide performance
At least all participants operate within capacity
・Well-studied problem
Assume collaborative environment
Don't work for federated systems

○Conclusion
・Borealis: distributed SPE
・Fault-tolerance scheme
Availability and eventual consistency
Flexible availability/consistency trade-off
Replica autonomy
・Load management scheme
Acceptable allocation
Simple,lightweight,enbales discrimination

○Future Work
・Stream Processing
Accuracy and integrity constraints on streams
Integration with various data types
Stream minig, storing, and indexing
Querying current and historical data
Variable data sources with duplicate information
・P2P and federated systems
Incentives and collaboration
Schemes that favor simplicity and practicality
Various types of collaborations and sharing
研究 | - | -
calendar
recommend
データベースシステム (情報系教科書シリーズ)

データベースシステム (情報系教科書シリーズ) | 北川 博之

一番のお勧めです!数学の面から詳しくデータベースに関して説明をしてくれています。データベースは理論が大事ですので、難しいですが、学習の大きな手助けとなります。

recommend
トランザクション処理〈上〉―概念と技法

トランザクション処理〈上〉―概念と技法 | ジム グレイ
アンドレアス ロイター

ジムグレイが書いた上下巻の厚い本。トランザクションについて細かすぎるほどに書いてある。きちんと読めていないので、ちゃんと読みます

recommend
珠玉のプログラミング―本質を見抜いたアルゴリズムとデータ構造

珠玉のプログラミング―本質を見抜いたアルゴリズムとデータ構造 | ジョン ベントリー

プログラミング言語に捉われず、アルゴリズムの面から丁寧に説明してくれている。面白く読める本

recommend
リファクタリング―プログラムの体質改善テクニック (Object Technology Series)

リファクタリング―プログラムの体質改善テクニック (Object Technology Series) | マーチン ファウラー
Martin Fowler
児玉 公信
平澤 章
友野 晶夫
梅沢 真史

プログラミング作法の一つのリファクタリングの本。前半よりも後半がためになった。リファクタリングの本では結城さんの入門書も良かった

recommend
内定勝者 私たちはこう言った! こう書いた! 合格実例集&セオリー2009 面接編

内定勝者 私たちはこう言った! こう書いた! 合格実例集&セオリー2009 面接編 | キャリアデザインプロジェクト

就職活動する前には必見の本。面接官への伝え方がかなりレベルアップする。就活生にはお勧め

selected entries
categories
archives
profile
others