The Stanford Data Stream Management System

Speaker: Jennifer Widom
talkがエンドレス。。。

○Data Stream
・Continuous, unbounded, rapid, time-varying streams of data elements
・Occur in a variety of modern applications
Network monitoring and traffic engineering
Sensor networks, RFID tags
Telecom call records
Financial application
Web logs and click-stream
Manufactureing processes

○Using Conventional DBMS
・Data stream as relation inserts, continuous queries as triggers or materialized views
・Problems with this approach
Inserts are typically batched, high overhead
Expressiveness: simple conditions(triggers), no built-in notion of sequence(views)
No notion of approximation, resource allocation
Current systems don't scale to large # of triggers
Views don't provide streamed results

○STREAM System Challenges
・Must cope with:
Stream rates that may be high,variable,bursty
Stream data that may be unpredictable, variable
Continuous query loads that my be high,variable

○STREAM System Features
・Aggressive sharing of state and computation among registered queries
・Careful resource allocation and use
・Continuous self-monitoring and reoptimization
・Graceful approximation as necessary

○CQL Example Query1
Two streams, contrived for ease of examples:
Orders (orderID,customer,cost)
Fulfillments(orderID,clerk)

Total cost of orders fulfilled over the last day by clerk "Sue" for customer "Joe"

Select Sum(O.cost)
FROM Orders O, Fullfillments F [Range 1 Day]
Where O.orderID = F.orderID and F.clerk ="Sue" And O.customer = "Joe"

○CQL Example Query2
Using a 10% sample of the Fulfillments stream, take the 5 most recent fulfillments for each clerk and return the maximum cost

Select F.clerk, Max(O.cost)
FROM Orders O, Fullfillments F [Partition By clerk Rows 5] 10% Sample
Where O.orderID = F.orderID
Group By F.clerk

○CQL Example Query4
Relation CurPrice(stock,price)

Select stock,Avg(price)
From Istream(CurPrice)[Range 1 Day]
Group By stock

・Average price over last day for each stock
・Istream provides history of CurPrice
・Window on history (back to relation), group and aggregate

○Memory Overhead in Query Processing
・Queues+State
・Continuous queries keep state indefinitely
・Online requirements suggest using memory rather than disk
But we realize this assumption is shaky

○Reducing Memory Overhead
1,Exploit constraints on streams to reduce state
2,Enable state sharing within and across queries
3,Specialized operator scheduling to reduce queue sizes

○Operator Scheduling
・Global scheduler invokes run method of query plan operators with "timeslice" parameter
・Many possible scheduling objectives: minimize latency, memory use, computation, inaccuracy, starvation
1,Round-robin
2,Minimize queue sizes
3,Minimize combination of queue sizes and latency
4,Parallel versions of above
ゼミや講演 | - | -
calendar
recommend
データベースシステム (情報系教科書シリーズ)

データベースシステム (情報系教科書シリーズ) | 北川 博之

一番のお勧めです!数学の面から詳しくデータベースに関して説明をしてくれています。データベースは理論が大事ですので、難しいですが、学習の大きな手助けとなります。

recommend
トランザクション処理〈上〉―概念と技法

トランザクション処理〈上〉―概念と技法 | ジム グレイ
アンドレアス ロイター

ジムグレイが書いた上下巻の厚い本。トランザクションについて細かすぎるほどに書いてある。きちんと読めていないので、ちゃんと読みます

recommend
珠玉のプログラミング―本質を見抜いたアルゴリズムとデータ構造

珠玉のプログラミング―本質を見抜いたアルゴリズムとデータ構造 | ジョン ベントリー

プログラミング言語に捉われず、アルゴリズムの面から丁寧に説明してくれている。面白く読める本

recommend
リファクタリング―プログラムの体質改善テクニック (Object Technology Series)

リファクタリング―プログラムの体質改善テクニック (Object Technology Series) | マーチン ファウラー
Martin Fowler
児玉 公信
平澤 章
友野 晶夫
梅沢 真史

プログラミング作法の一つのリファクタリングの本。前半よりも後半がためになった。リファクタリングの本では結城さんの入門書も良かった

recommend
内定勝者 私たちはこう言った! こう書いた! 合格実例集&セオリー2009 面接編

内定勝者 私たちはこう言った! こう書いた! 合格実例集&セオリー2009 面接編 | キャリアデザインプロジェクト

就職活動する前には必見の本。面接官への伝え方がかなりレベルアップする。就活生にはお勧め

selected entries
categories
archives
profile
others