- 自己紹介
普段Hadoop使ってる人が多い SIer、コンサル、研究、ネット会社、、様々な人。
- 趣旨
コードを読めばいいジャマイカ。 やれるならビール飲みながらくらいでやりたい。 Happy Source Reading。
Apache、Cloudera、Yahoo
- バージョン
0.20系で。MapReduceのAPIが2つあるらしい。。
- どこから見ていくか
MapReduceは入りやすいけど、 CoreとかHDFSにする?Coreは眠くなっちゃいそう。 →MapReduceで。新API?旧API? 新はまだちょっときついから、旧APIで。 旧API→Mapred。
- やり方
20分×3本くらいな感じで。
hadoop_reading
- 次回
4月23日くらい。
- LT
- 西岡さん 西岡さんはTypeSafe Love 型指定がめんどいから推論したかったけど。 MapWritableにヒントが隠されてるらしい。
- 半場さん スケジューラ Capacity(Y!のキュー)と、Fair(Facebookのプール)の違い。 Fairの方がいろいろ細かく制御でき、基本100%使う。
- 藤川さん PAPYRUS : JRubyでMapReduceする。 JRubyごとClientからサーバに送りつけて処理する。 JRubyは10メガくらいだからたいした転送量じゃない。 RubyでストリーミングでやるよりJava使えた方が早いはず
- 大谷さん 並列分散処理基盤。巨大なデータを扱う。並列で安価に。 生態系、エコシステム。ディストリビューションもいっぱい。 Avroでシリアライズのところとか作り替える?今後重要に。