shinodoggのテキトーなブログ

テキトーです

Hadoop Source Code Reading 第0回

技

自己紹介

普段Hadoop使ってる人が多い SIer、コンサル、研究、ネット会社、、様々な人。

趣旨

コードを読めばいいジャマイカ。やれるならビール飲みながらくらいでやりたい。 Happy Source Reading。

ディストリビューション

Apache、Cloudera、Yahoo

バージョン

0.20系で。MapReduceのAPIが2つあるらしい。。

どこから見ていくか

MapReduceは入りやすいけど、 CoreとかHDFSにする？Coreは眠くなっちゃいそう。 →MapReduceで。新API？旧API？　新はまだちょっときついから、旧APIで。　旧API→Mapred。

やり方

20分×3本くらいな感じで。

ハッシュタグ

hadoop_reading

次回

4月23日くらい。

LT

西岡さん　西岡さんはTypeSafe Love 　型指定がめんどいから推論したかったけど。　MapWritableにヒントが隠されてるらしい。
半場さん　スケジューラ　Capacity(Y!のキュー)と、Fair(Facebookのプール)の違い。　Fairの方がいろいろ細かく制御でき、基本100%使う。
藤川さん　PAPYRUS : JRubyでMapReduceする。　JRubyごとClientからサーバに送りつけて処理する。　JRubyは10メガくらいだからたいした転送量じゃない。　RubyでストリーミングでやるよりJava使えた方が早いはず
大谷さん　並列分散処理基盤。巨大なデータを扱う。並列で安価に。　生態系、エコシステム。ディストリビューションもいっぱい。　Avroでシリアライズのところとか作り替える？今後重要に。