Hadoop Source Code Reading 第0回

  • 自己紹介

普段Hadoop使ってる人が多い SIer、コンサル、研究、ネット会社、、様々な人。

  • 趣旨

コードを読めばいいジャマイカ。 やれるならビール飲みながらくらいでやりたい。 Happy Source Reading。

Apache、Cloudera、Yahoo

  • バージョン

0.20系で。MapReduceAPIが2つあるらしい。。

  • どこから見ていくか

MapReduceは入りやすいけど、 CoreとかHDFSにする?Coreは眠くなっちゃいそう。 →MapReduceで。新API?旧API?  新はまだちょっときついから、旧APIで。  旧API→Mapred。

  • やり方

20分×3本くらいな感じで。

hadoop_reading

  • 次回

4月23日くらい。

  • LT
  • 西岡さん  西岡さんはTypeSafe Love  型指定がめんどいから推論したかったけど。  MapWritableにヒントが隠されてるらしい。
  • 半場さん  スケジューラ  Capacity(Y!のキュー)と、Fair(Facebookのプール)の違い。  Fairの方がいろいろ細かく制御でき、基本100%使う。
  • 藤川さん  PAPYRUS : JRubyMapReduceする。  JRubyごとClientからサーバに送りつけて処理する。  JRubyは10メガくらいだからたいした転送量じゃない。  RubyでストリーミングでやるよりJava使えた方が早いはず
  • 大谷さん  並列分散処理基盤。巨大なデータを扱う。並列で安価に。  生態系、エコシステム。ディストリビューションもいっぱい。  Avroでシリアライズのところとか作り替える?今後重要に。