第16回オープンソーステクノロジー勉強会いってきました。

11/25 19:30〜
グリー株式会社 3Fセミナールーム
東京都港区六本木4-1-4 黒崎ビル 3F
第16回オープンソーステクノロジー勉強会、参加してきました。
(ただし、途中から)
http://labs.gree.jp/Top/Study/20081125.html
http://labs.gree.jp/Top/Study/20081125/Report.html


内容は、Hadoopが中心です。

Enjoy Playing Around Hadoop by kzk

  • 実績

HadoopはYahoo、AmazonFacebookはてな、で実績あり。
検索、ログ処理、データ解析、行動マーケティング用途などで使用されている。
はてなブックマークでも使用されている。

  • 向き、不向き

10G、20Gくらいのデータ量からが向いている。
1台では処理しきれない場合にHadoopを使用するべき。



今ちょうど、データ解析、行動マーケティング、ログ処理に関わっているところで、
私にとっては、とても興味のある話でした。

HadoopとEC2による、「安くて簡単」大規模データ処理

htp://ohkura.com/
blogeyeの人。
ブログ500万サイト、2億記事、200?300GBのデータを解析。

  • EC2、S3

EC2とS3を使うと、導入コストを0にできる、という話。
EC2は、1 hour 10 cent
S3は、1 GB / 1 month 15 cent
Hadoopには、S3のデータを読むための機能がすでにある。

  • blogeyeの構成

データストアは、S3 + MySQLキャッシュ
クロール処理は、レスポンスが悪かったり、巨大なコンテンツが落ちてきたりで、かなり危ない処理なので、
Hadoopのスレーブで処理している。
データはMySQLに保存。
Hadoopは、小さいファイルを扱うのは苦手。



Amazon EC2と、S3はかなり良さそうだ。
休日にでも、少し調査してみたい。

感想

また派手に遅刻して、立ち見になりましたが、
今回のオープンソーステクノロジー勉強会、それでも行く価値はありました。


今回聞いた話で、すぐに役に立つ、というものは(今の状況的に)無かったが、
将来的には、今回学んだことを役立てられるときが来てくれそうです。