第16回オープンソーステクノロジー勉強会いってきました。
11/25 19:30〜
グリー株式会社 3Fセミナールーム
東京都港区六本木4-1-4 黒崎ビル 3F
第16回オープンソーステクノロジー勉強会、参加してきました。
(ただし、途中から)
http://labs.gree.jp/Top/Study/20081125.html
http://labs.gree.jp/Top/Study/20081125/Report.html
内容は、Hadoopが中心です。
Enjoy Playing Around Hadoop by kzk
- 実績
HadoopはYahoo、Amazon、Facebook、はてな、で実績あり。
検索、ログ処理、データ解析、行動マーケティング用途などで使用されている。
はてなブックマークでも使用されている。
- 向き、不向き
10G、20Gくらいのデータ量からが向いている。
1台では処理しきれない場合にHadoopを使用するべき。
今ちょうど、データ解析、行動マーケティング、ログ処理に関わっているところで、
私にとっては、とても興味のある話でした。
HadoopとEC2による、「安くて簡単」大規模データ処理
htp://ohkura.com/
blogeyeの人。
ブログ500万サイト、2億記事、200?300GBのデータを解析。
- EC2、S3
EC2とS3を使うと、導入コストを0にできる、という話。
EC2は、1 hour 10 cent
S3は、1 GB / 1 month 15 cent
Hadoopには、S3のデータを読むための機能がすでにある。
- blogeyeの構成
データストアは、S3 + MySQLキャッシュ
クロール処理は、レスポンスが悪かったり、巨大なコンテンツが落ちてきたりで、かなり危ない処理なので、
Hadoopのスレーブで処理している。
データはMySQLに保存。
Hadoopは、小さいファイルを扱うのは苦手。
Amazon EC2と、S3はかなり良さそうだ。
休日にでも、少し調査してみたい。