せっかくサンフランシスコに旅行にきてるので、久しぶりにこっちのMeetupに行きたいなぁと。 ちょうどナイスな日取りでSF Data MiningってグループのMeetupがあったので、 Crowdsourcing Series: InfoScout and Samasource @Trulia に参加してきました。 場所はNew MontgomeryとMissionの交差点のソバのビル。なかなか趣のある。 エレベーターもユニークな感じ。 9階につくと会場時間ちょっと前なのに凄い人。んで、会場のtruliaのロゴどーん、と。 San FranciscoのIT企業らしく、卓球台もきちんと設置されていて、 外出るとチルアウトするのにナイスそうなテラスが。 日本ではみんな恥ずかしがってアレですが、こっちの人はカジュアルに話まくります。 が、自分は有給消化中の身のため、イマイチ話が盛り上がらなかったりして。。 ってか、なぜかパックマンのゲームもあった。笑 ピザつまみつつ、 ビールもあるし。 ■ 主催の方から挨拶 SF Data Miningは毎月Meetupやっててね〜なんて話から、 ピザとビールの協賛だったのかな?Statistics.comっていうそっち系の教育サイトの紹介とか。 ■ InfoScout の CTO の Jon Breligさんの話 InfoScoutはSeries AしたSFのスタートアップ。 リアルなお店のお客さんのデータをホゲホゲして〜的な。以下2つのスマホアプリの開発元。 ・Receipt Hog - Put $ in your own pocket ・Shoparoo - Fundraise for a cause アーキテクチャ的な話としては、以下のような感じで、 1. レシートをキャプチャしてJSONにする。 2. Computer Vision(OpenCV) + OCR + MTurk 3. MongoDBに。スクレイピングと分類 4. MySQL + Hadoop(EMR) Walmart や Walgreen のレシートをJSONに〜っていう例の紹介とか。結構頑張ってピンぼけとかでも。 で、この実装の話はとても面白そうだったのですが、今回はCrowdSourcingがお題ということで、 以下に人手を使ってコンピューターは無理なクオリティの高いアレをするか、と。 そこで Amazon の Mechanical Turk ですよ、と。 恥ずかしながら、全くMechanical Turkというサービスの事を知らなかったのですが、手広くそんな事もやってたのですね。 メリット/デメリットは以下のような感じです、と。 ・Pros - Fact, Economical, Large worker volume, Programmatic Interface, Amazon trusted & established ・Cons - Lower quality, Lower skillets, API a bit primitive Mechanical Turkを使う上でのTIPS的な話とか。 実際にこんな感じでやってる的なデモとか。 Workerがこんな感じでグワっときてるぜ的な。 Quality Controlのための工夫とか、柔軟なテンプレートの作り方とか、怪しい値が入ってきたらバリデーションではじくとか、 同じの2回入ってきちゃった場合にどうシステム側で判断するかとか、細かくガッツリお話してくれて興味深かったです。 #BotoっていうAWSのPythonのライブラリの話とか出てきて。GameDayの時にちょっとだけ触ったのとか思い出しました。 最後は彼らの解析結果をグラフィカルに見れるアレで Trader Joe、RedBull、マルボロ、Old El なんちゃら、、、とか入れてって、 白人男性が良く買ってるとか、NYのお金持ちの人が〜とか、面白かったです。 んで、お約束の。。 ■ Samasource の VP の Martin Andersonさんのお話 Samasourceはnon profitな団体で、世界の貧困をなんとかしましょう的なアレ。 地球のどこかではこんなに悲惨なんだよ的な話からはじまり、 unemployment rateが高いのが問題だと。 なので、こんな感じで教育してクラウドソーシングで働けるように〜って。 クイックに教育して稼げるように〜と。 その為のワークフローやAPIを提供してるらしい。 具体的に例えばこんなことやってます、と。 デジタルなデータを人手で〜 画像のタギングとか。機械学習させて最終的には自動化にもってきたいけど、正確にやれるようになるまでは人手が必要。 Workerはこんな感じになってて、俄然増えてきてるよーと。 ■ Q&A ちょっと英語的についていけず、、でしたが、とにかくみんな質問しまくるというか。だいぶ日本とは雰囲気違います。
ちょっと今までやってきた仕事と守備範囲が違くて、話についてイケないところもあったし、 参加してる人がDeveloperじゃない人が多かったりもしましたが、ソレはソレで面白かったというか。 特に、Samasourceの話はイイ感じに広まってったらアツいなぁと思うし、その為に自分がちょっとでも 役に立てたりしたらナイスだなって思ったりしました。