SF Data Mining の Crowdsourcing: InfoScout and Samasource にいってきました。

せっかくサンフランシスコに旅行にきてるので、久しぶりにこっちのMeetupに行きたいなぁと。 ちょうどナイスな日取りでSF Data MiningってグループのMeetupがあったので、 Crowdsourcing Series: InfoScout and Samasource @Trulia に参加してきました。 IMG_0294   場所はNew MontgomeryとMissionの交差点のソバのビル。なかなか趣のある。 IMG_0323   エレベーターもユニークな感じ。 IMG_0322   9階につくと会場時間ちょっと前なのに凄い人。んで、会場のtruliaのロゴどーん、と。 IMG_0298   San FranciscoのIT企業らしく、卓球台もきちんと設置されていて、 IMG_0297   外出るとチルアウトするのにナイスそうなテラスが。 IMG_0300   日本ではみんな恥ずかしがってアレですが、こっちの人はカジュアルに話まくります。 が、自分は有給消化中の身のため、イマイチ話が盛り上がらなかったりして。。 IMG_0302   ってか、なぜかパックマンのゲームもあった。笑 IMG_0299   ピザつまみつつ、 IMG_0303   ビールもあるし。 IMG_0295     ■ 主催の方から挨拶   SF Data Miningは毎月Meetupやっててね〜なんて話から、 IMG_0305   ピザとビールの協賛だったのかな?Statistics.comっていうそっち系の教育サイトの紹介とか。 IMG_0306     ■ InfoScout の CTO の Jon Breligさんの話   InfoScoutはSeries AしたSFのスタートアップ。 リアルなお店のお客さんのデータをホゲホゲして〜的な。以下2つのスマホアプリの開発元。 ・Receipt Hog - Put $ in your own pocket ・Shoparoo - Fundraise for a cause   アーキテクチャ的な話としては、以下のような感じで、 1. レシートをキャプチャしてJSONにする。 2. Computer Vision(OpenCV) + OCR + MTurk 3. MongoDBに。スクレイピングと分類 4. MySQL + Hadoop(EMR) Walmart や Walgreen のレシートをJSONに〜っていう例の紹介とか。結構頑張ってピンぼけとかでも。   で、この実装の話はとても面白そうだったのですが、今回はCrowdSourcingがお題ということで、 以下に人手を使ってコンピューターは無理なクオリティの高いアレをするか、と。   そこで AmazonMechanical Turk ですよ、と。 恥ずかしながら、全くMechanical Turkというサービスの事を知らなかったのですが、手広くそんな事もやってたのですね。 メリット/デメリットは以下のような感じです、と。 ・Pros - Fact, Economical, Large worker volume, Programmatic Interface, Amazon trusted & established ・Cons - Lower quality, Lower skillets, API a bit primitive   Mechanical Turkを使う上でのTIPS的な話とか。 IMG_0308   実際にこんな感じでやってる的なデモとか。 IMG_0309   Workerがこんな感じでグワっときてるぜ的な。 IMG_0310   Quality Controlのための工夫とか、柔軟なテンプレートの作り方とか、怪しい値が入ってきたらバリデーションではじくとか、 同じの2回入ってきちゃった場合にどうシステム側で判断するかとか、細かくガッツリお話してくれて興味深かったです。 #BotoっていうAWSPythonのライブラリの話とか出てきて。GameDayの時にちょっとだけ触ったのとか思い出しました。   最後は彼らの解析結果をグラフィカルに見れるアレで Trader Joe、RedBull、マルボロ、Old El なんちゃら、、、とか入れてって、 白人男性が良く買ってるとか、NYのお金持ちの人が〜とか、面白かったです。   んで、お約束の。。 IMG_0311     ■ Samasource の VP の Martin Andersonさんのお話   Samasourceはnon profitな団体で、世界の貧困をなんとかしましょう的なアレ。   地球のどこかではこんなに悲惨なんだよ的な話からはじまり、 IMG_0313   unemployment rateが高いのが問題だと。 なので、こんな感じで教育してクラウドソーシングで働けるように〜って。 IMG_0314   クイックに教育して稼げるように〜と。 IMG_0314   その為のワークフローやAPIを提供してるらしい。 IMG_0316   具体的に例えばこんなことやってます、と。 デジタルなデータを人手で〜 IMG_0317   画像のタギングとか。機械学習させて最終的には自動化にもってきたいけど、正確にやれるようになるまでは人手が必要。 IMG_0318   Workerはこんな感じになってて、俄然増えてきてるよーと。 IMG_0320     ■ Q&A   ちょっと英語的についていけず、、でしたが、とにかくみんな質問しまくるというか。だいぶ日本とは雰囲気違います。 IMG_0321  

 

ちょっと今までやってきた仕事と守備範囲が違くて、話についてイケないところもあったし、 参加してる人がDeveloperじゃない人が多かったりもしましたが、ソレはソレで面白かったというか。 特に、Samasourceの話はイイ感じに広まってったらアツいなぁと思うし、その為に自分がちょっとでも 役に立てたりしたらナイスだなって思ったりしました。  

クラウドソーシングの衝撃 (NextPublishing)
株式会社インプレスR&D (2013-06-21)
売り上げランキング: 26