最近 LegalForce にご転職された @moco_beta さんオーガナイズの #kuromoji のコードを読む会@サムライズムさんに参加させていただきました。なんと出席率100%ということで、素晴らしい！

発表資料は👇コチラ！ //speakerdeck.com/assets/embed.js

趣旨

例えば、普段ElasticsearchとかSolrとかを業務で使っている人が、実際のソースを読んだら役に立つと思うし、楽しいと思う！とのこと。

会場内アンケート

1/3〜半分くらいの参加者が形態素解析器や検索エンジンを作っている！凄い！

リポジトリのチェックアウト

現状Antだけど、あと数ヶ月くらい経つとgradleに移行される。antタスク(例えばant idea)はIDEで開けるようにプロジェクトファイルを作ってくれる。

Kuromoji

元々はMecabのクローン。AtilikaのkuromojiとLuceneのkuromojiは別のものなので注意。特徴としてはアナライザと形態素解析器が一つのjarに入っている。Kuromojiの場合は一個入れるだけで良いので、辞書だけ変えたいとか、そういうのは面倒。

Kuromojiの辞書は大きく2つある。 1. システム辞書。MeCab IPADICをバイナリエンコードしてリソースして組み込む。UniDicの方が再現率が高いのではという話もあるが、現状UniDicのビルドは壊れてる[LUCENE-4056] 2. ユーザー辞書。今回は割愛。

辞書引き

二段階になっていて、文字列→見出し語ID→単語エントリ例えば、『東海道』を渡すと東、東海、東海道とそれぞれで単語をゴッソリ抽出するようになっている

Kuromojiの辞書

見出し語単語エントリへのポインタを取得。連想配列的な。文字列のマッチングはオートマトンになってる。
単語エントリデータ辞書をバイナリエンコードして単語には内部ID
データ構造はトライ木に似てるが木構造ではない
FST 1回の辞書引きでゴッソリ持ってこれる(👆の東海道の例を参照) 東海道なら、東海道 / 海道 / 道の3回辞書を引けば良い kuromojiの入力単位は2バイトchar。サロゲートペアがあると4バイトなので2回

👇は例。kuromojiのFSTは8|9みたいなデータの持ち方はしないようになってる、とのこと(1つしか返さない) //embedr.flickr.com/assets/client-code.js

Kuromojiの辞書はエンコード済みのバイナリ(datファイル)が入ってる 👇この辺ですかね〜 //embedr.flickr.com/assets/client-code.js

👇サイズを小さく出来ているには魔術がある、とのこと //embedr.flickr.com/assets/client-code.js

辞書圧縮に関するソースリーディング

TokenInfoDictionaryBuilder。👇ここを読むと大体何やってるか分かるはず //embedr.flickr.com/assets/client-code.js

見出し語検索 fst.Builder＆fst.FST

KuromojiはAnalyzer。o.a.l.util.fstそのものはsuggesterとか色んなところで使われている。 TokenInfoDictionaryBuilderの99行目〜。PositiveIntOutputsは符号なしのlongらしい。 Builder.addでオートマトンに追加していく👉fstBuilder.add(scratch.get(), ord)