うーむ、生成元のdata.arpa付きでアーカイブ作ってみるにしても、data.arpa自体がデカすぎる…出現頻度1000でバイナリは50M程度、data.arpaは260M。
オリジナルの辞書だと30Mくらい、とはいえ日本語ウェブコーパスで生成した辞書と比べると1-gramの量が1.5倍くらいオリジナルの方が大きかったりするので単純に辞書の「総量」で比べてもあんまり比較にならない気がする。
uaa@framboise:/usr/local/lib/libkkc/models$ ls -sk sorted3.orig/
total 30892
736 data.1gram 672 data.2gram.filter 264 data.input
1184 data.1gram.index 17408 data.3gram 4 metadata.json
9120 data.2gram 1504 data.3gram.filter
uaa@framboise:/usr/local/lib/libkkc/models$
uaa@framboise:/usr/local/lib/libkkc/models$ ls -sk sorted3.1000/
total 51172
448 data.1gram 864 data.2gram.filter 160 data.input
704 data.1gram.index 34464 data.3gram 4 metadata.json
11616 data.2gram 2912 data.3gram.filter
uaa@framboise:/usr/local/lib/libkkc/models$