CC100-jaをnwc-toolkitで処理してコーパスを作る、というのはどうなんだろうかね。本家(https://code.google.com/archive/p/nwc-toolkit/)にtoolkitソースのアーカイブがあるけど、簡単に中身を確認するなら誰かのmirrorなのかforkなのか https://github.com/xen/nwc-toolkit を見るのが手っ取り早いか。
HTMLパース→テキスト抽出→Unicode正規化→形態素解析(分かち書き)→N-gramコーパス作成、なんだろうけど…ただのテキストマイニングならそれで良いとして、libkkc向けに「よみがな/単語」形式にしないといけないっていうのをどうしたもんかね。
別に今と同じ、n-gramコーパス構築後にkakasiで付加、でも良いんだろうけど。