mecab --node-format="%f[7]/%m " --unk-format="<UNK> " --eos-format="\n"
これで「ヨミ/読み カナ/仮名」形式な形態素解析結果は出るけど…それでも結果のクリーニングは必要だしそもそもlibkkcの必要とする「読み仮名は平仮名であるべし(ただしヴは除く)」をどうにかしないといけないんだよなあ。
mecab --node-format="%f[7] %m " --unk-format="<UNK> <UNK> " --eos-format="\n"
の方が良いかなあ。トークンは2個単位で「読み」「語」の順。
逆順にして
mecab --node-format="%m %f[7] " --unk-format="<UNK> <UNK> " --eos-format="\n"
「語」「読み」順にするか…「語」に問題があれば「読み」の変換は不要だし。出力時に「読み/語」にしちゃえば良いんだから。