<unk>をOOV(out of vocabulary)なる呼び方をするようだけど、sortlm.pyの作りとしてOOVをあんまり考えてないとかそういうノリなんだろうか。まあ確かに、1-gramの単語に無いものが2-gram, 3-gramに出てきてもらっても困るんすよ、ではあるんだろうけど。
とりあえず、実績がある(と思う)IRSTLMで作った言語モデルのデータを食わせても動かないんですけど、sortlm.pyはその辺どうお考えなんです?ということは言えそう。(こちらで生成したdata.arpaに非は無いってことを言いたい)
Pythonはよく分からないんだけど、まあhow-toなweb見ながらいじるしかないだろうなあ…