丼の中の家鴨 @ahiru

検索オプション

social.mikutter.hachune.netでは利用できません。

social.mikutter.hachune.netはMastodonを使った分散型ソーシャルネットワークの一部です。

#あなたがガチ凍結されると 11月中旬くらいかな？俺はておくれだから Twitterからよく舐められるんだけど、 ある時Twitterが度が過ぎて俺を凍結 してきたわけ、そんで記憶がないんだけど（痴呆）、 相当ボコボコにしちゃったらしい 俺、これでもておくれですよ？

管理者

丼の中の家鴨 @ahiru

サーバーの情報

102
人のアクティブユーザー

もっと詳しく

**SASANO Takayoshi** @uaa · 2023年9月12日

2023年9月12日

SASANO Takayoshi @uaa

もしかしてあれか、sortlm.pyの__read_ngramdのここ
for word in ngram:
agent = marisa.Agent()
agent.set_query(word)
if not self.__vocab_trie.lookup(agent):
continue
ids.append(agent.key_id())
単語表にないものについてはid.append()をngrams分登録できない…それに対し__write_ngramsでは
items = [(struct.pack("=LL", ids[1], unigram_offsets[ids[0]]), ids) for ids in keys]
ids[1]が存在することを前提にしている。故に、IndexErrorが起こる。

SASANO Takayoshi @uaa@social.mikutter.hachune.net

IRSTLMで3-gramの日本語ウェブコーパスから[123]-gramの表を作る以上、単語表(1-gram)はちゃんとしてると思っていたんだがなあ…確かに<unk>のエントリがあった以上は切り捨てられたものも何かあるとは思ってたんだ。この切り捨てを無効化して.arpaを作れれば御の字なんだが…そうでなければsortlm.pyで対応するしかない。

2023年9月12日 12:37 · · TheDesk(PC) · 0 · 0

ドラッグ＆ドロップでアップロード

最近の検索

検索オプション

管理者

サーバーの情報

戻る