social.mikutter.hachune.netMastodonを使った分散型ソーシャルネットワークの一部です。
#あなたがガチ凍結されると<br> 11月中旬くらいかな?俺はておくれだから<br> Twitterからよく舐められるんだけど、<br> ある時Twitterが度が過ぎて俺を凍結<br> してきたわけ、そんで記憶がないんだけど(痴呆)、<br> 相当ボコボコにしちゃったらしい<br> 俺、これでもておくれですよ?

サーバーの情報

102
人のアクティブユーザー

もっと詳しく

N-gramを作成する以上「この 治療法 の evidence」に対しては「この/この ちりょうほう/治療法 の/の evidence/evidence」と出力しないとダメで…「この/この ちりょうほう/治療法 の/の」(evidenceを切ってしまう)出力はできない。辞書へ含めるに相応しいかどうかの判定は形態素解析よりも後にしないといけない。

既に形態素解析済/N-gram化済というデータだったからkakasiniよる読み仮名付与と合わせて辞書データに入れるかどうかのフィルタリングをしてしまったけど…多分この部分はもう少しマシなやり方はありそう。

SASANO Takayoshi

変換候補にできないものは<unk>に置き換える、という手法は…確かにそうなんだけど、既にN-gram化されている物に関しては複数の「この <unk> は」みたいなエントリが出た場合にどう統合するのかを考えないといけないから厄介。