social.mikutter.hachune.netMastodonを使った分散型ソーシャルネットワークの一部です。
#あなたがガチ凍結されると<br> 11月中旬くらいかな?俺はておくれだから<br> Twitterからよく舐められるんだけど、<br> ある時Twitterが度が過ぎて俺を凍結<br> してきたわけ、そんで記憶がないんだけど(痴呆)、<br> 相当ボコボコにしちゃったらしい<br> 俺、これでもておくれですよ?

サーバーの情報

104
人のアクティブユーザー

もっと詳しく

uaa@emeraude:~$ nwc-toolkit/build/nwc-toolkit-unicode-normalizer ja.txt.xz |nwc-toolkit/build/nwc-toolkit-text-filter |mecab -F "%m\t%f[7]\t" -U "<UNK>\t<UNK>\t" -E "\n" -d /usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd |cc100-libkkc/src/convert_yomi |gzip -c > ja.mecab-neologd.txt.gz
こんな感じで一日くらい回してみるか

SASANO Takayoshi

mecab辞書の特性なのかは分からないけど、カンマ区切りCSV使っているからか…単語に半角スペースが入るケースがあるみたい。なので、トークンの区切りに半角スペースを使うのではなく、タブかカンマで区切るのが良さそう(タブ使ってみた)。

mecab+neologd辞書で形態素解析+各要素にlibkkc仕様のよみがなを振って(変換対象にできないものは<UNK>化する)、これをコーパス化→辞書作成というのを試そうとしている。

今まで試していた形態素解析済・3-gram化した物に後付けで読みを付けるのは緊急的な手段であり、本来であれば形態素解析時に読みを付ける方が適切なんじゃない?って前々から思っていたので。