social.mikutter.hachune.netMastodonを使った分散型ソーシャルネットワークの一部です。
#あなたがガチ凍結されると<br> 11月中旬くらいかな?俺はておくれだから<br> Twitterからよく舐められるんだけど、<br> ある時Twitterが度が過ぎて俺を凍結<br> してきたわけ、そんで記憶がないんだけど(痴呆)、<br> 相当ボコボコにしちゃったらしい<br> 俺、これでもておくれですよ?

サーバーの情報

102
人のアクティブユーザー

もっと詳しく

CC100-jaをnwc-toolkitで処理してコーパスを作る、というのはどうなんだろうかね。本家(code.google.com/archive/p/nwc-)にtoolkitソースのアーカイブがあるけど、簡単に中身を確認するなら誰かのmirrorなのかforkなのか github.com/xen/nwc-toolkit を見るのが手っ取り早いか。

code.google.comGoogle Code Archive - Long-term storage for Google Code Project Hosting.
SASANO Takayoshi

HTMLパース→テキスト抽出→Unicode正規化→形態素解析(分かち書き)→N-gramコーパス作成、なんだろうけど…ただのテキストマイニングならそれで良いとして、libkkc向けに「よみがな/単語」形式にしないといけないっていうのをどうしたもんかね。

別に今と同じ、n-gramコーパス構築後にkakasiで付加、でも良いんだろうけど。