social.mikutter.hachune.netMastodonを使った分散型ソーシャルネットワークの一部です。
#あなたがガチ凍結されると<br> 11月中旬くらいかな?俺はておくれだから<br> Twitterからよく舐められるんだけど、<br> ある時Twitterが度が過ぎて俺を凍結<br> してきたわけ、そんで記憶がないんだけど(痴呆)、<br> 相当ボコボコにしちゃったらしい<br> 俺、これでもておくれですよ?

サーバーの情報

104
人のアクティブユーザー

もっと詳しく

ちょいとCC100-jaからlibkkc向けに辞書を作ることができたので、辞書を差し替えてテスト入力しているところ。
まだ使い始めたばかりなので使用感については何とも言えないけどとりあえずはこの程度の文章を打つことはできているみたい。

悪くはない感じがするけど、良いかどうかは何とも言えない。日本語ウェブコーパス2010の頻度750以上で作った辞書から入れ替えていて、語彙数がだいぶ減っている点(80280→63525)が気にかかるところではある。とはいえ単に多けりゃ良いってもんでもないだろうし、長時間使ってみないと分からんなあ。

(下手に増やすとノイズを拾って意図しない変換が増えて逆にストレスになるというのもある)

SASANO Takayoshi

自分自身で言語資源から辞書を起こせる、という点に意義があるかなあ。

(ここで「てんに」が「点2」しか変換できずむきーっとなっている)

あれー?数字は候補から外すようにしてたはずな気がするんだけど。後でdata.arpaとか見てみるか。

やっぱ「てんに/点2」なんてのは見つからないんだが…うーむ…?

CC100-ja/頻度75辞書を作ってみたけど、中二病ならぬ点2病は治ってないねえ…メモリ消費量も多めだし。頻度100辞書に戻すかどうかが悩ましい。

uaa@emeraude:~/nwc2010-libkkc$ head -n 5 data.arpa.{cc,nwc}*
==> data.arpa.cc.100 <==

\data\
ngram 1= 63525
ngram 2= 1175059
ngram 3= 6044823

==> data.arpa.cc.75 <==

\data\
ngram 1= 70444
ngram 2= 1419241
ngram 3= 7942800

==> data.arpa.nwc.750 <==

\data\
ngram 1= 80280
ngram 2= 1263366
ngram 3= 5042232
uaa@emeraude:~/nwc2010-libkkc$

CC100-ja、組み合わせの数(2-gram/3-gram)が多い割に語彙数(1-gram)が少ない感じ。こういう方向性が、取ってきた資源で出てくる「色」とか「味」とかそういう部分になるのかねえ。