social.mikutter.hachune.netでは利用できません。

social.mikutter.hachune.netはMastodonを使った分散型ソーシャルネットワークの一部です。

#あなたがガチ凍結されると 11月中旬くらいかな？俺はておくれだから Twitterからよく舐められるんだけど、 ある時Twitterが度が過ぎて俺を凍結 してきたわけ、そんで記憶がないんだけど（痴呆）、 相当ボコボコにしちゃったらしい 俺、これでもておくれですよ？

丼の中の家鴨 @ahiru

104
人のアクティブユーザー

**SASANO Takayoshi** @uaa · 2023年10月1日

SASANO Takayoshi @uaa

ちょいとCC100-jaからlibkkc向けに辞書を作ることができたので、辞書を差し替えてテスト入力しているところ。
まだ使い始めたばかりなので使用感については何とも言えないけどとりあえずはこの程度の文章を打つことはできているみたい。

**SASANO Takayoshi** @uaa · 2023年10月1日

SASANO Takayoshi @uaa

悪くはない感じがするけど、良いかどうかは何とも言えない。日本語ウェブコーパス2010の頻度750以上で作った辞書から入れ替えていて、語彙数がだいぶ減っている点(80280→63525)が気にかかるところではある。とはいえ単に多けりゃ良いってもんでもないだろうし、長時間使ってみないと分からんなあ。

**SASANO Takayoshi** @uaa · 2023年10月1日

SASANO Takayoshi @uaa

（下手に増やすとノイズを拾って意図しない変換が増えて逆にストレスになるというのもある）

SASANO Takayoshi @uaa@social.mikutter.hachune.net

自分自身で言語資源から辞書を起こせる、という点に意義があるかなあ。

（ここで「てんに」が「点２」しか変換できずむきーっとなっている）

**SASANO Takayoshi** @uaa · 2023年10月1日

SASANO Takayoshi @uaa

あれー？数字は候補から外すようにしてたはずな気がするんだけど。後でdata.arpaとか見てみるか。

**SASANO Takayoshi** @uaa · 2023年10月1日

SASANO Takayoshi @uaa

やっぱ「てんに/点２」なんてのは見つからないんだが…うーむ…？

**SASANO Takayoshi** @uaa · 2023年10月1日

SASANO Takayoshi @uaa

CC100-ja/頻度75辞書を作ってみたけど、中二病ならぬ点２病は治ってないねえ…メモリ消費量も多めだし。頻度100辞書に戻すかどうかが悩ましい。

**SASANO Takayoshi** @uaa · 2023年10月1日

SASANO Takayoshi @uaa

uaa@emeraude:~/nwc2010-libkkc$ head -n 5 data.arpa.{cc,nwc}*
==> data.arpa.cc.100 <==

\data\
ngram 1= 63525
ngram 2= 1175059
ngram 3= 6044823

==> data.arpa.cc.75 <==

\data\
ngram 1= 70444
ngram 2= 1419241
ngram 3= 7942800

==> data.arpa.nwc.750 <==

\data\
ngram 1= 80280
ngram 2= 1263366
ngram 3= 5042232
uaa@emeraude:~/nwc2010-libkkc$

CC100-ja、組み合わせの数(2-gram/3-gram)が多い割に語彙数(1-gram)が少ない感じ。こういう方向性が、取ってきた資源で出てくる「色」とか「味」とかそういう部分になるのかねえ。

ドラッグ＆ドロップでアップロード

戻る