CC-100とか扱いやすそうに見える(といってもトップページから目的とする言語へのリンクが張られているからという理由でデータの中身はこれから見る) https://data.statmt.org/cc-100/ mC4はよく分からない… https://github.com/allenai/allennlp/discussions/5056 JSONでも9.7TB(multilingual)なので、落としてから日本語だけ抜き出すとかしないといけないのかな。
アカウントがあればユーザーやハッシュタグをフォローしたり、投稿のお気に入り登録やブースト、投稿への返信ができます。別のサーバーのユーザーとの交流も可能です。