スポンサーリンク

2010年11月06日

サイト名に使われる文字

以前に、「アカウントに使われる文字」という記事を書いたことがあって、その時は「サイト名」に使われる文字を調べることは諦めて、「アカウント」に使われている文字の頻度を調べました。

最近になって「サイト名」の方も少し調べてみると、作業がそう煩雑でもなかったので、その調査結果を紹介します。

調べる材料は、「最新更新順ブログリスト」で、ここの1ページから最終の30ページまでにリストアップされているサイトのうち、サポーターのジャンルのみを解析対象としてサイト名を読み取ります。

それらのサイト名を1文字ずつ分解して、どの文字が何回使われているかを集計していきます。
データは、2010年10月22日19時頃の1478サイトですが、サイト名は自由に変更することが出来るので、集計結果は時々変わる可能性があります。

途中で困ったのは、全角と半角の違いを一緒に扱うか分けるかで、なるべく全角に統一して集計しました。

他に、半角カタカナの濁音は、子音と濁点とが別々に集計される問題があります。(例えば、「ド」は「ト」と「゙」とに分かれる)
でも実際に集計してみると、「ト」は「ド」の10分の1程度の頻度しか使われていないので、半角の「ト」を全角の「ト」に混ぜてしまっても大きな問題は生じません。

続きを読む...

posted by 雁来 萌 |21:44 | ブログシステム | コメント(0) |