2010年11月06日
サイト名に使われる文字
以前に、「アカウントに使われる文字」という記事を書いたことがあって、その時は「サイト名」に使われる文字を調べることは諦めて、「アカウント」に使われている文字の頻度を調べました。 最近になって「サイト名」の方も少し調べてみると、作業がそう煩雑でもなかったので、その調査結果を紹介します。 調べる材料は、「最新更新順ブログリスト」で、ここの1ページから最終の30ページまでにリストアップされているサイトのうち、サポーターのジャンルのみを解析対象としてサイト名を読み取ります。 それらのサイト名を1文字ずつ分解して、どの文字が何回使われているかを集計していきます。 データは、2010年10月22日19時頃の1478サイトですが、サイト名は自由に変更することが出来るので、集計結果は時々変わる可能性があります。 途中で困ったのは、全角と半角の違いを一緒に扱うか分けるかで、なるべく全角に統一して集計しました。 他に、半角カタカナの濁音は、子音と濁点とが別々に集計される問題があります。(例えば、「ド」は「ト」と「゙」とに分かれる) でも実際に集計してみると、「ト」は「ド」の10分の1程度の頻度しか使われていないので、半角の「ト」を全角の「ト」に混ぜてしまっても大きな問題は生じません。
下記に、使用頻度の1番目から100番目までの文字を並べてみます。 1位の半角スペースはともかく、予想通り、「コ」「ン」「サ」「ド」「ー」「レ」がトップグループにまとまっています。 「日」と「記」、「赤」と「黒」、「札」と「幌」、「応」と「援」も多いのは当然ですね。 それ以外はどんな具合に文字がつながるのか、よく分かりません。 「北」は38、「海」が16、「道」が36で共に圏外となっています。 順 文字 使用頻度
- (520)←スペース
- サ (485)
- ン (459)
- の (406)
- ー (394)
- コ (385)
- o (295)
- a (219)
- e (218)
- ! (213)
- レ (185)
- O (183)
- ド (179)
- と (173)
- s (161)
- 日 (156)
- i (141)
- A (135)
- n (134)
- い (133)
- r (124)
- S (124)
- l (123)
- ・ (118)
- ロ (113)
- t (112)
- E (110)
- ん (108)
- 記 (108)
- な (107)
- に (106)
- L (105)
- 黒 (103)
- 赤 (103)
- C (100)
- ブ (100)
- り (100)
- グ (99)
- ~ (93)
- ポ (92)
- N (87)
- ☆ (86)
- R (86)
- し (85)
- か (79)
- ま (79)
- 幌 (78)
- c (77)
- d (77)
- 札 (77)
- っ (76)
- ッ (76)
- で (76)
- る (76)
- 1 (75)
- き (72)
- ら (71)
- イ (69)
- タ (69)
- も (69)
- れ (69)
- を (69)
- て (68)
- I (66)
- た (65)
- m (63)
- う (62)
- く (62)
- こ (61)
- フ (61)
- B (59)
- p (59)
- ス (58)
- T (57)
- ( (55)
- ) (54)
- u (54)
- ル (54)
- さ (53)
- ト (53)
- は (53)
- が (52)
- す (52)
- 。 (50)
- F (50)
- ち (50)
- 援 (50)
- カ (49)
- 2 (48)
- ラ (47)
- f (46)
- 応 (44)
- D (43)
- M (42)
- つ (42)
- ★ (41)
- P (41)
- 生 (41)
- お (40)
- よ (40)
・・ならば、自分が投稿した記事のタイトルに使われている文字の使用頻度も調べられるのでは?・・と思い付きましたが、多分調べるまでもなく、"U"、"-"、"1"、"リ"、"ー"、"グ"、"大"、"会"、"戦"、"試"、"合" などが多いのは明らかですから、差し当たっては集計作業を実行するモチベーションが湧きません。
posted by 雁来 萌 |21:44 | ブログシステム | コメント(0) |
スポンサーリンク
スポンサーリンク