人々の語彙を調べるサービスを作った

ひとでくんさんという人の日記によると、近年、若者の語彙が貧弱になって、便利とか最高みたいな言葉しか発しなくなっているとのことである。そこで、人々の語彙を調査するウェブサービスを作った。

語彙抽出器
http://vocabulary.id774.net/vocabulary/

「スクリーンネーム」に Twitter の名前を入れて送信すると、その人の語彙がよく使う順に一覧表示される。

たとえば上の日記を書いている hitode909 さんの語彙を調べてみよう。上記サービスのスクリーンネーム欄に hitode909 と入力し送信する。すると彼が使う語彙が一覧表示され、最高または便利という単語のみ赤く強調表示される。よく見ると便利という単語はよく使われているようだが、最高という単語のほうはそれほどでもないようだ。

他の人はどうだろうと今度は fuba という人の語彙を調べてみた。すると最高も便利も 200 回以上使われており上位にランクインしているではないか。このことから fuba という人は若者であるだろうと予測がつくことになる。

他にも自分の Twitter の名前や色んな人の名前を試してみて欲しい。ちなみにこのサービスに登録されているデータは自分の観測範囲であり、観測期間内にインターネット全体に情報を発信していた情報しか対象になっていない。

また調査対象の人の語彙がわかるということは、その人のプロファイリングにも使うことができる。試しに例を挙げてみよう。 kusokuniman と入力して送信してみる。その結果がこれだ。

1
2
3
4
5
6
7
8
9
10
11
家(1496) http(1422) 渋(1398) 日(498) 人(484)
shibuhouse(390) live(325) tomad(282) 時(253)
僕(206) satoketa(186) 今日(184) 何(166) 的(146)
方(144) 自分(142) 月(130) 人間(120) 明日(114)
円(110) 渋谷(101) 時間(100) 演劇(95) 年(93) 今(93)
募集(91) 好き(90) 出演(90) 者(85) 展示(84) 世界(82)
heidikatoh(80) 私(79) amusing(77) aHjPqoz(75)
参加(74) 本日(73) 童貞(72) 気(72) kusokuniman(71)
会(69) 組織(67) 地下(67) 今月(66) 仕事(65)
house(64) 音楽(63) JMYeVD(62) 作品(61) hnnhn(58)
Sugaaaaaaaaaay(57)

渋とか家とか渋谷、 shibuhouse といった単語が上位にランクインしているのでおそらく渋谷の家に関係する人物であると予測できる。 http というのはリンクをツイートした数であろう。また、演劇、地下、募集、出演、展示といった単語も上位にあるので、演劇など芸術に関する人物であるとも言えそうだ。他にも Twitter の名前がちらほら出てきてきているので、それらはこの kusokuniman という人物とリプライや RT をするなど何か関係があるものと想像できる。それらの人々の語彙も調べていけば、彼らが所属している集団についても調べることができそうだ。

このように活用できる。ぜひ試していただきたい。

(10/7) 追記しました。
https://blog.id774.net/entry/2013/10/07/405/