livedoor クリップ(2)

エントリの中で一番古いものは、2003-10-06。
ldclip_dataset_200812.csvは、2008-09-17までのデータがある。
ldclip_dataset_200906.csvは、2009-03-15までのデータがある。


エントリの総数
200812: 1,572,742件
200906: 2,108,349件


以下は、まともなタグのリストが書かれていない(例: JavaScriptのコードが書かれている)エントリを除く等の処理をして得られた結果。

タグの全種類(ボキャブラリ)
200812: 118,071個
200906: 153,345個


アルファベットの大文字小文字は変換しないでそのままにしている。単語の前に記号が付加されている場合もそのまま。

"+セキュリティ"
"*セキュリティ"


200906のデータで、出現頻度上位50のタグは以下のようになった。

29658, "web"
28748, "yuiseki"
27959, "javascript"
27840, "求人"
27120, "アルバイト"
23620, "ネタ"
22504, "google"
20013, "あとで"
19681, "キャッシング"
19669, "求人広告"
19274, "2ch"
19272, "ローン"
18836, "あとで読む"
18335, "tips"
17407, "まとめ"
15748, "blog"
15660, "CSS"
15216, "審査"
14797, "tool"
14729, "社会"
13919, "金融"
13818, "hatena"
13744, "design"
13545, "news"
13493, "エロ"
13481, "未カテゴリ"
12412, "mobile"
12242, "画像"
11714, "css"
11495, "アダルト"
11434, "ブログ"
11391, "動画"
11129, "ブラック"
10800, "perl"
10661, "software"
10354, "firefox"
10085, "仕事"
10076, "programming"
10076, "Firefox"
10010, "windows"
10004, "Google"
 9899, "価格"
 9593, "clip"
 9390, "融資"
 9388, "neta"
 9358, "カード"
 8859, "デザイン"
 8433, "webサービス"
 8403, "比較"
 8370, "toread"