ブログ記事の自動分類

ブログ記事の自動分類により消費者意識の側面を捉える試み(PDF)
ブログ記事を分類するために、Yahoo掲示板に投稿された記事をデータとして利用していて、上手い方法だと思った。
掲示板の記事は全部どこかのカテゴリに属しているので、ある単語が使用されている記事が、各カテゴリに属する確率を計算できる。これを利用して、ブログの記事の中で使用されている各単語の情報から、そのブログがどのカテゴリに属するかを決定する。
Yahoo掲示板以外で、同じようなデータとして利用できそうなものはないだろうか?