2009年01月25日

久しぶりにデータ取得話

久しぶりに、アイマス動画の集計の話です。

本日、ニコニコ動画データ分析研究発表会というのがありました。私はプライベートな事由で参加できなかったのですが、発表の様子をストリーミング配信してるのを見ていました。
なかなか面白い話も多かったです。

で、私のほうですが、
1つはデータ収集用のマシンが1台ぶっ壊れまして、スペック低いマシンしかなくなってしまったので、分析の負荷をかける余裕がなくなりました。
新しくマシンを組み立てましたので、DBを移行し始めています。

現在DBには、アイドルマスターのタグが付いた動画の情報が「10,302,730レコード」記録されています。
日数として「263日分」です。トラブルがあったりして続けて毎日とれていないところがあったり、一部漏れてたりしています。
データベースサイズは7GBくらいです。

今はタグを分析用のテーブルに格納する作業をしてます。

DBサーバのスペックをかなり上げたので、分析も快適です。

もう1つは、ニコニコ動画のタグ検索が不安定です。
タイムアウトしたり「混雑しています」と出たり、ちゃんと動かなかったので12月中旬からタグ検索結果取得は止めていました。
いまだに不安定なのですが、取得できないページは再トライするようにしたので、先日取得を再開しました。
より負荷をかけることになるので、正直続けるかどうか悩んでいます。
分析用のデータを確保し終えたら、また停止するかもしれません。


今回、取得データに、タグと動画にニコ大百科の記事があるかどうかと、ニコニコモンズの使用状況も、収集対象に追加する予定です。

ニコニコモンズは
http://api.niconicommons.jp/status/nicovideo/smxxx
という、JSONPでデータが返ってくるAPIを使います。
これだと細かい状況は取れないんですけどね。

ニコ大百科のほうはいろいろとAPIが用意されていますが、以下の2つを使用予定です。

http://api.nicodic.jp/e/AAAA/XXXXXXX

eとすると、記事が存在するかを返してくれます。
AAAAとしてるところがJSONPで、値を取得する用の関数名を指定するところ。
XXXXXXXといてるところが、タグ名です。

http://api.nicodic.jp/page.exist/AAAA/v/smXXXXXXX

page.existは記事が存在するかどうかを返します。
AAAAとしてるところがJSONPで、値を取得する用の関数名を指定するところ。
smXXXXXXXは動画IDです。

他にも記事の内容を返すなど、ニコ大百科にはいろいろAPIがあるようです。
posted by てんじゃ at 20:40 | Comment(0) | TrackBack(0) | ニコニコ動画アイマス情報取得
この記事へのコメント
コメントを書く
お名前:

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。
この記事へのトラックバックURL
http://blog.seesaa.jp/tb/113155788
※ブログオーナーが承認したトラックバックのみ表示されます。

この記事へのトラックバック
×

この広告は1年以上新しい記事の投稿がないブログに表示されております。