週刊アイドルマスターランキングの集計支援から撤退する方向で調整することにしました。
集計支援は、毎日朝4時にニコニコ動画のランキングのチェックする手間を省くために始めたものです。
ニコニコ動画のランキング更新は1日1回となり、過去のランキングも自由に確認できるようになりました。
もう時間設定して自動で収集し、メールで送信する意味はなくなりました。
これから、過去ランキングを取得して、一覧化するアプリと指定動画の情報を一覧化するアプリを作成し、オープンソース化してメンテナーを集って、週マス支援は終わりにしようと思います。
特に週マス編集部から撤退について、要望等も出てこないようなのでこの方法で問題なさそうかな?
アプリの開発環境は、C#で.Net Framework 3.0とか、マルチプラットフォームならAdobe AIRとかですかね。
Javaでもいいのですが、利用環境を設定する敷居が高いような気がしてます、ダブルクリックで起動するようにするの大変だし。
取得結果の出力はExcelかTSVですかね。
過去ランキング取得以外では、ニコニコ動画にログインして情報を取得することはしない方針です。
ですので、削除動画の情報は取得しません。
ログインが必要なところは連続アクセス制限がかかってたりするので、取得に何時間もかかったり、いろいろ問題起きたりするので、現状から比較して機能を省略します。
今考えてるのはこんなところです。
2009年02月16日
2009年02月04日
こういうシステムを作って動かしています
私が週刊アイドルマスターランキング制作の支援のために、作り始めたニコニコ動画の動画情報収集システムの構成について、少しずつ説明していこうかと。
現在Ver.2となってます。
Ver.1はニコニコ動画のランキングと指定した動画の情報を収集する、週マス用の機能を基本としたバージョン。
Ver.2ではマイリスト数が表示されるようになって、タグ検索結果を取得できるようになったバージョンです。
ベースとしてPlaggerを使っています。
PlaggerはPerlでできたシステムで、いろいろな情報を取得して、RSS Feed形式にして加工、いろいろな方法で出力できるものです。
プラグインによって、取得する情報、加工方法、出力先を自由にカスタマイズできます。さまざまなプラグインが公開されています。
プラグインは、設定ファイルによって複数の取得、加工、出力プラグインを組み合わせて1つの処理にすることができます。
なぜPlaggerを採用したかというと、一時期、かなり流行っていたので試してみたかったのと、何を取得して、どのように出力するか決まってない中で、どれだけ柔軟に機能拡張できるか?というのを満たしそうなのと、サンプルになりそうなコードが豊富だったためです。

これがシステムの概要図です。
プラグインは八割がた既存のプラグインを修正して使っています。
というのも、RSS Feed用に用意された項目ではニコニコ動画の情報が格納しきれないためです。
再生数などは、独自に拡張する必要がありました。
Perlはスクリプト言語だけあって、後からFeed用のクラスに連想配列のキーを追加しても、プラグインの方さえ値を拾うようになっていれば問題なく動作するため、プラグイン部分のみを開発することでかなり作業を減らすことができました。
たとえば、設定ファイルがどのようになっているかというと
毎日のマイリストランキングを取得する設定は以下となっています。
取得する情報によって設定ファイルを分けています。
定期的に取得するものは、時間指定で指定した設定ファイルでPlaggerが実行されるようになっています。
ニコニコ動画から情報を取得する部分ですが、LWP::RobotUAモジュールを拡張しています。
連続アクセス制限があるページのURLを連続で取得しようとすると、自動でアクセスする間隔が増えるようになっています。
ログインしてる状態で一定回数アクセスすると、別のアカウントでリログインします。
情報のパースは、ページの場合正規表現で抽出しています。正規表現の文字列は別ファイルにしてあります。
XMLのところはLibxml2でXPathを指定して抽出しています。
ランキング取得とタグ検索結果取得は、ページをファイルに落とします。
これは、ページのデザインが変わっていたりして、正しくパースできなかった場合、修正後パース処理からやり直すためです。
一度ダウンロードしておけば、パース処理の修正は後からでも出来ますので。
特にタグ検索結果は取得するページ数が多く、時間がかかるので、いくつかのプログラムに分けて実行されます。
まずは、ざっくり全体の動きなどをメモってみました。
詳細部分については別途。
現在Ver.2となってます。
Ver.1はニコニコ動画のランキングと指定した動画の情報を収集する、週マス用の機能を基本としたバージョン。
Ver.2ではマイリスト数が表示されるようになって、タグ検索結果を取得できるようになったバージョンです。
ベースとしてPlaggerを使っています。
PlaggerはPerlでできたシステムで、いろいろな情報を取得して、RSS Feed形式にして加工、いろいろな方法で出力できるものです。
プラグインによって、取得する情報、加工方法、出力先を自由にカスタマイズできます。さまざまなプラグインが公開されています。
プラグインは、設定ファイルによって複数の取得、加工、出力プラグインを組み合わせて1つの処理にすることができます。
なぜPlaggerを採用したかというと、一時期、かなり流行っていたので試してみたかったのと、何を取得して、どのように出力するか決まってない中で、どれだけ柔軟に機能拡張できるか?というのを満たしそうなのと、サンプルになりそうなコードが豊富だったためです。
これがシステムの概要図です。
プラグインは八割がた既存のプラグインを修正して使っています。
というのも、RSS Feed用に用意された項目ではニコニコ動画の情報が格納しきれないためです。
再生数などは、独自に拡張する必要がありました。
Perlはスクリプト言語だけあって、後からFeed用のクラスに連想配列のキーを追加しても、プラグインの方さえ値を拾うようになっていれば問題なく動作するため、プラグイン部分のみを開発することでかなり作業を減らすことができました。
たとえば、設定ファイルがどのようになっているかというと
毎日のマイリストランキングを取得する設定は以下となっています。
・ランキング取得プラグイン
マイリスト、毎日を指定
・ニコニコ動画情報加工プラグイン(ランキング等で表示されていないタグ等の情報の追加取得)
・Excelランキング形式出力プラグイン
・メール送信プラグイン
・条件動画抽出加工プラグイン
アイドルマスタータグ付き動画抽出指定
・ブログ出力プラグイン
テンプレート指定
・Twitter出力プラグイン
テンプレート指定
取得する情報によって設定ファイルを分けています。
定期的に取得するものは、時間指定で指定した設定ファイルでPlaggerが実行されるようになっています。
ニコニコ動画から情報を取得する部分ですが、LWP::RobotUAモジュールを拡張しています。
連続アクセス制限があるページのURLを連続で取得しようとすると、自動でアクセスする間隔が増えるようになっています。
ログインしてる状態で一定回数アクセスすると、別のアカウントでリログインします。
情報のパースは、ページの場合正規表現で抽出しています。正規表現の文字列は別ファイルにしてあります。
XMLのところはLibxml2でXPathを指定して抽出しています。
ランキング取得とタグ検索結果取得は、ページをファイルに落とします。
これは、ページのデザインが変わっていたりして、正しくパースできなかった場合、修正後パース処理からやり直すためです。
一度ダウンロードしておけば、パース処理の修正は後からでも出来ますので。
特にタグ検索結果は取得するページ数が多く、時間がかかるので、いくつかのプログラムに分けて実行されます。
- タグ検索結果全ページダウンロード
- パース処理をして、DBに登録
- DBからデータを呼び出して、タグ等の情報を別途取得、DB登録
まずは、ざっくり全体の動きなどをメモってみました。
詳細部分については別途。
2009年01月25日
久しぶりにデータ取得話
久しぶりに、アイマス動画の集計の話です。
本日、ニコニコ動画データ分析研究発表会というのがありました。私はプライベートな事由で参加できなかったのですが、発表の様子をストリーミング配信してるのを見ていました。
なかなか面白い話も多かったです。
で、私のほうですが、
1つはデータ収集用のマシンが1台ぶっ壊れまして、スペック低いマシンしかなくなってしまったので、分析の負荷をかける余裕がなくなりました。
新しくマシンを組み立てましたので、DBを移行し始めています。
現在DBには、アイドルマスターのタグが付いた動画の情報が「10,302,730レコード」記録されています。
日数として「263日分」です。トラブルがあったりして続けて毎日とれていないところがあったり、一部漏れてたりしています。
データベースサイズは7GBくらいです。
今はタグを分析用のテーブルに格納する作業をしてます。
DBサーバのスペックをかなり上げたので、分析も快適です。
もう1つは、ニコニコ動画のタグ検索が不安定です。
タイムアウトしたり「混雑しています」と出たり、ちゃんと動かなかったので12月中旬からタグ検索結果取得は止めていました。
いまだに不安定なのですが、取得できないページは再トライするようにしたので、先日取得を再開しました。
より負荷をかけることになるので、正直続けるかどうか悩んでいます。
分析用のデータを確保し終えたら、また停止するかもしれません。
今回、取得データに、タグと動画にニコ大百科の記事があるかどうかと、ニコニコモンズの使用状況も、収集対象に追加する予定です。
ニコニコモンズは
http://api.niconicommons.jp/status/nicovideo/smxxx
という、JSONPでデータが返ってくるAPIを使います。
これだと細かい状況は取れないんですけどね。
ニコ大百科のほうはいろいろとAPIが用意されていますが、以下の2つを使用予定です。
http://api.nicodic.jp/e/AAAA/XXXXXXX
eとすると、記事が存在するかを返してくれます。
AAAAとしてるところがJSONPで、値を取得する用の関数名を指定するところ。
XXXXXXXといてるところが、タグ名です。
http://api.nicodic.jp/page.exist/AAAA/v/smXXXXXXX
page.existは記事が存在するかどうかを返します。
AAAAとしてるところがJSONPで、値を取得する用の関数名を指定するところ。
smXXXXXXXは動画IDです。
他にも記事の内容を返すなど、ニコ大百科にはいろいろAPIがあるようです。
本日、ニコニコ動画データ分析研究発表会というのがありました。私はプライベートな事由で参加できなかったのですが、発表の様子をストリーミング配信してるのを見ていました。
なかなか面白い話も多かったです。
で、私のほうですが、
1つはデータ収集用のマシンが1台ぶっ壊れまして、スペック低いマシンしかなくなってしまったので、分析の負荷をかける余裕がなくなりました。
新しくマシンを組み立てましたので、DBを移行し始めています。
現在DBには、アイドルマスターのタグが付いた動画の情報が「10,302,730レコード」記録されています。
日数として「263日分」です。トラブルがあったりして続けて毎日とれていないところがあったり、一部漏れてたりしています。
データベースサイズは7GBくらいです。
今はタグを分析用のテーブルに格納する作業をしてます。
DBサーバのスペックをかなり上げたので、分析も快適です。
もう1つは、ニコニコ動画のタグ検索が不安定です。
タイムアウトしたり「混雑しています」と出たり、ちゃんと動かなかったので12月中旬からタグ検索結果取得は止めていました。
いまだに不安定なのですが、取得できないページは再トライするようにしたので、先日取得を再開しました。
より負荷をかけることになるので、正直続けるかどうか悩んでいます。
分析用のデータを確保し終えたら、また停止するかもしれません。
今回、取得データに、タグと動画にニコ大百科の記事があるかどうかと、ニコニコモンズの使用状況も、収集対象に追加する予定です。
ニコニコモンズは
http://api.niconicommons.jp/status/nicovideo/smxxx
という、JSONPでデータが返ってくるAPIを使います。
これだと細かい状況は取れないんですけどね。
ニコ大百科のほうはいろいろとAPIが用意されていますが、以下の2つを使用予定です。
http://api.nicodic.jp/e/AAAA/XXXXXXX
eとすると、記事が存在するかを返してくれます。
AAAAとしてるところがJSONPで、値を取得する用の関数名を指定するところ。
XXXXXXXといてるところが、タグ名です。
http://api.nicodic.jp/page.exist/AAAA/v/smXXXXXXX
page.existは記事が存在するかどうかを返します。
AAAAとしてるところがJSONPで、値を取得する用の関数名を指定するところ。
smXXXXXXXは動画IDです。
他にも記事の内容を返すなど、ニコ大百科にはいろいろAPIがあるようです。
タグ:ニコニコ動画情報取得
2008年10月01日
ランキング取得修正
ランキング部分は修正完了。
仕事の合間に適当に時間見つけて。
HTMLタグのみちょこちょこ変更されてる。
機能で増えたのは、マイリスト数にリンクが追加された。
タグの検索結果のページは、4段になっても表示する動画数は変わらないね。
こちらも解析用のHTMLタグの設定だけ変えればよさそう。
視聴ページも変わってるけど、テスト取得結果見ると影響なさそうだ。
削除動画を取得に行った場合、getthumbinfoではなにも取得できないので、こっちで値取得するようにしてるので、変更されると影響でるのだけど。
今晩中に修正できるでしょう。
仕事の合間に適当に時間見つけて。
HTMLタグのみちょこちょこ変更されてる。
機能で増えたのは、マイリスト数にリンクが追加された。
タグの検索結果のページは、4段になっても表示する動画数は変わらないね。
こちらも解析用のHTMLタグの設定だけ変えればよさそう。
視聴ページも変わってるけど、テスト取得結果見ると影響なさそうだ。
削除動画を取得に行った場合、getthumbinfoではなにも取得できないので、こっちで値取得するようにしてるので、変更されると影響でるのだけど。
今晩中に修正できるでしょう。
秋
ニコニコ動画の変更内容発表されました。
今回はデザインの変更がメインのようです。
動画視聴ページと検索結果ページに大きな変更があるとのこと。
動画の視聴ページは説明部分が開閉式になると。
より説明を読んでくれなくなるかも。
検索結果ページは4段に出来るようになる。
情報取得ではありがたいですね。読み込むページ数が少なくなるから。
朝までに修正間に合わないかも
今回はデザインの変更がメインのようです。
動画視聴ページと検索結果ページに大きな変更があるとのこと。
動画の視聴ページは説明部分が開閉式になると。
より説明を読んでくれなくなるかも。
検索結果ページは4段に出来るようになる。
情報取得ではありがたいですね。読み込むページ数が少なくなるから。
朝までに修正間に合わないかも
2008年08月30日
情報取得3.0へ向けて
壊れた環境を、週マス取得用マシンに再構築しました。
壊れた方は新たに仮想マシンを構築、DBを再設定中。
同時にプログラムの方も少し最適化。しかし、一番時間かかるのは通信部分なので劇的に早くなったりはしない。
というわけで、システムを再構築を考え中。
大量の項目を扱うのに向いていないPlagger環境をやめて、1から構築する予定。
どの機能が必要かはめどがついたので。
細かく改修するだろうから言語はスクリプト言語で、ネットワーク関係のライブラリが豊富、マルチスレッド対応とことからPythonの予定。
Rubyとかもあるのだが、マルチスレッドの扱いが悪いようだし。フレームワークを使わないので。
PythonならGoogle App Engineにもコードが流用できそう。
話変わって。
新たにニコニコ動画にアップしました。
あえて目立たないようにしているので、このまま埋もれさせる予定。
ffmpegという動画変換ソフトとPhotoshop CS3とVideoStudio12のみ使用です。
数日後にどうやって作ったか記事書きますので、作り方予測してみてください。
壊れた方は新たに仮想マシンを構築、DBを再設定中。
同時にプログラムの方も少し最適化。しかし、一番時間かかるのは通信部分なので劇的に早くなったりはしない。
というわけで、システムを再構築を考え中。
大量の項目を扱うのに向いていないPlagger環境をやめて、1から構築する予定。
どの機能が必要かはめどがついたので。
細かく改修するだろうから言語はスクリプト言語で、ネットワーク関係のライブラリが豊富、マルチスレッド対応とことからPythonの予定。
Rubyとかもあるのだが、マルチスレッドの扱いが悪いようだし。フレームワークを使わないので。
PythonならGoogle App Engineにもコードが流用できそう。
話変わって。
新たにニコニコ動画にアップしました。
あえて目立たないようにしているので、このまま埋もれさせる予定。
ffmpegという動画変換ソフトとPhotoshop CS3とVideoStudio12のみ使用です。
数日後にどうやって作ったか記事書きますので、作り方予測してみてください。
2008年08月21日
環境壊れた
VMWareのイメージが壊れたよ。
これはNICOM@S STYLEとタグ検索結果を取得するプログラムが動いてたのですが、ディスク内のファイルがあちこちアクセスできなくなった。
週マスの取得用は別マシンで動作しているのだが、新着一覧はこっちのマシンでテスト中、ならびにDBが必要なのでちょっとピンチ。
今回は実験で使ってたWindows上の仮想マシンのディスクイメージがいかれたようです。
ディスク自体が物理的に壊れてなければいいが....
他のサーバーにDBを設定中。
とりあえずテーブル定義だけ移動できれば、動作はするようになるだろうし。今晩中には何とかなるか。
あと、以前から環境をAmazon EC2に構築中。
こっちも取得することはできるようにしたが、DBをどうしようか検討してます。データ揮発するしなぁ。
Large Instanceを選択するから高くつくんだけど毎日2時間動作で済むなら、それでもいいかな。
インメモリDBにぶち込んで終了時に書きだしするように考えていますが、データ取得時間がかかりすぎて。
最近KeepAliveを利用して高速化しようとしたけど効果確認する前にマシンの調子おかしくなったし。
アクセスの並列化かな?負荷かけることになるけど。
この収集プログラムもともと1000件程度を取得する構想で作ってるから、全件取得とかするとメモリを馬鹿喰いするのだよね。
で、作り直しをしようと思ってる。
どういう構想でいるかは、また今度。
これはNICOM@S STYLEとタグ検索結果を取得するプログラムが動いてたのですが、ディスク内のファイルがあちこちアクセスできなくなった。
週マスの取得用は別マシンで動作しているのだが、新着一覧はこっちのマシンでテスト中、ならびにDBが必要なのでちょっとピンチ。
今回は実験で使ってたWindows上の仮想マシンのディスクイメージがいかれたようです。
ディスク自体が物理的に壊れてなければいいが....
他のサーバーにDBを設定中。
とりあえずテーブル定義だけ移動できれば、動作はするようになるだろうし。今晩中には何とかなるか。
あと、以前から環境をAmazon EC2に構築中。
こっちも取得することはできるようにしたが、DBをどうしようか検討してます。データ揮発するしなぁ。
Large Instanceを選択するから高くつくんだけど毎日2時間動作で済むなら、それでもいいかな。
インメモリDBにぶち込んで終了時に書きだしするように考えていますが、データ取得時間がかかりすぎて。
最近KeepAliveを利用して高速化しようとしたけど効果確認する前にマシンの調子おかしくなったし。
アクセスの並列化かな?負荷かけることになるけど。
この収集プログラムもともと1000件程度を取得する構想で作ってるから、全件取得とかするとメモリを馬鹿喰いするのだよね。
で、作り直しをしようと思ってる。
どういう構想でいるかは、また今度。
2008年08月09日
週マスへの新しい提供データ
アイマス全件取得
とある時間にタグ検索のページの結果をダウンロードしてます。1時間30分くらいかかります。
その後、ダウンロードした内容から必要な項目を抽出してDBに登録しています。
さらに、今度は検索結果からわからないタグ情報などを取得してDBを更新します。こちらは4時間くらいかかります。
2月末からのデータを取得開始して、6月中旬から7月中旬まで停止してましたが、現在、420万レコードで3.5GBのデータサイズがあります。
新しい週マス用のプログラムは、その日取得したデータから、今週の投稿動画で、特定のポイントを超えたものを一覧化して、送付しています。
週マスでは、日々のランキングデータの他に、確認する動画一覧を登録してもらい、その動画の詳細データを送付してます。
動画の詳細情報取得を週マス用のプログラムの為に時間ずらしたら、7:00位にgetthumbinfoがエラーを返して停止するようになってしまいました。
動いてないのを確認したら手動で起動してたのですが、もう少し調整が要りますね。
今週の新着動画ポイント計算はタグ検索の結果のページのデータから確認できるので、詳細情報を取得する前にデータ生成して送付するよう調整します。
今週はまだランキングが変わって時間がないので、万全じゃないです。
このプログラム自体はだいぶ前に作ってありました。
ニコニコランキングに頼らないアイドルマスターランキングの作成と、除外の事前判定用に最終集計前にランキング圏内の動画を事前報告するために用意したものです。
とある時間にタグ検索のページの結果をダウンロードしてます。1時間30分くらいかかります。
その後、ダウンロードした内容から必要な項目を抽出してDBに登録しています。
さらに、今度は検索結果からわからないタグ情報などを取得してDBを更新します。こちらは4時間くらいかかります。
2月末からのデータを取得開始して、6月中旬から7月中旬まで停止してましたが、現在、420万レコードで3.5GBのデータサイズがあります。
新しい週マス用のプログラムは、その日取得したデータから、今週の投稿動画で、特定のポイントを超えたものを一覧化して、送付しています。
週マスでは、日々のランキングデータの他に、確認する動画一覧を登録してもらい、その動画の詳細データを送付してます。
動画の詳細情報取得を週マス用のプログラムの為に時間ずらしたら、7:00位にgetthumbinfoがエラーを返して停止するようになってしまいました。
動いてないのを確認したら手動で起動してたのですが、もう少し調整が要りますね。
今週の新着動画ポイント計算はタグ検索の結果のページのデータから確認できるので、詳細情報を取得する前にデータ生成して送付するよう調整します。
今週はまだランキングが変わって時間がないので、万全じゃないです。
このプログラム自体はだいぶ前に作ってありました。
ニコニコランキングに頼らないアイドルマスターランキングの作成と、除外の事前判定用に最終集計前にランキング圏内の動画を事前報告するために用意したものです。
2008年08月04日
続・ニコニコランキング仕様変更
週マスの集計対象をニコニコランキング掲載だけではなく、タグ検索結果からも抽出する方向で調整する話になりつつあります。
プログラムは、だいぶ前に作ってあるものを使用予定。
ただ、これはDBにデータを格納する方式なのでバックアップシステムが用意できるのかどうかが問題です。
ニコニコランキングに「1時間ごとのランキング」が増える予定のようです。
「1時間ごとに集計をリセットします」というので
従来の形式が復活するのか、1時間の状態の集計なのかわからないですね。
データ集計には意味がなさそうですが。
プログラムは、だいぶ前に作ってあるものを使用予定。
ただ、これはDBにデータを格納する方式なのでバックアップシステムが用意できるのかどうかが問題です。
ニコニコランキングに「1時間ごとのランキング」が増える予定のようです。
「1時間ごとに集計をリセットします」というので
従来の形式が復活するのか、1時間の状態の集計なのかわからないですね。
データ集計には意味がなさそうですが。
タグ:ニコニコ動画
2008年08月02日
ニコニコランキングの集計時間
ニコニコランキングの集計時間が変わりましたね。
更新がデイリー、合計が1日1回、週間が月曜日、月間が毎月1日のみになりました。
新着は無くなりましたね。
これで投稿時間帯の優位性の神話は崩壊かな。
5時の集計だけど、その後にアップしてもランキングは更新されないので、載るとしたら次の日の6時以降ですな。
私の方のランキング取得のプログラムは改修しましたけど。
問題は週刊アイドルマスターランキングですな。
完全な集計方法は把握してないのですが、
今までは4時時点の情報を取ってるし、
基本はニコニコランキングに掲載された作品が集計対象なので、〆日の金曜に週間や月間のデータを取っていたのですが、毎日更新されないのでは参考情報になりませんね。
デイリー取れれば問題ないのかな?新着なくなったから対象作品減りそうですな。
更新がデイリー、合計が1日1回、週間が月曜日、月間が毎月1日のみになりました。
新着は無くなりましたね。
これで投稿時間帯の優位性の神話は崩壊かな。
5時の集計だけど、その後にアップしてもランキングは更新されないので、載るとしたら次の日の6時以降ですな。
私の方のランキング取得のプログラムは改修しましたけど。
問題は週刊アイドルマスターランキングですな。
完全な集計方法は把握してないのですが、
今までは4時時点の情報を取ってるし、
基本はニコニコランキングに掲載された作品が集計対象なので、〆日の金曜に週間や月間のデータを取っていたのですが、毎日更新されないのでは参考情報になりませんね。
デイリー取れれば問題ないのかな?新着なくなったから対象作品減りそうですな。
タグ:ニコニコ動画
2008年07月25日
getthumbinfoの仕様変更への対応に手間取る
http://www.nicovideo.jp/api/getthumbinfo/smxxxxx
で取得できる情報の仕様が変更になってます。
・タグが各言語で登録されてるものが取得可能
・タグがロックされてるものが取得可能
今使ってるPerlのXPathライブラリは属性を条件指定できないので、少し手順を考えなきゃならん。
取得したデータ構造も考えないと、DBもカラム変更だな。
結構な改修になるな
で取得できる情報の仕様が変更になってます。
・タグが各言語で登録されてるものが取得可能
・タグがロックされてるものが取得可能
今使ってるPerlのXPathライブラリは属性を条件指定できないので、少し手順を考えなきゃならん。
取得したデータ構造も考えないと、DBもカラム変更だな。
結構な改修になるな
2008年03月24日
getthumbinfoが不安定
getthumbinfoのアドレスから取得するタグ情報が不安定です。
タグに関する情報が入ってないときあるんですよね。
エラー表示ならまだしも、タグが付いてない時と区別がつかない。
様子見てるとコメントが更新されると出ないのかなぁ?
これは使えないなぁ。
うちのデータはアイドルマスタータグが付いてるかどうかが重要なんで、これでは駄目だな。
thumbページ代りに取得するけど、結局watchページも見なきゃならんな。
[追記
アクセスするたびに再生数が増えたり減ったりするなぁ。
飛ばされるキャシュサーバで数字違うのかな?
]
getthumbinfoのみ取得でプログラム作ってたけど変更しよう。
テスト稼動は延期だな。
取得する情報のパターン増やすつもりなので、プロクシサーバーを準備中。
1時間か30分キャッシュする予定。
これでアクセス回数が少し減るでしょ。
タグに関する情報が入ってないときあるんですよね。
エラー表示ならまだしも、タグが付いてない時と区別がつかない。
様子見てるとコメントが更新されると出ないのかなぁ?
これは使えないなぁ。
うちのデータはアイドルマスタータグが付いてるかどうかが重要なんで、これでは駄目だな。
thumbページ代りに取得するけど、結局watchページも見なきゃならんな。
[追記
アクセスするたびに再生数が増えたり減ったりするなぁ。
飛ばされるキャシュサーバで数字違うのかな?
]
getthumbinfoのみ取得でプログラム作ってたけど変更しよう。
テスト稼動は延期だな。
取得する情報のパターン増やすつもりなので、プロクシサーバーを準備中。
1時間か30分キャッシュする予定。
これでアクセス回数が少し減るでしょ。
タグ:ニコニコ動画
2008年03月18日
なかかなか進みませんなぁ
いろいろな機能を同時開発してるので、なかなか進みません。
ランキングデータの生成を試してるのですが、タグ検索結果ベースだと先週のデータにアイドルマスタータグがついてなくて困るものが多いですね。
投稿してからタグが付くまで時間がかかったり、一時的にタグがなかったり。
一時的にアイマスタグがなくなるのは集計上痛いですね。先週の正確なデータが無いですから。
それも結構な数があります。3月第2週分で452個。
タグ消えた分には別途取得し直しかな?
正確な数字を出すにはかなり複雑な仕組みが必要だ。
一度でもアイマスタグ付いた動画を追跡するのはやだなぁ。
この問題はアイディア出るまでペンディング。
getthumbinfoですが、たまに応答してくれません。
応答してくれれないタイミングとか動画に一定性はないので、単に不具合か。
パフォーマンスのチューニングか、データ更新タイミングでアクセスすると止まるとかかな?
うちのシステムはPlaggerベースで作ってるのです。
Plaggerは基本はRSSを取得して、何かに変換して書き出すとか、HTMLからRSSを書き出すとかですが、いろんなことができます。
今作ってあるのはこんなのかな
・ニコニコランキング取得プラグイン
・タグ検索結果取得プラグイン
・動画情報取得プラグイン
・したらば投稿プラグイン
・DB書き出しプラグイン
・DB読み込みプラグイン
・リストExcel書き出しプラグイン(*
・Excel付メール送信プラグイン(*
*は既存のプラグインの改造
他にもあるけど既存のプラグインで実現可能なのに気付かなかったものだね。車輪の再開発しちゃった。
車輪の再開発嫌いなんだけどなぁ。
まぁ、既存のプラグインを組み合わせると、テキストファイルや、HTMLファイル、マイリストのRSS、新着一覧のRSSといろんな物から動画ID取り出しで、動画の情報取得することができます。
書き出しも、RSSとかメールとかHTMLとかFTPとかブログとかIRCとかExcel、csv、何でもできます。
設定ファイルを書くだけで、入力と出力の組み合わせは自在ですね。
設定ファイルに再生数とかマイリスト登録数で条件つけて絞り込むことも可能。
新テスト環境の構築がだいたい終わり。MySQLのサーバーチューニングもしたし。
定期的に動かしてるプログラムをこっち環境に移しますか。
ランキングデータの生成を試してるのですが、タグ検索結果ベースだと先週のデータにアイドルマスタータグがついてなくて困るものが多いですね。
投稿してからタグが付くまで時間がかかったり、一時的にタグがなかったり。
一時的にアイマスタグがなくなるのは集計上痛いですね。先週の正確なデータが無いですから。
それも結構な数があります。3月第2週分で452個。
タグ消えた分には別途取得し直しかな?
正確な数字を出すにはかなり複雑な仕組みが必要だ。
一度でもアイマスタグ付いた動画を追跡するのはやだなぁ。
この問題はアイディア出るまでペンディング。
getthumbinfoですが、たまに応答してくれません。
応答してくれれないタイミングとか動画に一定性はないので、単に不具合か。
パフォーマンスのチューニングか、データ更新タイミングでアクセスすると止まるとかかな?
うちのシステムはPlaggerベースで作ってるのです。
Plaggerは基本はRSSを取得して、何かに変換して書き出すとか、HTMLからRSSを書き出すとかですが、いろんなことができます。
今作ってあるのはこんなのかな
・ニコニコランキング取得プラグイン
・タグ検索結果取得プラグイン
・動画情報取得プラグイン
・したらば投稿プラグイン
・DB書き出しプラグイン
・DB読み込みプラグイン
・リストExcel書き出しプラグイン(*
・Excel付メール送信プラグイン(*
*は既存のプラグインの改造
他にもあるけど既存のプラグインで実現可能なのに気付かなかったものだね。車輪の再開発しちゃった。
車輪の再開発嫌いなんだけどなぁ。
まぁ、既存のプラグインを組み合わせると、テキストファイルや、HTMLファイル、マイリストのRSS、新着一覧のRSSといろんな物から動画ID取り出しで、動画の情報取得することができます。
書き出しも、RSSとかメールとかHTMLとかFTPとかブログとかIRCとかExcel、csv、何でもできます。
設定ファイルを書くだけで、入力と出力の組み合わせは自在ですね。
設定ファイルに再生数とかマイリスト登録数で条件つけて絞り込むことも可能。
新テスト環境の構築がだいたい終わり。MySQLのサーバーチューニングもしたし。
定期的に動かしてるプログラムをこっち環境に移しますか。
2008年03月05日
SP1での変更
http://www.nicovideo.jp/api/getthumbinfo/[動画ID]にタグ情報が含まれるようになりましたね。
これでアクセス回数減らせるな。
いくつかのブログにニコニコプレイヤーが貼り付けられるようになりましたね。
どうもニコニコのWebAPIの結果がFLASHプレーヤーの貼り付けるタグとなって返ってくるようですが、参照元チェックしてるみたい。
貼り付けられたHTMLをざっとチェックしたがプレイヤーキーというのがあるんだよな、これって各サイト毎かなぁ?
これでアクセス回数減らせるな。
いくつかのブログにニコニコプレイヤーが貼り付けられるようになりましたね。
どうもニコニコのWebAPIの結果がFLASHプレーヤーの貼り付けるタグとなって返ってくるようですが、参照元チェックしてるみたい。
貼り付けられたHTMLをざっとチェックしたがプレイヤーキーというのがあるんだよな、これって各サイト毎かなぁ?
タグ:ニコニコ動画
2008年01月19日
マイリスト登録数取得
ニコニコ動画のプレーヤが機能アップしてますね。
マイリスト登録数がリアルタイムに変わります。
コメントを送ってくれるサーバからのデータにマイリスト登録数が追加されました。
このAPIはアクセス制限無いから大量取得には良いかな。
追記:
やっぱりアクセス制限がorz
4回目でこけるということは、いつもの計算式か。
マイリスト登録数がリアルタイムに変わります。
コメントを送ってくれるサーバからのデータにマイリスト登録数が追加されました。
このAPIはアクセス制限無いから大量取得には良いかな。
追記:
やっぱりアクセス制限がorz
4回目でこけるということは、いつもの計算式か。
タグ:ニコニコ動画
2007年12月29日
マイリスト登録数
ニコニコ動画にマイリスト登録数の表示が増えましたね。
今のところ、視聴ページと検索結果での表示のようです。
視聴ページにはFLASHに渡すためのマイリスト登録数が書き込まれてますね。
ということは、リアルタイム更新ではないです。
メッセージサーバーとマイリスト管理サーバは別マシンですからね。
しかし、ここに書き込まれると集計用に連続アクセスするとアクセス規制にかかって、取得できないのだよな。
アカウントローテーションの仕組みを考えないと駄目か?
取得部分のプログラムはもう組んだけど…。
タグ検索の結果を取得するプログラムの方にもマイリスト数を取得する機能を追加。
しかし、5%ぐらい値の取得に失敗すのは何でだろ。
明日にでももう少し調査か。
ランキングをDBに入れるプログラムが完成してるけど動かしてないや。
週マス以外にもデータの出荷先を調整中です。
あー、ニコニコ動画の中の仕組みについて、WEB+DB PRESS Vol.42に特集が組まれてました。
アーキテクチャについてかなりのページを費やして詳しくかかれてます。
今のところ、視聴ページと検索結果での表示のようです。
視聴ページにはFLASHに渡すためのマイリスト登録数が書き込まれてますね。
ということは、リアルタイム更新ではないです。
メッセージサーバーとマイリスト管理サーバは別マシンですからね。
しかし、ここに書き込まれると集計用に連続アクセスするとアクセス規制にかかって、取得できないのだよな。
アカウントローテーションの仕組みを考えないと駄目か?
取得部分のプログラムはもう組んだけど…。
タグ検索の結果を取得するプログラムの方にもマイリスト数を取得する機能を追加。
しかし、5%ぐらい値の取得に失敗すのは何でだろ。
明日にでももう少し調査か。
ランキングをDBに入れるプログラムが完成してるけど動かしてないや。
週マス以外にもデータの出荷先を調整中です。
あー、ニコニコ動画の中の仕組みについて、WEB+DB PRESS Vol.42に特集が組まれてました。
アーキテクチャについてかなりのページを費やして詳しくかかれてます。
2007年11月12日
全自動桃月Pの作成メモ
記事タイトルヒドイな
えー、パンヤでTASを行なう方法ですが...
って、違うだろ、オイ。
週刊アイマスランキングをどこまで自動化できるかです。
ポイント計算や順位は自動化できるでしょう。
除外の判定は無理ですが。
できるなら、論文に書いて、製品としても出す。
最初につまずくのはP名の抽出。
合作とか、企画とかわからん。
ありすえPと、綺麗なありすえPとかあるし。
M@SHUPとかOPとか、Pタグか判断に困るよ、機械だと。
動画のダウンロードと変換はOK。
動画の切り貼りはできる。
ffmpegとかmencoderで。
テロップをうまく入れる方法が見つからない。
そういう画像なら作れるのだが、動画と合成する方法がないなぁ。
一度、フレームを全部画像にするとかはいや過ぎるし。
コマンドで合成できるツールないかなぁ。
字幕入れるソフトってカラフルにできるのか?詳しく知らないのだが。
えー、パンヤでTASを行なう方法ですが...
って、違うだろ、オイ。
週刊アイマスランキングをどこまで自動化できるかです。
ポイント計算や順位は自動化できるでしょう。
除外の判定は無理ですが。
できるなら、論文に書いて、製品としても出す。
最初につまずくのはP名の抽出。
合作とか、企画とかわからん。
ありすえPと、綺麗なありすえPとかあるし。
M@SHUPとかOPとか、Pタグか判断に困るよ、機械だと。
動画のダウンロードと変換はOK。
動画の切り貼りはできる。
ffmpegとかmencoderで。
テロップをうまく入れる方法が見つからない。
そういう画像なら作れるのだが、動画と合成する方法がないなぁ。
一度、フレームを全部画像にするとかはいや過ぎるし。
コマンドで合成できるツールないかなぁ。
字幕入れるソフトってカラフルにできるのか?詳しく知らないのだが。
タグ:ニコニコ動画
週マスについて
週末は出かけていて、PCから離れていたのですがニコマスではいろいろ話題があったようですね。
事前に話を聞いたことが多かったので、驚きはないですが。
まぁ、このBlogは週刊アイドルマスターランキング支援の話が多いのでそれについて。
除外の定義は難しいね。
桃月Pのようにランキングに面白さと、公正さのバランスを取るのは、特に。
データを目的とするならなんでもぶち込めばいいのだけど。
アイドルマスタータグのみの基準って、つらいよ。
TV、ラジオ、CDのまる上げがランキングの上位に長期にいたらどうするかな?ニコニコランキングで問題に上がってたね。
ランキング支援を続けるかどうかですが。
正直どうしましょ。
データ収集プログラムは動かし続けますよ。
支援するかは、ランキング製作者の考え方しだいかな?
まずは、手で集計する気負いがあるのかどうか?
収集用PCがトラブルことだってあるし、ニコニコのデザインが変わって、取得できなくなってもすぐに対応できるかわからないしね。
あと、私は集計担当者になるつもりはないよ。あくまで支援しかしません。
そして、楽しんでランキングを作れる人希望。
週マスって看板を守るためだけなら、やめた方がいいと思うぞ。
週マスが出来るまで 〜週刊アイドルマスターランキング作業工程〜
見ました。
いや、俺の名前、コメントとかに出すぎだろ。どんだけww
作業工程見て、集計手順やっと理解したわw
Excelの見方もやっとわかったw
コメントでほめられてるが、ニコニコランキングをExcelに転写してるだけだからなぁ。たいしたことはしてない。
提供してるデータは桃月P用だから、他の人には使いづらいだろ。
桃月Pは集計用テンプレート持ってるだろうし、週マス以外(特集とか)に使いそうだから、この段階の集計で作業止めてました。
ポイントと順位出しまでこちらでVerUpの作業をする予定。
12月までに間に合うかは知らない。
アイマス全動画チェックに手を出そうかと環境を整えていたが、先にランキング用を仕上げるか。
事前に話を聞いたことが多かったので、驚きはないですが。
まぁ、このBlogは週刊アイドルマスターランキング支援の話が多いのでそれについて。
除外の定義は難しいね。
桃月Pのようにランキングに面白さと、公正さのバランスを取るのは、特に。
データを目的とするならなんでもぶち込めばいいのだけど。
アイドルマスタータグのみの基準って、つらいよ。
TV、ラジオ、CDのまる上げがランキングの上位に長期にいたらどうするかな?ニコニコランキングで問題に上がってたね。
ランキング支援を続けるかどうかですが。
正直どうしましょ。
データ収集プログラムは動かし続けますよ。
支援するかは、ランキング製作者の考え方しだいかな?
まずは、手で集計する気負いがあるのかどうか?
収集用PCがトラブルことだってあるし、ニコニコのデザインが変わって、取得できなくなってもすぐに対応できるかわからないしね。
あと、私は集計担当者になるつもりはないよ。あくまで支援しかしません。
そして、楽しんでランキングを作れる人希望。
週マスって看板を守るためだけなら、やめた方がいいと思うぞ。
週マスが出来るまで 〜週刊アイドルマスターランキング作業工程〜
見ました。
いや、俺の名前、コメントとかに出すぎだろ。どんだけww
作業工程見て、集計手順やっと理解したわw
Excelの見方もやっとわかったw
コメントでほめられてるが、ニコニコランキングをExcelに転写してるだけだからなぁ。たいしたことはしてない。
提供してるデータは桃月P用だから、他の人には使いづらいだろ。
桃月Pは集計用テンプレート持ってるだろうし、週マス以外(特集とか)に使いそうだから、この段階の集計で作業止めてました。
ポイントと順位出しまでこちらでVerUpの作業をする予定。
12月までに間に合うかは知らない。
アイマス全動画チェックに手を出そうかと環境を整えていたが、先にランキング用を仕上げるか。
タグ:ニコニコ動画
2007年09月29日
そのパターンは考えてなかった
ランキング集計プログラムもちょこちょことデバッグして、安定動作してきたなぁ。
それで次のプログラムに手をつけていたのだが。
何だ、この収集結果の動画。削除になってるが、削除理由を拾ってきてないなぁ。
げ、非表示設定!!
これは想定外、再生数を稼いで非表示設定にしたのか。
非表示設定付いたのは知ってたが、こんなとこに影響出るとは思わんかった。
集計プログラムに特例パターン入れるか。
これ使うと収集時のランキングにだけ、出さないことできるのか。
まぁ、そんなことする人いないか。
前回のファイルが壊れていますバグはWriteExcelってモジュールの理解が足りなかったため。
デフォルトの書き込みメソッドは先頭の文字に見てURL書式か文字書式か数値書式か判断してるので、説明欄に先頭からURLはいってるとURL書式に判断され、途中で日本語入っておかしくなってた。
書き込みメソッドを違うのにして解決。
ランキング圏外でチェックしてる動画用に収集プログラムを作ったのですが、桃月Pの動画チェックリストをどう取得するか決めてなかった。
リストファイル編集/アップは他の人のCGIを拾ってくるか。
それで次のプログラムに手をつけていたのだが。
何だ、この収集結果の動画。削除になってるが、削除理由を拾ってきてないなぁ。
げ、非表示設定!!
これは想定外、再生数を稼いで非表示設定にしたのか。
非表示設定付いたのは知ってたが、こんなとこに影響出るとは思わんかった。
集計プログラムに特例パターン入れるか。
これ使うと収集時のランキングにだけ、出さないことできるのか。
まぁ、そんなことする人いないか。
前回のファイルが壊れていますバグはWriteExcelってモジュールの理解が足りなかったため。
デフォルトの書き込みメソッドは先頭の文字に見てURL書式か文字書式か数値書式か判断してるので、説明欄に先頭からURLはいってるとURL書式に判断され、途中で日本語入っておかしくなってた。
書き込みメソッドを違うのにして解決。
ランキング圏外でチェックしてる動画用に収集プログラムを作ったのですが、桃月Pの動画チェックリストをどう取得するか決めてなかった。
リストファイル編集/アップは他の人のCGIを拾ってくるか。
タグ:ニコニコ動画
2007年09月18日
時間あいちゃいましたが
ランキング収集は順調に動作し始めました。
4時台に自動で作動して収集してきます。
桃月P宛にもメールで配信しています。今週から週間アイマスランキング用のデータに使ってくれるみたいです。
不具合ですが、ときたま収集結果のExeclを開くときにファイルが壊れていますといわれ、修復されると動画ページへのリンクだけが消えてるんだよな。何か特殊な文字が反応してるんだと思うんだが、たまにしかならないので特定が出来てません。
最近の修正は&とか<>とかが&とかになっていたので&に戻すように修正しました。
基本動作は
1.ランキングページからページを全部ダウンロードします。
2.ランキングページの順位とか再生数を抜き出します。
3.サムネイル表示ページと動画再生ページからタグと投稿者コメントを取得します。
4.取得したデータをExcelに書き出します。
5.HTMLメールを作成してExcelを添付して送信します。
ランキングページのダウンロードに成功してれば、2から実行できるリカバリー処理も入れたので、ページデザイン変わったり、不具合で止まっても後から数値は取れるでしょう。
URLがかわったり、ログインできないとアウトですが。
ランキング収集Ver.1.0はこんなところでしょうか。機能はもう増やさないで、出てきた不具合の修正対応のみの方向です。ランキングはRSS化したりする気が起きないしな。
次は指定された動画リストの情報取得と、タグ検索結果取得を作る予定です。
動画リストのやつはリスト情報を取得して内部の情報に変換できれば終わりなんだよね。動画情報の取得はランキング収集で作ってあるし、その後の処理もほとんど同じでしょう。
問題はタグ、タグの指定内容によっては分量が大変なことになるし、アクセス制限もありますから結構めんどくさい。
まぁ、週間アイマスランキングでは使わない機能でしょうから、自動実行できるくらいまで動作精度上げる必要はないかな。
取得できるデータは面白い内容だと思うので作りますが。
私の彼女にこのブログのデザインがひどすぎるといわれた。確かにひどいよ。
他の作業の優先順位より低いんだもん。デザイン調整。
CSSとかはすぐだろって、そうだけど、触りだしたらタイトル画像とか作りたくなったりするから、まとめて時間取れてからやることにしてる。
4時台に自動で作動して収集してきます。
桃月P宛にもメールで配信しています。今週から週間アイマスランキング用のデータに使ってくれるみたいです。
不具合ですが、ときたま収集結果のExeclを開くときにファイルが壊れていますといわれ、修復されると動画ページへのリンクだけが消えてるんだよな。何か特殊な文字が反応してるんだと思うんだが、たまにしかならないので特定が出来てません。
最近の修正は&とか<>とかが&とかになっていたので&に戻すように修正しました。
基本動作は
1.ランキングページからページを全部ダウンロードします。
2.ランキングページの順位とか再生数を抜き出します。
3.サムネイル表示ページと動画再生ページからタグと投稿者コメントを取得します。
4.取得したデータをExcelに書き出します。
5.HTMLメールを作成してExcelを添付して送信します。
ランキングページのダウンロードに成功してれば、2から実行できるリカバリー処理も入れたので、ページデザイン変わったり、不具合で止まっても後から数値は取れるでしょう。
URLがかわったり、ログインできないとアウトですが。
ランキング収集Ver.1.0はこんなところでしょうか。機能はもう増やさないで、出てきた不具合の修正対応のみの方向です。ランキングはRSS化したりする気が起きないしな。
次は指定された動画リストの情報取得と、タグ検索結果取得を作る予定です。
動画リストのやつはリスト情報を取得して内部の情報に変換できれば終わりなんだよね。動画情報の取得はランキング収集で作ってあるし、その後の処理もほとんど同じでしょう。
問題はタグ、タグの指定内容によっては分量が大変なことになるし、アクセス制限もありますから結構めんどくさい。
まぁ、週間アイマスランキングでは使わない機能でしょうから、自動実行できるくらいまで動作精度上げる必要はないかな。
取得できるデータは面白い内容だと思うので作りますが。
私の彼女にこのブログのデザインがひどすぎるといわれた。確かにひどいよ。
他の作業の優先順位より低いんだもん。デザイン調整。
CSSとかはすぐだろって、そうだけど、触りだしたらタイトル画像とか作りたくなったりするから、まとめて時間取れてからやることにしてる。
タグ:ニコニコ動画