2008年08月30日

情報取得3.0へ向けて

壊れた環境を、週マス取得用マシンに再構築しました。
壊れた方は新たに仮想マシンを構築、DBを再設定中。
同時にプログラムの方も少し最適化。しかし、一番時間かかるのは通信部分なので劇的に早くなったりはしない。

というわけで、システムを再構築を考え中。
大量の項目を扱うのに向いていないPlagger環境をやめて、1から構築する予定。
どの機能が必要かはめどがついたので。
細かく改修するだろうから言語はスクリプト言語で、ネットワーク関係のライブラリが豊富、マルチスレッド対応とことからPythonの予定。
Rubyとかもあるのだが、マルチスレッドの扱いが悪いようだし。フレームワークを使わないので。
PythonならGoogle App Engineにもコードが流用できそう。


話変わって。
新たにニコニコ動画にアップしました。
あえて目立たないようにしているので、このまま埋もれさせる予定。
ffmpegという動画変換ソフトとPhotoshop CS3とVideoStudio12のみ使用です。
数日後にどうやって作ったか記事書きますので、作り方予測してみてください。
posted by てんじゃ at 18:38 | Comment(0) | TrackBack(0) | ニコニコ動画アイマス情報取得

2008年08月27日

アイマスカラオケ 9月

■JOYSOUND
[09/12] (175378 )/I Want/天海春香(中村繪里子)
[09/14] (175420)/キラメキラリ/高槻やよい(仁後真耶子)
[09/14] (174817)/ID:[OL]/音無小鳥 featuring T
[未定] (曲番号未定)/THE IDOLM@STER〈k VERSION〉/音無小鳥(滝田樹里)
[未定] (曲番号未定)/ふるふるフューチャー☆/星井美希(長谷川明子)
[未定] (曲番号未定)/おはよう!! 朝ご飯〈M@STER VERSION〉/高槻やよい(仁後真耶子)、三浦あずさ(たかはし智秋)、萩原雪歩(落合祐里香)
[未定] (曲番号未定)/いっぱいいっぱい /秋月律子(若林直美)
[未定] (曲番号未定)/隣に… /三浦あずさ(たかはし智秋)
[未定] (曲番号未定)/URGENT!!!/今井麻美&たかはし智秋
[未定] (曲番号未定)/夢見る頃/今井麻美&たかはし智秋
[未定] (曲番号未定)/STYLISH QUEEN★ /たかはし智秋

JOYSOUNDはリクエストが盛んですね。
今REM@STERのいくつかがリクエスト投票ランキングの上位にありますね。

カラオケリスト
posted by てんじゃ at 01:14 | Comment(0) | TrackBack(0) | 雑記

2008年08月21日

環境壊れた

VMWareのイメージが壊れたよ。
これはNICOM@S STYLEとタグ検索結果を取得するプログラムが動いてたのですが、ディスク内のファイルがあちこちアクセスできなくなった。
週マスの取得用は別マシンで動作しているのだが、新着一覧はこっちのマシンでテスト中、ならびにDBが必要なのでちょっとピンチ。

今回は実験で使ってたWindows上の仮想マシンのディスクイメージがいかれたようです。
ディスク自体が物理的に壊れてなければいいが....

他のサーバーにDBを設定中。
とりあえずテーブル定義だけ移動できれば、動作はするようになるだろうし。今晩中には何とかなるか。

あと、以前から環境をAmazon EC2に構築中。
こっちも取得することはできるようにしたが、DBをどうしようか検討してます。データ揮発するしなぁ。
Large Instanceを選択するから高くつくんだけど毎日2時間動作で済むなら、それでもいいかな。
インメモリDBにぶち込んで終了時に書きだしするように考えていますが、データ取得時間がかかりすぎて。
最近KeepAliveを利用して高速化しようとしたけど効果確認する前にマシンの調子おかしくなったし。
アクセスの並列化かな?負荷かけることになるけど。
この収集プログラムもともと1000件程度を取得する構想で作ってるから、全件取得とかするとメモリを馬鹿喰いするのだよね。
で、作り直しをしようと思ってる。
どういう構想でいるかは、また今度。
posted by てんじゃ at 15:58 | Comment(0) | TrackBack(0) | ニコニコ動画アイマス情報取得

2008年08月09日

週マスへの新しい提供データ

アイマス全件取得
とある時間にタグ検索のページの結果をダウンロードしてます。1時間30分くらいかかります。
その後、ダウンロードした内容から必要な項目を抽出してDBに登録しています。
さらに、今度は検索結果からわからないタグ情報などを取得してDBを更新します。こちらは4時間くらいかかります。
2月末からのデータを取得開始して、6月中旬から7月中旬まで停止してましたが、現在、420万レコードで3.5GBのデータサイズがあります。

新しい週マス用のプログラムは、その日取得したデータから、今週の投稿動画で、特定のポイントを超えたものを一覧化して、送付しています。
週マスでは、日々のランキングデータの他に、確認する動画一覧を登録してもらい、その動画の詳細データを送付してます。

動画の詳細情報取得を週マス用のプログラムの為に時間ずらしたら、7:00位にgetthumbinfoがエラーを返して停止するようになってしまいました。
動いてないのを確認したら手動で起動してたのですが、もう少し調整が要りますね。
今週の新着動画ポイント計算はタグ検索の結果のページのデータから確認できるので、詳細情報を取得する前にデータ生成して送付するよう調整します。
今週はまだランキングが変わって時間がないので、万全じゃないです。

このプログラム自体はだいぶ前に作ってありました。
ニコニコランキングに頼らないアイドルマスターランキングの作成と、除外の事前判定用に最終集計前にランキング圏内の動画を事前報告するために用意したものです。
posted by てんじゃ at 20:00 | Comment(0) | TrackBack(0) | ニコニコ動画アイマス情報取得

2008年08月04日

続・ニコニコランキング仕様変更

週マスの集計対象をニコニコランキング掲載だけではなく、タグ検索結果からも抽出する方向で調整する話になりつつあります。
プログラムは、だいぶ前に作ってあるものを使用予定。
ただ、これはDBにデータを格納する方式なのでバックアップシステムが用意できるのかどうかが問題です。


ニコニコランキングに「1時間ごとのランキング」が増える予定のようです。
「1時間ごとに集計をリセットします」というので
従来の形式が復活するのか、1時間の状態の集計なのかわからないですね。
データ集計には意味がなさそうですが。
posted by てんじゃ at 01:52 | Comment(0) | TrackBack(0) | ニコニコ動画アイマス情報取得

2008年08月02日

ニコニコランキングの集計時間

ニコニコランキングの集計時間が変わりましたね。

更新がデイリー、合計が1日1回、週間が月曜日、月間が毎月1日のみになりました。
新着は無くなりましたね。

これで投稿時間帯の優位性の神話は崩壊かな。
5時の集計だけど、その後にアップしてもランキングは更新されないので、載るとしたら次の日の6時以降ですな。

私の方のランキング取得のプログラムは改修しましたけど。
問題は週刊アイドルマスターランキングですな。
完全な集計方法は把握してないのですが、
今までは4時時点の情報を取ってるし、
基本はニコニコランキングに掲載された作品が集計対象なので、〆日の金曜に週間や月間のデータを取っていたのですが、毎日更新されないのでは参考情報になりませんね。
デイリー取れれば問題ないのかな?新着なくなったから対象作品減りそうですな。
posted by てんじゃ at 00:40 | Comment(0) | TrackBack(0) | ニコニコ動画アイマス情報取得

2008年08月01日

アイマスカラオケ 8月追加

■uga
6144-66/サニー/双海亜美,真美(下田麻美)・三浦あずさ(たかはし智秋)・水瀬伊織(釘宮理恵)・萩原雪歩(落合祐里香)・秋月律子(若林直美)

カラオケリスト
posted by てんじゃ at 23:59 | Comment(0) | TrackBack(0) | 雑記
×

この広告は1年以上新しい記事の投稿がないブログに表示されております。