ウェブアルバム形式のサイトからの画像抽出

欲しい画像がウェブアルバム形式のサイトに置いてあった場合一つ一つを右クリックで保存せねばならず大変です。
なぜなら一覧表示したときの画像がすべてサムネイル(小さい画像)になっているからです。。
そこでファイル名を予測して一気に落とすという作戦を行ってみました。

ウェブアルバム形式といえども画像ファイルは生でサーバーに置いてあるのでダウンロードツールを使いファイル名を指定して順に落としていきます。
これが通用するのはサイトの管理人さんが画像を整理するために英語+整数などの決まった形式の名前を付けている場合に限ります。



今回使用するのは
Irvine
・MicrosoftExelなどのオートコンプリート機能付き表計算ソフトまたはオートコンプリートのみを特化させたフリーソフトなど
です。

Irvineは国産の老舗ダウンロードツールで安定性などに定評があります。
このダウンロードツールはテキストに書かれたURLを抽出できるので今回の作業にはもってこいです。
設定方法等は詳しい解説サイトが存在するのでここでは割愛します。

実際に管理人が行った方法を例に説明したいと思います。
まずウェブアルバム形式のサイトに行きます。
名前順になっているカテゴリの中から目的のカテゴリを選びます。
WS000013.jpg


次にサムネイルページが表示されると思うのでその中から適当に画像を選びます。
WS000014.jpg

するとサムネイルが少し大きく表示されるページに移動するので画像下のファイル名をチェックします。
これをキャラクター別やシーン別に探りあらかたのファイル名の付け方を予測します。
WS000015.jpg

ここからはある程度の知識が必要です。
少しおおきいサムネページの画像をもう一度クリックすると元サイズの画像が表示されます。
その画像のURLを探しサーバードメインとフォルダ構成を探ります。
ソースコードを読んで自分で探してください。
管理人はFireFoxアドオンのFireBugを使用しました。
普通は相対アドレスで書かれているので注意してください。
WS000016.jpg


いくらかサンプルを得たらダウンロード準備に移ります。
オートコンプリート機能付きのソフトを開きます。

たとえば得たサンプルが
k-on_120.png
k-on_127.png
k-on_005.png
などの場合
次のように記述します。

1行目 http://サイトのアドレス/画像の相対アドレス/k-on_000.png
2行目 http://サイトのアドレス/画像の相対アドレス/k-on_001.png

こうすればk-on_の後に続く数字が+1されていることにソフトが気づいてくれるので
オートコンプリートで一気にURLを生成していきます。
Exelを例にすると1行目と2行目(A-1セルとA-2セル)を選択し右下の黒四角を下向きにD&Dすればおkです。
WS000017.jpg

完成した文字列をコピーしテキストファイルに写します。
WS000018.jpg

このテキストファイルをIrvineに放り込めば一気にぶっこ抜けます。

後はダウンロードされたファイル数とサイトに記載されているファイル数を比較すれば全部ぶっこ抜けたかどうか確認できるという次第です。

そもそもウェブアルバムはサーバーへの負荷を軽減する目的などで導入している場合もあるため
多重直リンクダウンロードを行うとサーバーがダウンするかもしれないので
Irvineの多重ダウンロードはオフにして行うようにしてください。
また、まとめサイトなどにクリック収入広告やランキングボタンがあった場合はクリックしてあげましょう。
マナーとして。

以上です。