ダウンロードの秘訣

ダウンロードの秘訣

基本機能のおさらい

Website Explorer の主な機能として、Web サイトの構造解析のほかに、Web サイトの全体または一部をダウンロードする機能があります。

いずれの場合も、まずアドレスバーにスタートアドレスとなる URL を入力し、開始ボタンをクリックしてサイト探査を行うとはいう点は共通しています。

探査ミッションはスタートアドレスからのリンクをたどる方式によって行われ、検出されたWeb ページを解析しつつ、もはや解析対象となる新しいリンク先が見つからなくなったときに完了(自動終了)します。もちろん、ユーザーが停止ボタンをクリックすることによって途中終了させることもできます。(途中終了した所からの再開も可能。)

探査ミッションの成果は、「サイトリポート」「サイト内ページ」「サイト内リソース」「外部リンク一覧」「エラー一覧」「HTTPリダイレクト」「全文検索」「画像一覧」として、それぞれタブ別に表示されます。(「サイトリポート」「サイト内ページ」以外は、サイトによっては表示されない場合もあります。)

また、メイン画面左側にはサイトの階層構造がフォルダツリーとして表示され、選択されたフォルダの中身が画面右上のファイル一覧で示されるので、サイトのアウトラインを把握しやすいと思います。ファイルをダブルクリックすると(ファイルの種類にもよりますが)、画面右下のブラウザで見ることができます。

保存ボタンをクリックすれば、これらのデータをひとまとまりのサイトデータとして名前を付けて保存することができ、いつでも復元することができます。サイトデータを保存するフォルダは任意の場所に置くことができ、Website Explorer の実行ファイル(WEBEX.exe)とは別のドライブでも構いません。

サイトデータを移動した場合はメインメニューの「ファイル」-「サイトデータのインポート」で移動先フォルダを見つけ、拡張子 .exp の付いたファイルを開けばデータを復元できるので、サイトデータを別のPCに移植する場合や他の人とシェアしたい場合に便利です。

Website Explorer のダウンロード機能

Website Explorer を初めて使う人はサイトデータを保存することによって実際の Web サイト上のファイルが自分のPCにダウンロードされたと思うかも知れませんが、そうではありません。サイトデータはあくまでサイトについてのデータだからです。

Website Explorer によってダウンロードを行うには大まかに言って2つの方法があります。1つはメイン画面右上のファイル一覧から1個のファイルを選択し「名前を付けて保存」するか、複数ファイルを選択し「まとめてダウンロード」する方法です(どちらも右クリックメニューで行えます)。この方法でダウンロードできるファイルの数は限られています。

もう1つは「フォルダダウンロード」です。こちらはフォルダツリーからダウンロードしたい特定のフォルダ(階層構造になっているため、その子フォルダも、そのまた子フォルダも含まれます)を選択して「フォルダダウンロード」をクリックすると設定ウィザードが出るので、それに従って実行します。

フォルダ横のチェックボックスで不要なフォルダのチェックを外したり、ウィザードでダウンロードするファイルの種類を絞り込むことができ、サイト全体または一部をフォルダごとダウンロードするという強力な機能です。元の階層を保持したままダウンロードするか、それとも開始フォルダにまとめてダウンロードするか?また、ダウンロードしたまま元のファイルに手を加えないか、それともローカル環境に最適化するようにリンクを書き換えるか?といった選択もできます。

Web ページをただダウンロードしただけだと、ローカル環境ではリンクがうまく通らないことがあります。これを回避するためにリンクを書き換えるのが最適化です。ただし、ローカル環境に最適化した Web ページをネット上にアップロードすると、今度はネット上でリンクが通らないことになるので、最適化はあくまでローカル環境で見るためのもの、いずれネットに再アップする目的でWeb ページをバックアップするのならソースの書き換えはしない設定を選んでください。

ダウンロードの秘訣

ところでフォルダダウンロードを使って Web サイトを落としてみたら、ブラウザ上ではそのサイトに属しているはずの画像などのリソースの一部がダウンロードされていない!といったことはありませんか?

そもそも探査を完了した時点で「サイト内リソース」一覧に含まれていないファイルはダウンロードされません。そのファイルは「外部リンク一覧」に含まれているはずです。「外部リンク一覧」に含まれるファイル、すなわち外部ファイルは、それが画像ファイルだったら「画像一覧」に表示されることもありません。

Website Explorer は初期設定ではスタートアドレス以下の階層を内部ファイルと見なし、それ以外を外部ファイルと見なすため、スタートアドレスが example.com/example1/ のとき example.com/images/ 内は外部ファイルとなります。つまり Web ページ内の画像等が外部ファイルとなるケースは、けっこう多いのです。では、どうすれば良いか?

メイン画面の設定ボタンをクリックすると、最初に「ミッション」タブがあり、その真ん中辺に「収集方法」というセクションがあります。その中の「ページ内リソースをサイト内データに含める」というチェックボックスがあるので、これをオンにしてください(デフォルトはオフ)。(追記:Ver.0.9.9.25からデフォルトでオンになりました。)これで Web ページ内の画像等をダウンロードできるようになります。

同じセクション内に「リソースの詳細取得」というチェックボックスがあり、デフォルトはオンになっています。これはリソースファイルのサイズや最終更新日を探査中に調べるということをするのですが、リソースファイルの数が膨大にあるサイトの場合は、これがけっこう時間がかかります。探査に時間がかかりすぎるようなサイトの場合は、ここをオフにしてから実行してみてください。かなり時間の節約になるはずです。リソースファイルのデータを知りたいのであれば、探査完了後に「サイト内リソース」を開いて「全ファイル情報の更新」で調べることができます。

2021/12/01 更新

このブログの人気の投稿

あれからどうなった?

開発再開!