ご利用ガイドArchiveBoxアプリケーションイメージの使い方

目次

ArchiveBoxは、Web魚拓やInternetArchiveのようにある時点でのウェブページをアーカイブ(保存)するプログラムです。

ConoHaではArchiveBoxをインストール・設定済みのテンプレートイメージをご用意していますので、簡単にご利用いただけます。

本記事ではArchiveBoxの基本的な使い方について紹介いたします。


※アーカイブしたウェブサイトのデータは著作権等に注意し、私的利用の範囲でご利用ください。

ArchiveBoxアプリケーションイメージのインストール手順

[1] 「サーバー追加」ボタンをクリックします。

STEP1

[2] イメージタイプから「アプリケーション」を選択し、ArchiveBoxを選択して「追加」からVPSを作成します。

STEP2

[3] 以上でArchiveBoxがインストールされたVPSの追加は完了です。

ArchiveBoxを使ってWebページをアーカイブする

[1] WebページのアーカイブはVPSへログインの上コマンド操作する必要があるのでコンソール画面やSSH接続を利用してログインします。

[2] 以下のコマンドを実行し、アーカイブを実行します。

cd /opt/archivebox/ && sudo -u archivebox SUBMIT_ARCHIVE_DOT_ORG=False /opt/archivebox/archive "アーカイブしたいウェブページのURL"

アーカイブしたいウェブページを配信しているサーバーとの通信状況やウェブページの規模によってはアーカイブの実行に時間がかかる場合があります。

[3] 以上でアーカイブの実行は完了です。

アーカイブしたWebページを閲覧する

アーカイブしたウェブページは、ウェブブラウザから閲覧できます。1回以上のアーカイブを実行しないとアーカイブ閲覧用ページは生成されず404エラーとなりますので、前述の「ArchiveBoxを使ってWebページをアーカイブする」の節に従ってアーカイブを実行してください。

[1] ArchiveBoxのVPSのIPアドレスをウェブブラウザに入力し認証情報を入力します。アーカイブしたデータの閲覧ページはアクセス制限のためのBASIC認証を設定しています。

http://[IPアドレス]
STEP3

※認証のためのユーザー名/パスワードはコンソールやSSHでログインした際に表示されるMOTDに書き込まれています。ユーザー名は「ArchiveBox Web Username」の値を、パスワードは「ArchiveBox Web Password」の値を入力してください。

STEP4

[2] 認証に成功するとアーカイブしたページの一覧が表示されます。

・アーカイブは複数の手段で取得されています。それぞれ「Bookmaked:アーカイブ取得日時」「Files:ページのFavicon」「SavedLinkページのタイトル」「PNG:ページのスクリーンショットへのリンク」「PDF:ページをPDF印刷したファイルへのリンク」「HTML:アーカイブしたHTMLファイルや画像ファイルをすべてそのまま表示」「A.org:同じURLのInternetArchivesのページへのリンク」「Original URL:アーカイブしたウェブページのURL」の順番で並んでいます。

例として2019/04/23 17:41 時点でアーカイブされた「美雲このはオフィシャルサイト」のスクリーンショットを見てみましょう。以下のスクリーンショットの赤枠の部分をクリックするとスクリーンショットが表示されます。

STEP5
STEP6

アニメーションが途中の状態のスクリーンショットになってしまっていますね…。動きのあるウェブページの場合このように正しく表示されない場合もあります。

そんな場合でもHTMLの項目をクリックすると…

STEP7

アニメーションやJavaScriptの動的な変化も正しく表示されます!
本物のウェブページと見分けがつきませんが、URLを見ると確かにArchiveBoxのVPSから配信されていることがわかります。

ArchiveBoxには今回紹介したアーカイブ先ページURL直接指定以外にもブログのRSSファイルやブラウザの履歴からURLを抽出してアーカイブを実行する機能があります。 詳細は公式サイトをご覧ください。

問題は解決できましたか?

ご回答ありがとうございます。

ご回答受け付けました。ご協力ありがとうございました。