映画やドキュメンタリーに関する学術研究の場合は一般的に映像のテーマ、制作された年月、俳優のキャストなどの情報を収集する必要があります。その場合はどうしますか?手動で映画やドキュメンタリーの情報を収集しますか?あるいはソフトウェアツールを利用して、データの収集をパソコンに任せますか?多くの人にとってやはりパソコンが自動的にデータを収集する欲しいと思うんですが。今日は、この記事でWeb上の映画やドキュメンタリーの情報を自動的に収集する方法を紹介させていただきます。
1.アーカイブの活用
近年、アーカイブの推進に伴って、映画やドキュメンタリーなどの情報の収集は図書館、博物館などの特別な場所に行かなくても、キーワードを入力するだけでインターネットで簡単に情報を探し出すことができました。ここに、一言でアーカイブとは何か?を説明させていただきます。
アーカイブとは英語「archive]に由来する言葉であり、「保存」「記録」の意味を持ちます。平成24年から、デジタル技術の発展に伴い、総務者は知のデジタルアーカイブと社会の知識インフラの拡充を積極的に組み込んでいます。具体的に言うと、この動きは「図書・出版物、美術品・博物品・歴史資料などの公共的な知的財産をデジタル化し公開することによって、誰でもどこでも見られるように行っています。特に学術研究の場合はデジタルアーカイブの活用することで、より簡単的に情報を入手できるようになりました。
デジタルアーカイブの保存、公開ないし活用について代表的な例はNHKアーカイブです。NHKは日本の公共放送としてよく「みんなのNHK」と呼ばれています。2007年12月に国会の改正放送法が成立し、放送した番組をインタネットで配信できるようになりました。その後、新作番組を放送後後一週間ほど見ることができるキャッチアップ(見逃し)サービスと過去に放送したアーカイブ番組を提供するサービスが実施された。NHKアーカイブでは、学術研究向けのサービスがあります。ここでNHKが制作・放送してきた370万のニュース項目、約60万本の番組の映像を保存しています。インターネットでNHK総合データベースにアクセスし、番組のタイトルや放送日時、番組基本情報、台本、構成表、主演者、著作権などの色々情報を検索することができます。NHKの映像や番組やドキュメンタリーを研究する学者にぜひおすすめます。
NHk学術利用トライアル:NHKアーカイブス
これはNHK学術利用トライアルのホームページです。
このページの一番下のところに「データベースで探す」があります。下図のように
ここにクリックしてから、検索欄が出てきます。その検索欄にキーワードを入力するだけで、NHKが制作や放送したこのキーワードに関する全ての映像アーカイブ情報が出てきます。ここに「和食」を例としてやってみます。
2.データの抽出
たとえば、以下の図のように、「和食」に関するすべての映像の制作された時期、放送系統、番組タイトル、主演者などの情報を抽出して、それをExcelにエクスポートする場合はどうしますか?
この場合は、Octoparseというスクレイピングツールをすすめます。
Octoparseとは
Octoparseとはpythonの知識が不要で、どんなWebサイトで、誰でも簡単にデータを抽出し収集する無料のツールです。ただし、Octoparseの使い方を慣れるまで、使い方の学びや練習が必要です。使い方もそれほど難しいではありませんので、ご安心ください。
では、これからNHKアーカイブのWebサイトで「和食」のキーワードを例として、映像情報をの抽出、収集ないしExcelにエクスポートする方法を紹介していきます。
まず、コンピューターにOctoparseの最新バージョンをダウンロードしてください。ソフトウェアのダウンロードとインストールの方法をOctoparseの公式サイトでご参照ください。
映像情報を抽出しましょう!
ステップ1:OctoparseのソフトウェアでNHKアーカイブのULRを開きます。
Octoparseの内蔵ブラウザーでNHKアーカイブのWebサイトが開きました。
ステップ2:「Webページを自動検出する」をクリックしてください。
ステップ3:検出されたデータを確認して、「Webページを自動検出する」をクリックします。
ステップ4:ワークフローをを設定完了してから、左上のところに、青い「保存」ボダンをクリックし、そして「実行」をします。
全てのデータを抽出するまで、しばらくお待ちください。
約12分を経っても、2380件のデータが抽出されました。全てのデータを抽出したら、「データをエクスポート」をクリックし、「Excel」を選択し確認し、octoparseで抽出されたデータを自動的にExcelにエクスポートします。
まとめ
OctoparseはNHKのデータ収集に非常に便利であることが分かっています。このスクレイピングツールを使用すると、膨大な量のNHKコンテンツから必要な情報を簡単に抽出することができます。たとえば、ニュース、天気、ラジオ、テレビなど、NHKが提供するあらゆるコンテンツを取得することができます。また、OctoparseはNHKの動的なWebサイトにも対応しているため、自動的にページをスクロールし、データを収集することができます。さらに、Octoparseはデータを簡単にCSV、Excel、またはJSON形式でエクスポートすることができます。これらの機能を使うことで、NHKのデータ収集がとても簡単で効率的になります。