logo
languageJPdown
menu

【超簡単!】映像情報を一括抽出方法!NHKを例とし

約5分で読めます

映画やドキュメンタリーに関する学術研究の場合は一般的に映像のテーマ、制作された年月、俳優のキャストなどの情報を収集する必要があります。その場合はどうしますか?手動で映画やドキュメンタリーの情報を収集しますか?あるいはソフトウェアツールを利用して、データの収集をパソコンに任せますか?多くの人にとってやはりパソコンが自動的にデータを収集する欲しいと思うんですが。今日は、この記事でWeb上の映画やドキュメンタリーの情報を自動的に収集する方法を紹介させていただきます。

1.アーカイブの活用

近年、アーカイブの推進に伴って、映画やドキュメンタリーなどの情報の収集は図書館、博物館などの特別な場所に行かなくても、キーワードを入力するだけでインターネットで簡単に情報を探し出すことができました。ここに、一言でアーカイブとは何か?を説明させていただきます。

アーカイブとは英語「archive]に由来する言葉であり、「保存」「記録」の意味を持ちます。平成24年から、デジタル技術の発展に伴い、総務者は知のデジタルアーカイブと社会の知識インフラの拡充を積極的に組み込んでいます。具体的に言うと、この動きは「図書・出版物、美術品・博物品・歴史資料などの公共的な知的財産をデジタル化し公開することによって、誰でもどこでも見られるように行っています。特に学術研究の場合はデジタルアーカイブの活用することで、より簡単的に情報を入手できるようになりました。

デジタルアーカイブの保存、公開ないし活用について代表的な例はNHKアーカイブです。NHKは日本の公共放送としてよく「みんなのNHK」と呼ばれています。2007年12月に国会の改正放送法が成立し、放送した番組をインタネットで配信できるようになりました。その後、新作番組を放送後後一週間ほど見ることができるキャッチアップ(見逃し)サービスと過去に放送したアーカイブ番組を提供するサービスが実施された。NHKアーカイブでは、学術研究向けのサービスがあります。ここでNHKが制作・放送してきた370万のニュース項目、約60万本の番組の映像を保存しています。インターネットでNHK総合データベースにアクセスし、番組のタイトルや放送日時、番組基本情報、台本、構成表、主演者、著作権などの色々情報を検索することができます。NHKの映像や番組やドキュメンタリーを研究する学者にぜひおすすめます。

NHk学術利用トライアルNHKアーカイブス

これはNHK学術利用トライアルのホームページです。

このページの一番下のところに「データベースで探す」があります。下図のように

ここにクリックしてから、検索欄が出てきます。その検索欄にキーワードを入力するだけで、NHKが制作や放送したこのキーワードに関する全ての映像アーカイブ情報が出てきます。ここに「和食」を例としてやってみます。

2.データの抽出

たとえば、以下の図のように、「和食」に関するすべての映像の制作された時期、放送系統、番組タイトル、主演者などの情報を抽出して、それをExcelにエクスポートする場合はどうしますか?

この場合は、Octoparseというスクレイピングツールをすすめます。

Octoparseとは
Octoparseとはpythonの知識が不要で、どんなWebサイトで、誰でも簡単にデータを抽出し収集する無料のツールです。ただし、Octoparseの使い方を慣れるまで、使い方の学びや練習が必要です。使い方もそれほど難しいではありませんので、ご安心ください。

では、これからNHKアーカイブのWebサイトで「和食」のキーワードを例として、映像情報をの抽出、収集ないしExcelにエクスポートする方法を紹介していきます。

まず、コンピューターにOctoparseの最新バージョンをダウンロードしてください。ソフトウェアのダウンロードとインストールの方法をOctoparseの公式サイトでご参照ください。

映像情報を抽出しましょう!
ステップ1:OctoparseのソフトウェアでNHKアーカイブのULRを開きます。

Octoparseの内蔵ブラウザーでNHKアーカイブのWebサイトが開きました。

ステップ2:「Webページを自動検出する」をクリックしてください。

ステップ3:検出されたデータを確認して、「Webページを自動検出する」をクリックします。

ステップ4:ワークフローをを設定完了してから、左上のところに、青い「保存」ボダンをクリックし、そして「実行」をします。

全てのデータを抽出するまで、しばらくお待ちください。

約12分を経っても、2380件のデータが抽出されました。全てのデータを抽出したら「データをエクスポート」をクリックし、「Excel」を選択し確認し、octoparseで抽出されたデータを自動的にExcelにエクスポートします。

まとめ

OctoparseはNHKのデータ収集に非常に便利であることが分かっています。このスクレイピングツールを使用すると、膨大な量のNHKコンテンツから必要な情報を簡単に抽出することができます。たとえば、ニュース、天気、ラジオ、テレビなど、NHKが提供するあらゆるコンテンツを取得することができます。また、OctoparseはNHKの動的なWebサイトにも対応しているため、自動的にページをスクロールし、データを収集することができます。さらに、Octoparseはデータを簡単にCSV、Excel、またはJSON形式でエクスポートすることができます。これらの機能を使うことで、NHKのデータ収集がとても簡単で効率的になります。

クリックだけでウェブ データを取得
無料ダウンロード

人気記事

トピックを検索する

今すぐOctoparseを始めて、業務効率化を実現しましょう。

ダウンロード

関連記事

  • avatarKouyama
    本記事では、ローコードスクレイピングツールOctoparseを利用してApp Storeアプリのレビュー情報を取得する方法について紹介します。
    2024-06-25T14:53:38+00:00 · 6 min read
  • avatarTakahashi
    日本の電気自動車の普及は、ここ数年で急速に進んでいます。しかしながら、世界全体で見渡すと日本の電気自動車(EV)の普及率は、決して高いとは言えません。本記事では、電気自動車の普及状況や、国内自動車メーカーの取り組みを紹介します。さらに、Webスクレイピングツールを使った、国内に設置されている充電スタンド情報の取得方法も解説します。
    2023-06-19T10:52:23+00:00 · 7 min read
  • avatarMurata
    人工知能に興味があるエンジニアやAIエンジニアなどが、最近多く利用しているのがOpenAIのコミュニティサイトです。OpenAIのコミュニティサイトには、さまざまなトピックがあり、利用者からのコメントが多く投稿されています。このOpenAIのコミュニティサイトから、自分が目的とするデータを抽出するには、どうしたらいいでしょうか。この記事では、OpenAIのコミュニティサイトからデータを抽出する方法について解説します。
    2023-02-27T00:00:00+00:00 · 7 min read
  • avatarShinz
    QuoraはQ&Aサービスサイトとして「コンテンツの質の高さ」という特徴をがあります。このWebサイトではQ&Aを巡って、ある話題に対して討論や議論を行うソーシャルメディアです。これらの議論や、回答は非常に価値を持っています。なぜなら、これは単なるソーシャルメディアではなく、影響力を持っているコミュニティと「世論形成」の場です。この記事では、Quoraの回答をスクレイピング(抽出する)する方法を紹介します。
    2021-07-27T00:00:00+00:00 · 6 min read