Web上に公開されている情報の中から特定のデータだけを自動抽出する「Webスクレイピング」が注目されています。Webスクレイピングを活用することで、個人や企業活動のあらゆるビジネスシーンで業務効率化や、付加価値の創造に役立ちます。
しかしながら、世間ではWebスクレイピングに関する誤解も少なくありません。Webスクレイピングツールを開発する当社にも日々多くの質問が寄せられています。そこで本記事では、Webスクレイピングが違法かどうか、それからWebスクレイピングに関する他の質問についてご説明します。
本記事をご覧いただくことでスクレイピングに関する正しい知識を持っていただけたら幸いです。
関連記事:【徹底解説】スクレイピングとは|初心者にも分かるスクレイピングに関する解説!
スクレイピング自体に違法性はない
Webサイトから自動的にデータを集めるWebスクレイピングを使えば作業効率を飛躍的に効率化します。しかし、「そもそもWebサイトから情報を抽出するのは違法ではないか?」といった疑問を持つ方は特に多いでしょう。
結論として、Webスクレイピングそのものに違法性はありません。データ分析を目的とし、新たに自社のデータベースとして活用する場合には問題ないとされています。
Webデータの活用は、民間に限らず政府も行っています。たとえば、総務省では平成元年に消費者物価指数(CPI)の調査にWebスクレイピングの活用を発表しています。
参照:消費者物価指数(CPI)へのウェブスクレイピングの活用について
スクレイピングの注意点
一方、抽出したデータを勝手に公開する著作権侵害や、Webサイトの利用規約にスクレイピング行為について言及されている場合は違法とみなされ、法的措置をとられる可能性もあります。Webスクレイピングで、気を付ける必要があるのは以下の3つです。
- Webサイトの利用規約に違反する(利用規約で触れている場合は違反になる)
- サーバに過度の負荷をかける(アクセス不能になり業務妨害にあたる)
- 著作権を侵害する(抽出したデータを無断で公開・販売するなど)特にスクレイピングをする際には著作者の利用許諾が必要になりますが、著作権法ではいくつかの「例外」を認めています。著作権法における例外には以下の3つが挙げられます。私的使用のための複製 (第30条)家庭内で仕事以外の目的のために使用するために、著作物を複製することができる。同様の目的であれば、翻訳、編曲、変形、翻案も可能情報解析のための複製等 (第47条の7)コンピュータ等を用いて情報解析を行うことを目的とする場合には、必要と認められる限度において記録媒体に著作物を複製・翻案ができる送信可能化された情報の送信元識別符号の検索等のための複製等(第47条の6)インターネット検索サービス事業者(Google、Yahoo!など)は、サービスを提供するために必要と認められる限度で、著作物の複製・翻案・自動公衆送信を行うことできる
参考:文化庁|著作者の権利の制限(許諾を得ずに利用できる場合)
スクレイピングの著作権侵害の判断は、具体的なケースや地域の著作権法によって異なります。特定の国や地域では、スクレイピングが私的利用や合理的引用などの著作権法の例外に該当する場合、合法と見なされることがあります。
重要なのは、具体的なケースごとに適用される著作権法を理解し、著作権で保護されたコンテンツを適切に取り扱うことです。スクレイピングを行う場合は、関連する法律や規制を遵守し、著作権者の権利を尊重するように留意することが必要です。
任意のWebサイトでもスクレイピングできる?
Webサイト上のユーザー名、パスワードなどの個人情報はスクレイピングできません。しかし実際には、メールアドレス、Facebookの投稿、LinkedInの企業情報などのスクレイピングニーズもたくさんあります。
ビジネスSNSのLinkedIn(リンクトイン)では、一般公開されているプロフィールデータを他の企業がスクレイピングして利用していたことで、訴訟に発展したことは当時大きな話題となりました。
このように、サイトによっては利用規約でスクレイピングを禁止している場合があります。
そのため、任意のWebサイトでスクレイピングを行う前には、必ず「robots.txt」を確認してください。robots.txtとは、スクレイピングを行うプログラムに対する指示書のことです。
robots.txtには、Webサイト上の指定されたパスへのクロールの許可(あるいは禁止)の表示や、リクエストの間隔などが記載されています。そのため、Webスクレイピング中にアクセスをブロックされないようrobots.txtファイルの記述を理解することが重要です。
スクレイピングしたデータは自由に使える?
先述したとおり、スクレイピングは「データ分析を目的とし、新たに自社のデータベースとしてスクレイピングデータを活用する場合は合法」です。しかし、著作権侵害、Webサイトの利用規約違反、機密情報を収集する場合は違法となります。
たとえば、許可なく個人の連絡先情報をスクレイピングし、それを第三者に売却して利益を得ることは違法です。
その上、元ソースを提供せずにスクレイピングされたコンテンツを、あたかも自分自身のものとして再パッケージ化するのも倫理的に問題でしょう。
法律によって、スパム、盗作、またはデータの不正使用は禁止されているので、使用方法を誤らないようにしましょう。
証券会社はスクレイピングを禁止しているのか?
証券会社におけるスクレイピングの制限や禁止ポリシーは各社で異なります。通常、証券会社は自社ウェブサイトやアプリを通じて提供されるデータや情報の利用を厳格に規制しています。
主なスクレイピング制限理由は以下の通りです:
- 利用規約: 証券会社は、ウェブサイトやアプリの利用規約でスクレイピングに制限を設けることがあります。これは、データや情報の使用を制御し権利を保護するための措置です。
- データの正確性とセキュリティ: 顧客に対して正確で信頼性の高いデータを提供する責任があるため、スクレイピングによるデータの不正確性や改ざんのリスクがある場合は制限されることがあります。
- サーバー負荷とパフォーマンス: 大量のスクレイピングリクエストがサーバーに送信されると、サーバーの負荷が増加し、パフォーマンスが低下する可能性があるため、制限が設けられることがあります。
総じて、スクレイピングをある程度まで容認していますが、使用においては合法性と倫理性を重視しています。利用者はポリシーに留意し、関連する法的規定も遵守しながらデータ収集を行い、迷惑や法的問題を回避するよう慎重に行動するべきです。
スクレイピングとクローリングは同じ?
WebスクレイピングとWebクローリングは、どちらともWeb上の情報収集を行う手法としては共通していますが性質は大きく異なります。
Webスクレイピングは、英語の「Scrape」に由来しており、「削り出す」などの意味があります。つまり、Web上のデータ構造から余分な情報を削り、必要な情報だけを抽出することを指します。
たとえば、営業リスト、不動産物件情報、ECサイトの商品在庫のデータ抽出が含まれます。
一方Webクローリングは、サイトクローラーと呼ばれるロボットが目的に応じてWeb上を巡回し、必要な情報を収集することを指します。
たとえば、自社のWebサイトをGoogleなどの検索結果に表示させるには、サイトクローラーにWebサイトの存在を知ってもらい読み込んでもらう必要があります。
プログラミングの知識・経験が必要?
一般的に、スクレイピングはプログラミングによって実行されます。しかし今では、プログラミングを行わずともマウス操作で動かせる「Webスクレイピングツール(データ抽出ツール)」が登場しています。
ノーコード(NoCode)で扱えるスクレイピングツールは、マーケティング担当者、統計学者、財務コンサルタント、研究者、ジャーナリストなどの非プログラマーにとって非常に便利です。
たとえば、OctoparseではWebスクレイピングテンプレートという機能を提供しています。この機能は、YouTube、X(旧Twitter)、Amazon、eBayなどを含む30以上のWebサイトをカバーしており、テンプレートを呼び出すだけで誰でもかんたんにスクレイピングを開始できます。
スクレイパーの起動で必要なのは、キーワード・URLなどのパラメータを入力するだけです。Web上で必要なデータを抽出するうえで、作業の効率化に便利です。
高速でスクレイピングできるのか?
Webクローラーがいかに速いものかを示すように、瞬時にデータを集めているスクレイピングの広告を見たことがある方もいるでしょう。たしかに、スクレイピングツールを使えば短時間でのデータ収集は可能です。
ただしWebサイトへのアクセスリクエストが早過ぎる場合、Webサーバーが過負荷になり、サーバーがクラッシュする可能性があります。過去には、スクレイピングによってサーバーに負荷が掛かり、他の利用者が閲覧しにくい状態にしたとして、偽計業務妨害の疑いで逮捕された事例(岡崎市中央図書館事件)があります。
こうした事態を防ぐためにも、間隔を空けてWebサーバーにアクセスした方が良いでしょう。具体的には、人間がアクセスするのと同じスピード(1秒以上)でのクローリングが望ましいとされています。
APIとWebスクレイピングは同じ?
APIとWebスクレイピングは、外部からデータを取得する手法であることは、すでに多くの方に知られてます。APIとは、サービス提供者による開発者向けの機能です。APIは外部リソースからデータを取得して、他のデータと合わせて自分たちのサービスに付加価値を追加できます。
さらにAPIにはさまざまなサービスがあります。たとえば、Aamazon API、X(旧Twitter) API、Instagram APIなどがあり、API連携をすることでデータの取得が効率化します。ただし、要求したデータをすべて取得できるわけではありません。
一方、Webスクレイピングでは、ユーザー向けのHTMLコンテンツをコンピュータに解析させるものなので、あらゆるデータを収集できます。さらに、OctoparseではWebスクレイピングテンプレートがあり、キーワード/ URLなどのパラメータを入力することによってデータ抽出を効率化します。
スクレイピングはWeb全体からデータを抽出できる?
Webスクレイピングは、インターネットに公開されたWebサイト全体、あるいは少なくとも数十万PVものWebサイトからデータをスクレイピングできると多くの人が信じています。
しかしながら、実際には実現不可能といえるでしょう。なぜなら、各Webサイトはページ構造も異なるため、1つのWebスクレイパーが全ページをスクレイピングするのは現実的ではないからです。インターネット全体ではなく、ジャンルを絞ることをおすすめします。
スクレイピングできないサイトかどうかの見分け方は?
ウェブサイトのスクレイピングの可否を判断するには、以下の要素を検討することが重要です。
- 利用規約の確認: ウェブサイトの利用規約や利用条件を確認し、スクレイピングに関する制限や禁止事項が明示的に記載されているかを確認します。
- robots.txtファイルの存在: ウェブサイトのルートディレクトリ(通常はwww.example.com/robots.txt)にrobots.txtファイルが存在するかどうかを確認します。このファイルには、スクレイピングに対する制限や許可に関する指示が含まれている可能性があります。
- CAPTCHAやIP制限: ウェブサイトがCAPTCHA(画像認証)を使用したり、アクセス回数やリクエスト数に制限を設けている場合、スクレイピングが制限されている可能性があります。
- ダイナミックなコンテンツ: ウェブサイトがJavaScriptやAjaxを使用してコンテンツを動的に生成する場合、スクレイピングが難しいことがあります。
- 接続エラーやブロック: スクレイピングを試みた際に接続エラーやアクセスブロックが発生する場合、ウェブサイトがスクレイピングを制限している可能性があります。
これらの要素を包括的に評価し、ウェブサイトのスクレイピングが適切かどうかを判断します。
まとめ
本記事では、Webスクレイピングに関して、違法性などの多くの方が感じている疑問について解説をしました。Webスクレイピングは、政府機関でも活用する手法であり、それ自体に違法性はありません。しかしながら、扱いを誤ると法的に問題が発生する可能性もあるため、目的・用途に合わせて利用するようにしましょう。
まずはWebスクレイピングに実際に触れてみながら、使い方に迷うことがあれば、その都度調べると良いでしょう。Octoparse(オクトパス)では、無料でスクレイピングを行うことができます。利用開始後も、ヘルプデスクにお問い合わせいただくことも可能ですので、まずはアカウント登録からはじめてみてください。