あらゆるビジネスシーンでビッグデータの活用が増える中、データ収集に役立つ技術としてWebスクレイピングが近年注目を集めています。Webスクレイピングは最新のテクノロジー技術と思われがちですが、実はその歴史は長く、1989年ころからアイデアが存在していたといわれています。
先人の技術者たちが開発を繰り返し、現在では誰もが使える技術として注目されるようになりました。そして、ビッグデータ活用やテクノロジーの進化が急速に進む中、今後Webスクレイピングはどのように成長を遂げるのでしょうか。
本記事では、Webスクレイピングの歴史を読み解きながら、現在のトレンドや今後の課題・展望まで解説します。
Webスクレイピングとは?
そもそもWebスクレイピングとは、特定のWebサイトから情報を抽出するコンピュータソフトウェア技術を指します。Webスクレイピングを使うことで、World Wide Web(以下 WWW)に存在するWebサイトやテキストデータを探り、大量のデータの中から特定のデータを自動的に取得できます。
今までWebサイトから情報を取得する際は、手作業でコピー&ペーストをしなければなりませんでした。しかしWebスクレイピングを使うことで、面倒な手作業を自動化し、作業時間の大幅な短縮や転記ミスの防止に役立ちます。
Webスクレイピングの流れは?
一般的にWebページをスクレイピングする場合は、大きく3つのステップに分けられます。
- Webクローラーがインターネット上を巡回し、該当するWebページを取得する
- WebスクレイパーがWebページから不要な情報を削り、必要な情報だけを取得する
- 取得したデータはExcel、スプレッドシート、データベースなどにコピーする
このように、Webスクレイピングの仕組みは「Webクローラー」と「Webスクレイパー」の2つで構成されており、それぞれが役割を果たすことでユーザーが求める情報を大量かつ高速に収集できます。
Webスクレイピングについて詳しく知りたい方は以下の記事をご覧ください。
参考:Webスクレイピングとは?基本や仕組み、活用事例まで解説
Webスクレイピングの始まりとは
「ビッグデータ」「機械学習」という言葉は近年のビジネスシーンではキーワードとなっています。これらは技術発展による最新テクニックのように感じるかもしれませんが、Webスクレイピングの歴史は長く、インターネットが登場した1989年にまでさかのぼります。
インターネットが登場したての頃は、まだ検索エンジンさえありませんでしたので、当時のWebスクレイピングは、主に「Webのサイズを測ること」を目的に開発されていました。その後、Web検索エンジンが登場したことで、Webスクレイピングも検索エンジンの利用へとシフトしていきました。
その後、2004年にPython言語で開発されたHTML解析フレームワーク「BeautifulSoup」が登場により、Webスクレイピングの実装が格段に容易になりました。これをきっかけに、Webスクレイピングがデータ収集に役立つ技術として注目を集めるようになりました。
Webスクレイピングが注目されるようになった背景とは
インターネットの成長に伴い、WWWは何百万ものWebページのホームになりました。それは、テキスト・画像・動画・音声などを含むオープンなデータソースになったことを意味します。
これらのデータソースは、検索エンジンによって簡単に検索できるようになったことで、インターネット上に分散している情報を探すのがとても容易になりました。しかし、Webページからデータを取得する際、すべてのWebサイトでダウンロードオプションが提供されているわけではありません。
例えばテキストデータを取得する場合は、手作業によるコピー&ペーストで、Excelやスプレッドシートに貼り付ける必要がありました。こうした、非効率な手作業は生産性の観点では非常に低いと言わざるを得ません。
その作業を効率化するためにWebスクレイピングが注目されるようになりました。特定のWebサイトからの特定のデータのみを抽出するWebスクレイピングは、インターネット上のデータ活用が注目されるにつれ、ますます注目を集めています。
Webスクレイピングの歴史を時系列で確認
Webスクレイピングの歴史を時系列でまとめています。
· 1989年 WWWの誕生
WWWはイギリスのコンピューター科学者であるティム・バーナーズ=リーによって開発されました。WWWとインターネットを混同される方も少なくありません。しかし、技術的な観点でいえば両者の概念は異なります。WWWは情報空間を指し、インターネットはコンピュータで構成されるネットワークを指します。 WWWの登場は、私たちの日常生活に対して大きく3つの影響をもたらしました。 1.特定のWebページに辿りつくためのURL(Webページなどの場所を示すアドレス) 2.テキスト、画像、音声、動画、その他ソフトウェアコンポーネントを含むWebページ 3.Webページ間をクリックひとつでナビゲートするために埋め込まれたハイパーリンク |
· 1990年 最初のWebブラウザの誕生
ティム・バーナーズ=リーは、1990年に世界で初めてウェブサーバーとグラフィカルウェブブラウザーを開発しました。インターネットへの新しい窓は、「WorldWideWeb」と名付けられ、テキストドキュメントが初めてパブリックネットワークにリンクされました。 |
·1991年 最初のWebサーバーと最初のhttp://Webページの誕生
WWWの登場以降、Webは急速に成長し続けました。政府・大学・民間企業は、こぞってオープンインターネットに機会を見出し、1994年までの間にHTTPサーバーの数は200台を超えました。 |
·1993年6月 最初のWebロボット – World Wide Web Wanderer
今のWebロボットと同じように機能しましたが、当時はWebのサイズを測定することのみに使われていました。 |
·1993年12月 最初のクローラベースのWeb検索エンジン – JumpStation
当時Web上では、利用可能なWebサイトがあまり多くありませんでしたので、当時の検索エンジンは、人間がWebサイトを管理し、手作業でリンクを収集して特定のフォーマットに編集していました。 そうした中、JumpStationは新しい進歩をもたらしました。JumpStationは、現在の検索エンジンと同じように動作する世界初の検索エンジンです。Webページを見つけてダウンロード(取得)し、Webページに表示されているすべての情報をスクレイピングし、検索エンジンのデータベースに追加します。 JumpStationの登場により、人々はプログラムによるWebクローラーを使用してインターネットを収集し始めました。 その後、Infoseek、Altavista、Exciteが登場し、今日ではBing、Googleとさまざまな検索エンジンが登場していますが、検索エンジンボットのコアはすべて同じです。 元々Webページは人間のために設計されたものであり、自動化を想定したものではありません。そのため、プログラミングの知識・理解がない非技術者にとって、Webスクレイピングを行うことはハードルが高いものでした。だからこそ、専門技術者たちはWebスクレイピングが多くの人々にとって利用しやすいサービスに仕上げることに注力してきました。 |
·2000年 Web APIとAPIクローラー
API(Application Programming Interface)は、ソフトウェアコンポーネントが互いにやりとりするのに使用するインターフェースです。 2000年、大手IT企業のSalesforceとeBayは独自のAPIを発表しました。これにより、プログラマは公開されているデータの一部にアクセスしてダウンロードできるようになりました。近年多くのWebサイトでは、ユーザーが公開データベースにアクセスするためのオープンAPIを提供しています。 Web開発におけるAPIとは、一般にHTTP要求メッセージ群とXMLまたはJSON形式などの応答メッセージの構造定義で構成されます。 Web APIは、Webサイトによって提供されるデータを収集するだけで、開発者にWebスクレイピングを行うためにフレンドリーな方法を提供します。 |
· 2004年 Python Beautiful soup
すべてのWebサイトでAPIが提供されているわけではありません。例えAPIがあったとしても、自分たちが望むデータを入手できないこともあります。 そこで、プログラマーはWebスクレイピングをさらに容易にする方法を模索していました。そこで登場したのが、2004年にリリースされた「Beautiful Soup」です。Beautiful Soupは、HTMLファイルやXMLファイルからデータを抽出するためのPythonライブラリです。 Beautiful soupは、かんたんなコマンドを打ち込むだけで、Webサイト内の構造を理解し、HTMLファイル内のコンテンツを解析してくれます。Beautiful SoupWebは、Webスクレイピングのために開発された高度なライブラリであり、現在も一般的なアプローチの1つとして広く普及しています。 |
· 2005-2006年 ビジュアルなWebスクレイピングソフトウェア
2006年にKapax Softwareは「Web Integration Platformバージョン6.0」をリリースしました。これは、視覚的なWebスクレイピングソフトウェアとして理解されています。ユーザーは簡単にWebページのコンテンツを強調し、使用可能なExcelファイル、またはデータベースに変換できます。 |
これによりWebスクレイピングソフトウェアは数多くの非プログラマにとって、Webスクレイピングを行うための手段として急速に認知されるようになりました。
この結果、あらゆるビジネスシーンでWebスクレイピングの活用が広まってきています。非プログラマにとって、コーディングをしなくともWeb上のデータを抽出できるWebスクレイピングツールは非常に有効な手段といえるでしょう。
Webスクレイピングの展望。これからどうなるか?
インターネット上にはあらゆるデータが溢れ、現在でも毎秒膨大な数のデータが増え続けています。今やデータは誰でも手に入れられますが、今後はデータをいかに活用していくかが課題になります。
データを活用し新たな価値を見出すためには、必要なデータを収集・整理し、分析や洞察まで行うことが欠かせません。
従来、データを収集するには大きな時間・労力・コストを費やしました。しかし、今ではWebスクレイピングツールも登場したことで、誰でも容易にデータ収集まで行える時代となりました。Web上で企業や自治体などの組織に限らず、個人であっても必要なデータを時間や労力をさほど掛けずに入手できます。
それでも自分でやるのが面倒な場合は、リーズナブルな価格でプロにデータ収集を依頼することも可能です。
フリーランスマッチングサービスのランサーズで「スクレイピング」を検索すると、2,289件の検索結果が出てきます。つまり、2,000人以上のフリーランサーがWebスクレイピングサービスを提供しています。クラウドワークスでも3,000件以上で、ココナラでは918件です。Webスクレイピングの注目の高まりから、案件数も増え続けています。 |
業界・業種問わず企業のデータ活用需要の増加は、Webスクレイピングにとって、新しい市場・雇用機会・ビジネスチャンスをもたらしました。
一方、Webスクレイピングは法的リスクを伴うトラブルを招いています。Webスクレイピング技術自体は合法ですが、企業によっては情報流出の観点でスクレイピングを禁止しているケースも少なくありません。
こうしたWebスクレイピングの扱いに関して、今のところ明確な法律が定められていません。現時点では、多くの問題が解決されていなく、あるいは具体的な事実に依存しています。
Webスクレイピングはかなり長い間実践されてきましたが、裁判所はビッグデータという背景でどのような関連法理論が適用されるかについて検討し始めているに留まっているのが現状です。
まとめ
WebクローリングやWebスクレイピングは、近年急速に普及しているため、法律関連も含めてまだまだ発展途上段階です。そのため、これからどうなるのかは予測できません。
しかしながら、インターネットがある限り、Webスクレイピングは間違いなく活用され続けるでしょう。ビッグデータを扱う「データサイエンティスト」などのデータ解析の専門家が世界中で活躍し始めている中、政府や企業は積極的に投資しています。
そのため、Webスクレイピングを未だ体験したことがない方は、まずはコーディングなしで簡単に扱えるWebスクレイピングツールを使い、実際のWebスクレイピングを体感してみると良いでしょう。
Webスクレイピングツール「Octoparse」なら、わずかなクリック操作だけでスクレイピングタスクを実行できるテンプレートが豊富です。さらにフリープランもあるので、お試し利用に最適です。