研究や課題、あるいは仕事上で学術文献を参照する機会は多々あります。そこで役立つのが論文検索サイトです。
論文検索サイトを利用する際は、特定の学術文献ではなく、あるキーワードに絞ってさまざまな文献を参照したい時もあります。
そうした際に「もっと効率よく文献を探す方法はないか?」効率性を追求したい方も多いのではないでしょうか。
今回ご紹介するのは、論文検索サイトである「Google Scholar」から学術文献をリスト化する方法です。Webスクレイピングツールの「Octoparse(オクトパス)」を使えば、わずか5分で100件の学術文献をリスト化できます。
やり方は非常にシンプルなので、学術文献を効率よく探したいという方はぜひ参考にしてみてください。
学術論文の収集に役立つOctoparse(オクトパス)とは?
Octoparseとは、インターネット上にあるさまざまな情報を自動で取得・リスト化する、Webスクレイピングツールです。Octoparseを使用すれば、情報によってはわずか数分で数百件ものデータ取得が可能になります。
一般的にWebスクレイピングというと、Pythonなどの高度なプログラミング言語が用いられます。そのため非エンジニアの方が、自力でWebスクレイピングを実行するのはハードルが高いと感じる方も多いでしょう。
しかし、Octoparseはプログラミングを一切行わないノーコードツールであるため、プログラミングスキルを持たない方でも、直感的なマウス操作だけでワークフローを設計できます。Octoparse公式ページでは、マニュアルも充実しているため、初めて使う方でも簡単にWebスクレイピングを実行できます。
Octoparseのテンプレートとは
Octoparseには、数百種類のテンプレートが用意されています。これらのテンプレートを使用すると、手動でスクレイピングタスクを設定することなく、わずかな手順でデータ取得を実現します。
Octoparseのテンプレートは、Amazon、楽天市場、Indeed、Google Mapsなど、多くのユーザーが利用するサイトに対応しており、サイトごとにどのデータを取得するかがあらかじめ設定されています。
ユーザーは、データを取得したいサイトのURLを対象のテンプレートに貼り付けるだけで、スクレイピングが実行されるため、圧倒的に作業効率を高めることが可能です。
Octoparseのテンプレートの例としては、次のようなものがあります。
- 検索エンジン:Google、Bing、Yahoo!など
- Eコマース:Amazon、楽天市場、eBay、メルカリなど
- ソーシャルメディア:The X(Twitter)、Youtube、TikTokなど
- 不動産:SUUMO、ホームズ、goo不動産など
- ファイナンス:Yahoo!Finance、LINE FXなど
- 求人情報:Indeed、ハローワーク求人検索、タウンワークなど
- 店舗情報:iタウンページ、ぐるなび、HOT PEPPERなど
- 旅行:Tripsdvisor、Booking、Airbnbなど
- 学術文献:Google Scholar、ニッセイ基礎研究所など
学術文献をスクレイピングするメリットとは
学術文献のWebスクレイピングは、研究や学問の進展において非常に有用なツールとなっています。具体的にどういったことに役立つか、いくつかポイントをまとめてみました。
- 大量のデータ収集:学術文献の数は膨大で、それらを一つ一つ手動で収集するのは非常に時間がかかります。Webスクレイピングを使用することで、短時間で大量の文献データを収集することが可能となります。
- 最新の研究トレンドの把握:Webスクレイピングを利用すれば、最新の学術文献を自動的に収集し、現在の研究トレンドやホットなトピックを迅速に把握することができます。
- 研究の比較・検証:異なる研究や文献間での情報やデータを比較・検証する際に、Webスクレイピングを利用してデータを収集することで、より正確で迅速な比較が可能となります。
- 文献管理と整理:Webスクレイピングを利用して収集したデータは、データベースや文献管理ソフトに取り込むことで、研究者が必要とする文献を迅速に検索・整理することができます。
論文検索サイトGoogle Scholar(グーグル スカラー)とは?
Google Scholar・グーグル スカラーとは、Googleが無料で提供している無料の論文検索サイトです。Google検索と同じようなインターフェースで学術文献を検索でき、世界中の文献が2億件以上登録されています。
多くの学術文献は全文を無料で読むことができ、研究や課題、仕事上で参照にしたい文献を探し出すのに最適なサービスです。
Google Scholarの使い方
Google Scholarの使い方は非常にシンプルです。ここでは、「人工知能関連の論文」を例に使い方を解説します。
1. Google Scholar(https://scholar.google.co.jp/)にアクセスする
2. キーワードを入力して、気になる学術文献をクリックする。(ここでは「人工知能関連」と検索します)
検索結果に表示された学術文献をクリックすると文献が掲載されているページに移動し、文献の閲覧やダウンロードが行えます。
また、Google Scholarは期間や言語、特許の有無などで学術文献を絞り込むことができるため、目的の文献を探しやすいのが特徴です。
Google Scholar(グーグル スカラー)から参考文献をリスト化する方法
それでは早速、Google Scholarから学術文献をリスト化する方法をご紹介します。Octoparseでは、Google Scholarのテンプレートタスクも提供されているので、今回はテンプレートタスクを使ったWebスクレイピングのやり方をご紹介します。
もし、Octoparseのインストールとアカウント設定が済んでいない場合は、Octoparseの新規登録ページからアカウント登録してください。
https://www.octoparse.jp/template/google-scholar-jp-article-scraper
1. Octoparseをインストール&起動する
お使いのPCにOctoparseをインストールし、起動しましょう。
Octoparseのダウンロードページに移動し、中央に表示されているバージョン番号をクリックしてください。
2. Google Scholarのテンプレートタスクを探す
続いて、数あるテンプレートタスクの中から、Google Scholarのテンプレートタスクを探します。
ホーム画面の左上にある「新規作成」をクリックし、表示されたメニューから「テンプレートタスク」をクリックしてください。
次にカテゴリーで「学術文献」をクリックします。すると、学術文献関連のテンプレート一覧が表示されるので、その中から「[JP]記事情報_Google Scholar」を選択します。
Google Scholarのテンプレート概要が表示されるので、内容を確認してください。「サンプルデータ」では、テンプレートタスクを使ってどのような情報がリスト化されるかを確認できます。
4. Google ScholarをWebスクレイピングする
スクレイピングを開始するには、「今すぐ試す」をクリックします。
続けて、キーワードの部分にGoogle Scholarで検索したいキーワードを入力し、「保存して実行」をクリックしてください。ここでは、例として「人工知能関連」と入力します。
タスク名は任意の名称を入力しましょう。「保存して実行」をクリックすると、タスクの実行方法を選択する画面が表示されるので、ローカル抽出の「通常モード」をクリックしてください。
クラウド抽出は有料プランで利用でき、Octoparseを使って収集した情報をクラウド上に保存することができます。 以上の手順をもって、Google ScholarのWebスクレイピングがスタートします。
5. Webスクレイピングした情報をエクスポートする
Google ScholarのWebスクレイピングがスタートしてからわずか5分ほどで100件の文献情報をリスト化できました。
今回は文献情報を100件収集したところで「一時停止」をクリックしてWebスクレイピングを止めましたが、通常はヒットした学術文献をすべてリスト化するまで実行されます。
Webスクレイピングが終了したらファイルをエクスポートする画面が表示されるので、ExcelやCSVなど任意の形式でリストファイルをダウンロードしましょう。
学術文献のタイトルやディスクリプションなどが一覧で表示されるので、気になる文献を探しやすく、文献のリンクをクリックすればすぐに閲覧できます。
このようにOctoparseを使ってGoogle ScholarをWebスクレイピングすれば、学術文献を探す時間を圧倒的に短縮できます。
まとめ
Google Scholar(グーグル スカラー)などの論文検索サイトは素晴らしいサービスですが、目的の学術文献を探し出すのに手間と時間がかかるのが、ちょっとした難点です。
しかしOctoparseを使えば、その難点が一気に解消され、短時間で100件以上の学術文献をリスト化できます。Webスクレイピングを実行している間は他の作業に集中できるので、生産性もアップしますね。
Octoparseを使ったことがないという方は、この機会にGoogle Scholarの情報収集に是非ご活用ください。
また、Octoparseを使えばあらゆるサイトやサービスから情報をリスト化できるので、Google Scholar以外での情報収集にもおすすめです。