ixivは、国内最大級の会員制イラストコミュニティサイトです。Pixivには膨大なデータがあり、これらのデータをスクレイピングして活用したいと考えている方も少なくはありません。そのような方は、「Pixivでスクレイピングする行為は違法なのか?」や「Pixivでスクレイピングするときの注意点とは?」などといった疑問を抱くこともあるでしょう。
そこで本記事では、Pixivでスクレイピングを行いたい方に向けて、Webスクレイピングの基礎知識やPixivでのスクレイピングの注意点、Octoparseを使ったPixivへのWebスクレイピングの方法などについて解説します。本記事を参考にして、Pixivのデータを安全かつ効率的に収集するためのノウハウを身につけましょう。
Pixivとは
Pixivとは、日本で2007年にスタートした会員制イラストコミュニティサイトです。ユーザーは、自分のイラスト・小説を共有することや、他の人の作品を閲覧・評価などができます。
お気に入りのクリエイターをフォローして、最新作のチェックするなどが可能です。また、コミュニティ機能もあり、ユーザー同士の活発なコミュニケーションが行われています。
スクレイピングとは
スクレイピングとは、Web上の膨大なデータを短時間で自動で収集する技術のことです。収集したデータを用いて、データ分析やマーケティングなどに活用しています。
だたし、スクレイピングには限界があることを理解することが重要です。取得できる情報はWeb上でオープンにアクセス可能なデータに限定されます。また、収集したデータの使用は個人的な用途に限られる点も注意が必要です。
関連記事:【徹底解説】スクレイピングとは|初心者にも分かるスクレイピングに関する解説!
スクレイピングは違法行為?
スクレイピングをすることに違法性はありません。その主な理由は、Webサイトの情報はオープンに公開されており、人が情報を検索して収集する行為と基本的に変わらないからです。
政府機関や大手企業も、さまざまな調査やデータ分析のためにスクレイピングの技術を活用しています。このように公益に役立つ研究のためであれば、スクレイピングは非常に役立つ技術のひとつです。
しかし、スクレイピングの使用方法によっては、法律に違反することもあり得ます。例えば、著作権で保護されたコンテンツを無許可で収集・再配布したり、個人情報を含むデータを不正に収集しプライバシーを侵害したり、Webサイトの利用規約に違反してスクレイピングを行ったりする場合がそれに当たります。
多くの場合、Webサイトの利用規約にはスクレイピングやデータ取得に関する条項が含まれていますので、スクレイピングを行う際には、対象サイトの規約を確認し、必要に応じて許可を得ることが重要です。
Pixivはスクレイピング禁止?
Pixivの利用規約では、スクレイピングを直接的に禁じている訳ではないものの、スクレイピングが原因で規約に抵触する可能性のある表現がいくつか含まれています。具体的に言うと、次のような行動が禁止事項に挙げられています。
・本サービスもしくは本サービスの一部(コンテンツ・情報・機能・システム・プログラム等)を使用・転用・転売・複製・送信・翻訳・翻案・改変などして、いかなる手法を問わず商業・営業目的の活動、営利を目的とした利用およびその準備を目的とした利用をすること、その他本サービスの2次利用や複製行為。但し、ユーザー本人による投稿情報は除きます。
・情報解析した結果を用いて、反復継続して特定の第三者の作品、肖像または音声等に類似した投稿情報を投稿等する行為、その投稿等を幇助または助長するモデルまたはツール等を配布または販売する行為、その他の第三者の利益を不当に害すると当社が判断する行為
・通常の範囲を超えて本サービスのサーバーに負担をかける行為、もしくは、本サービスの運営やネットワーク・システムに支障を与える行為、またはこれらのおそれのある行為
これらの規約は、Pixivの健全な運営と、ユーザーの権利保護を目的として設けられています。したがって、スクレイピング作業を行う際は、これらの規約に抵触することのないよう、十分な注意が必要となります。
特に注意が必要なのは、Pixivアカウントにログイン中の場合です。この場合、利用規約に同意したものとみなされるため、ログイン状態でのスクレイピングは避けるべきです。また、ログアウト状態であっても、短期間に大量のデータを収集し、サーバーに過度の負荷をかけた場合、偽計業務妨害罪などの罪に問われる可能性があります。
スクレイピングの合法性や違法性については、別の記事で詳しく解説されていますので、そちらを参照することをおすすめします。
関連記事:スクレイピングは違法?Webスクレイピングに関するよくある誤解!
Pixivでスクレイピングする場合の注意点
Pixivをスクレイピングを行う際には、いくつかの注意点を理解する必要があります。主に以下の注意点を必ず守るようにしましょう。
・法律を尊重すること
スクレイピングを実施する際には、著作権法や個人情報保護法を含む適用される法律の遵守が必須です。特に、個人情報を含んだデータを取り扱う場合には、厳重な注意と適正な管理が必要とされます。
・Pixivの利用規約を必ずチェックすること
スクレイピングを開始する前に、最新のPixivの利用規約をチェックし、スクレイピングに関連する項目が変更されていないかを確認するようにしましょう。
・ログインしないこと
Pixivへのログインは、同プラットフォームの利用規約への同意とみなされます。そのため、Pixiv上でのスクレイピング作業を行う際には、ログインしない状態で実施するようにしましょう。
・Pixivのサーバーに負荷をかけないこと
Pixivへのスクレイピング時には、サーバーへの負担を最小限に抑えるために、アクセスの頻度や抽出データ量などに注意を払うことが重要です。短期間に多量のアクセスを試みると、攻撃行為と見なされアクセス制限の対象になる可能性があります。手動で情報を収集する際の速度を基準にして、アクセスの頻度を適切に調整しましょう。
人気のWebスクレイピングツール『Octoparse』とは
プログラミングやスクレイピングの知識に自信がない初心者の方には、Webスクレイピングツールを使ったWebスクレイピングがおすすめです。今回紹介するWebスクレイピングツールは『Octoparse』です。Octoparseは、プログラミング不要で数クリックでWebスクレイピングを行えます。
初心者の方でも使いやすい操作画面で、大企業から個人まで幅広いユーザーがOctoparseを活用しています。Octoparseを使えば、Pixivのさまざまなデータを効率的に抽出可能です。そのため、Octoparseは多くのユーザーから高い支持を受けています。
Octoparseを使ってPixivにスクレイピングをする方法
Octoparseを使えば、簡単にPixivのデータをスクレイピングすることが可能です。今回はOctoparseを使って、Pixivの「総合デイリーランキング」をスクレイピングする方法について解説します。以下の手順に沿ってOctoparseを操作すれば、簡単にPixivの「総合デイリーランキング」のデータを抽出できます。
1・最初に、スクレイピングしたいWebページのURLをWebブラウザのURL欄からコピーします。Pixivの「総合デイリーランキング」であれば、「https://www.pixiv.net/ranking.php」が対象のURLになります。
2・ 次にOctoparseを起動します。その後、トップ画面の検索欄にコピーしたURLを貼り付け、スタートをクリックします。
3・Octoparseの画面が変わったら、画面右上の「ウェブページのデータを自動検出」をクリックします。クリックすることで、Octoparseが自動で取得すべきデータを判断し検出します。
4・データの検出が終了したら、抽出するデータ候補が緑の枠で囲まれます。必要なデータが表示されない場合は、操作提案から「検索結果を切り替える」をクリックします。データフィールドをチェックして、問題がない場合は「ワークフローを生成」をクリックしてください。
5・今回は以下のようなワークフローが生成されました。
6・続いて、画面右上の「実行」をクリックします。
7・「タスク実行」の画面が表示されます。ここでは、「ローカル抽出」または「クラウド抽出」を選択できます。ローカル抽出は、基本的なスクレイピングニーズには十分対応可能です。クラウド抽出を選ぶと、スクレイピングの速度が上がる一方で、Octoparseの有料プランが必要になる場合があります。今回は、ローカル抽出の通常モードを選択します。
8・スクレイピングが始まると、画面に進行状況が表示されます。スクレイピングが完了したら「実行完了」と表示されます。その後、「エクスポート」をクリックします。
9・「エクスポート」をクリックすると、抽出データの保存画面に移ります。エクスポートは、ファイル形式としてExcel、CSV、HTML、JSON、Xmlが選択できます。また、データベース(Google Sheets、SQL Server、MYSQL)にもエクスポートが可能です。
10・エクスポートしたデータは、さまざまな用途(データ分析など)で活用できます。
まとめ
本記事では、Webスクレイピングの基礎知識やPixivでのスクレイピングの注意点、Octoparseを使ったPixivへのWebスクレイピングの方法などについて解説してきました。Pixivでのスクレイピングは、利用規約違反にならないよう未ログイン状態で行い、サーバーへの負荷を避けることが重要です。
また、法律の遵守と最新の利用規約の確認は必須です。Octoparseを使えば、プログラミング知識がなくてもPixivのデータを効率的に収集でき、データ分析などに活用できます。この機会に、Octoparseを使ったWebスクレイピングにチャレンジしてみてはいかがでしょうか。