X(旧 Twitter)は、全世界で月間3億3000万人のアクティブユーザー数を誇り、日本でも月間4500万人が利用する人気SNSです。幅広い年代に利用されていることから、国内企業・日本政府でも情報発信ツールとして積極的にXを活用しています。
さらに、あらゆるビジネスでインターネット上のデータ活用が注目される中、Xのポストをビッグデータとして活用する企業も増えています。しかし、X上のポストデータをどのように取り込めば良いかわからない方も多いはずです。そこで本記事では、Xからポストデータをスクレイピング・取得する方法を紹介します。
ここで紹介する方法は無料で活用できる上に、かんたんな操作だけでデータ抽出が可能なので、作業時間の短縮や業務生産性の効率化につながります。Xのポストデータを上手に活用して、自社のマーケティング活動の精度を高めましょう。
X(Twitter)データの用途とは
全世界で利用されるXには数多くのデータが存在します。具体的には、Xのプロフィール、ハッシュタグ、タイムライン、ポスト情報などが挙げられます。それらのデータを抽出し、扱いやすい形に整理・加工することで、企業のマーケティング活動や競合対策など、あらゆるビジネスシーンで役立ちます。
例えば以下のような用途があります。
- ブランドモニタリング
- 予測分析
- 競合他社の追跡
- センチメント分析
- MLモデルのトレーニング
- 業界動向分析
- 市場調査
- マーケティングの最適化
- 新製品イノベーション
このようにXのデータはあらゆるビジネスシーンで役立ちます。他にも、自社のターゲット層は誰をフォローしているか、どんなポストに興味関心があるか、現在のトレンドワードは何かなどを分析すれば、ユーザーが求めているニーズや思考の理解に役立つでしょう。
X(Twitter)からデータをスクレイピング・取得する方法
Xからデータを抽出する方法は以下の3つが挙げられます。
- Webスクレイピングツールを利用する
- オープンソースのスクレイピングパッケージを利用する
- X APIを利用する
Webスクレイピングツールを利用する
Webスクレイピングツールとは、Webサイト内の情報を自動で抽出するソフトウェアサービスのことです。一般的にWebスクレイピングを行うためには、Pythonなどのプログラミングが必要です。
しかし、Webスクレイピングツールを利用すれば、プログラミングを行わずとも、かんたんなクリック操作だけでスクレイピングタスクを実行できます。Xのポストデータをスクレイピングする際に最も効率的な方法といえるでしょう。
X APIを利用する
X APIは、Twitter社がデータを提供しているため様々なデータを取得できます。主な機能と料金は、次のとおりです。
プラン | 月額料金 | 月間投稿数上限 | 主な機能 |
Free | 無料 | 1,500ポスト | 基本的なAPIアクセスとツイートの投稿 |
Basic | $100/月 | 50,000ポスト | 拡張APIアクセス、リアルタイムデータ取得 |
Pro | $1,500/月 | 1,000,000ポスト | さらなる拡張APIアクセス、大量データ収集 |
Enterprise | カスタム | 制限なし | 完全なAPIアクセス、カスタム機能とサポート |
オープンソースのスクレイピングパッケージを利用する
オープンソースとは、誰でも利用・編集できるように無償で公開されたソースコードのことです。オープンソースのスクレイピングパッケージを使えば、無料でスクレイピングを行うことができます。しかし、スクレイピングプログラムを構築するには、プログラミングスキルを習得しなければなりません。
また、オープンソースは非営利団体・コミュニティが管理しているため、アップデートやバグ修正(バグフィックス)の即時性を保証されないというデメリットもあります。
初心者がX(Twitter)データをスクレイピングするならWebスクレイピングツールが最適
ここまで解説した通り、初心者がXのデータをスクレイピングする際は、Webスクレイピングツールの活用がおすすめです。他の方法に比べ、手軽でかんたんな操作だけでデータ取得が可能なので、時間とコストを大幅に節約できます。
数あるWebスクレイピングツールの中でも「Octoparse」では、コードを書かずにかんたんな設定・操作だけで、データ抽出の自動化が実現可能です。わずか10分程で、何千ものポストデータを抽出できます。さらに、データ抽出スピードが速いだけではなく、無料から使えるなど導入費用の安さも魅力です。
個人での利用であれば、無料プランでも十分に活用できます。一方企業が膨大な量のデータ抽出を求める場合は、有料プランがおすすめ。Octoparseを利用する際は、予算と要件に応じて、適切なプランを選択しましょう。
Octoparseでポストデータをスクレイピングする方法
Octoparseでは、数多くのWebサイトのデータ抽出テンプレートが用意されています。データを抽出したい対象サイトのテンプレートをチェックするだけで利用が可能です。ここでは、テンプレートの使い方について解説します。
ステップ1
お使いにOS(Windows、Mac)に合わせてOctoparseの最新バージョンをダウンロードし、ログインします。
起動すると次のような画面が表示されますので、検索窓に「Twitter」と入力します。
ステップ2
X(Twitter)関連のテンプレートが表示されます。
ステップ3
Xのテンプレートはいくつか存在しますが、それぞれ抽出できるデータが異なります。
それぞれの違いは次の表を参考にしてください。
Get Twitter Cookies | ユーザー名(ニックネームやアカウントのメールアドレスではない)とパスワードを入力すると、クッキーが取得できます。 |
Twitter Scraper (by Account URL) | X(Twitter)のアカウントページから、各ポストの投稿ID、投稿内容、投稿日時など詳細情報を抽出します。 |
Twitter Scraper (by Search Result URL) | X(Twitter)のページから、各ポストの投稿内容、投稿日時などの情報を抽出します。 |
Tweets & Comments Scraper (by Search Result URL) | キーワードから最新のポスト、トップポストなどのデータを抽出します。 |
Twitter Scraper (by hashtag) | トップポストから「いいね数」「リポスト数」「返信数」などのデータを抽出します。 |
Twitter Scraper (by Keywords) | 任意の期間において特定のキーワードでポストされた情報を抽出します。 |
Twitter Auteur Scraper | キーワードから作成者に関する情報(コンテンツ、コメントなど)を抽出します。 |
ステップ4
ポストデータの取得を開始する前に、まずは「Get Twitter Cookies」のテンプレートを使用して、クッキーを取得する必要があります。
https://www.octoparse.jp/template/get-twitter-cookies
Octoparseでスクレイピングする際は、ユーザーのプライバシーデータを保存しませんので、ご安心ください。
- ステップ1:Xのユーザー名とパスワードを入力してください。例えば、あなたがElon Muskの場合は、Elon Muskではなく@elonmuskと入力してください。
- ステップ2:保存>実行をクリックし、「クラウド収集」または「ローカル収集」を選択します。するとクッキー情報を取得できます。
ステップ5
続いて、「Twitter Scraper(by Account URL)」テンプレートを使って、Octoparse Japanのポストデータをスクレイピングします。
https://www.octoparse.jp/template/twitter-scraper-by-account-url
テンプレートを選択したら、TwitterアカウントのURLを入力します。入力したら、実行ボタンをクリックしましょう。
<アカウント名がわからない場合>
アカウント名は、各アカウントのURL内に記載されています。
例えば、「https://twitter.com/octoparsejapan」の場合は末尾の「octoparsejapan」がアカウント名です。
ステップ6
タスク実行方法を選択する画面になりますので、「ローカル抽出」か「クラウド抽出」のいずれかを選択します。データ量が少なければローカル抽出で問題ありません。クラウド抽出の場合はスピードが最大20倍にアップしますが、有料プランの契約が必要となります。
タスクを実行するとデータ抽出が開始されます。全てのデータが抽出されるまでに、数分程度掛かりますので、完了まで少し待ちましょう。
抽出したデータは、外部ファイルにエクスポートできます。エクスポート先はExcel、CSV、HTML、JSON、その他データベースのいずれかから選択可能ですので、活用方法に合わせて選択しましょう。
例えば、Excelにエクスポートした場合、グラフやピボットテーブルを作成するなど、データの見える化が可能です。Excelの便利な活用方法を知りたい方はこちらの記事を参考にしてください。
参考:Excelでデータ分析を行う際に知っておくべき関数10選
X(Twitter)APIを活用してスクレイピングする方法
XではAPIを提供しています。X APIとは、公式のWebサイトを経由せずとも、Xのサービスを利用できるようになる機能で、様々なツールと連携できます。例えば、Pythonを使ってポストの自動投稿を行ったり、特定の人物のポストを自動取得することが可能です。X APIを利用するには、Xにログインした状態で「X Developer Platform」にアクセスし、利用申請を行います。申請後、審査に問題がなければAPIが利用できるようになります。
ただし、APIを使ってデータ取得を自動化するには、Pythonなどのプログラミング知識が欠かせません。プログラミングの知識がない方にとってはハードルが高いといえるでしょう。また、X APIでは利用規約があるため、規約範囲内でしか利用できないことも注意が必要です。
X API v2のビジネス用途について
X API v2は、さまざまな業界やビジネスで広く活用されています。以下は一般的な使用例です。
- マーケティングと顧客サービス:自社に関する評判や話題を監視し、マーケティング戦略や顧客対応に活用することができます。特定のキーワードやハッシュタグを追跡し、市場の動向を把握することで、競争力のある戦略を立てることが可能です。
- データ分析とトレンド調査:ツイートのエンゲージメントやセンチメントを分析し、キャンペーンの効果を評価することができます。また、競合他社の動向を調査し、ビジネス戦略に反映させることができます。
- 研究目的:社会科学やコンピューターサイエンスなど、多様なトピックに関する研究で活用されています。COVID-19のパンデミック時には、人々の認識や感情の変化、デマの発生原因などを分析するために使用されました。
合法性と倫理的な利用規約
スクレイピングとは、ウェブ上の情報を自動で収集する手法です。スクレイピング自体は違法ではなく、公開されている情報を収集する行為は合法とされています。
ただし、使い方を誤ると法的リスクにさらされる可能性があります。特に、以下の点に注意しましょう。
- 著作権の遵守:著作権で保護されたコンテンツを無断で収集・再配布することは違法です。
- プライバシー保護:個人情報を無断で収集し、プライバシーを侵害することは違法です。
- 利用規約の遵守:ウェブサイトの利用規約にスクレイピングが禁止されている場合、その規約を遵守する必要があります。
また、X(Twitter)のようなソーシャルメディアでは、独自の利用規約を設けています。Webサイトをスクレイピングする際は、利用規約に必ず目を通すようにしましょう。
実際に、X(Twitter)のサービス利用規約では、APIを通じてのスクレイピングは許可されていますが、それ以外の方法でのスクレイピングは明確に禁止されています。具体的には、以下のように記載されています。
<X サービス利用規約>
ユーザーはまた、たとえばTwitterサービスの妨害や当社が提供するインターフェースおよび手順以外の方法を使ったTwitterサービスへのアクセスにより、Twitterサービスの不正利用をしないことにも同意するものとします。ユーザーは、本サービスへのアクセスまたはその使用中に、次のいずれも行ってはなりません。
(iii)当社から提供される(かつ該当する利用条件に従う場合にのみ提供される)、当社の現在利用可能な公開インターフェース以外の方法(自動プログラムか否かを問わない)での、本サービスへのアクセスもしくはその探索またはアクセスもしくは探索の試み(ただし、当社との個別契約で特に許可されている場合は除く)(注記: 本サービスへのクローリングまたはスクレイピングを、当社による事前の書面での同意がないまま行うことは明示的に禁止されています)
引用:X サービス利用規約
したがって、Xを使ってスクレイピングを行う際には、以下の点に注意してください。
- 短時間で大量のアクセスを避ける: サーバーに過度の負荷をかけないように注意すること。
- 個人的な使用範囲に限定する: データの使用目的が合法的であることを確認すること。
- 規約違反に注意: 規約違反が疑われる行為は避け、必要に応じて事前に許可を取ること。
詳しくは、こちらの記事を参考にしてください。
参考:X(Twitter)でスクレイピングは禁止?スクレイピングのポイントと注意点を解説
まとめ
今回は、数あるSNS(ソーシャルネットワーキングサービス)中でも、特に利用者数が多い、X(Twitter)のデータをスクレイピング・取得する方法を紹介しました。
Xのポストデータを活用すれば、ブランドのモニタリング、競合他社の監視、MLモデルのトレーニング、新製品の開発など、あらゆる場面で役立ちます。
XではAPIも提供していますが、初心者にはやや扱いが難しいため、Webスクレイピングツールの活用がおすすめです。中でも、Octoparseはノーコードでポストデータを抽出できる便利なツールです。Octoparseのテンプレートには、すでにXのAPIが組み込まれているため、データ収集プロセスを高速かつ効率的に実行し、スクレイピングに必要な技術インフラをユーザーに提供します。
まずは実際に触ってみて、Xスクレイピングを体感してみてください。