X(旧 Twitter)は、全世界で月間3億3000万人のアクティブユーザー数を誇り、日本でも月間4500万人が利用する人気SNSです。幅広い年代に利用されていることから、国内企業・日本政府でも情報発信ツールとして積極的にXを活用しています。
さらに、あらゆるビジネスでインターネット上のデータ活用が注目される中、Xのポストをビッグデータとして活用する企業も増えています。しかし、X上のポストデータをどのように取り込めば良いかわからない方も多いはずです。そこで本記事では、Xからポストデータをスクレイピング・取得する方法を紹介します。
ここで紹介する方法は無料で活用できる上に、かんたんな操作だけでデータ抽出が可能なので、作業時間の短縮や業務生産性の効率化につながります。Xのポストデータを上手に活用して、自社のマーケティング活動の精度を高めましょう。
X(Twitter)データの用途とは
全世界で利用されるXには数多くのデータが存在します。具体的には、Xのプロフィール、ハッシュタグ、タイムライン、ポスト情報などが挙げられます。それらのデータを抽出し、扱いやすい形に整理・加工することで、企業のマーケティング活動や競合対策など、あらゆるビジネスシーンで役立ちます。
ブランドモニタリング
企業のブランドがどのように認識されているのかを確認するために、Xデータは非常に有用です。
ブランド名、製品名、関連するハッシュタグ、または特定のキーワードを設定して投稿を追跡することで、顧客やユーザーがブランドに対して抱く印象や反応を迅速に把握できます。例えば、「<サービス名> 使えない」などのキーワードを設定しておくと、未知の障害やバグを早期に検知できます。
予測分析
Xのデータは、トレンドや予測分析にも活用できあああます。
過去の投稿データを分析し、パターンを抽出することで、特定の商品やサービスの需要予測が可能です。例えば、「栗」や「秋刀魚」といったキーワードがいつ頃から投稿され始めるのかを分析することで、商品発売時期の計画に役立てることができます。
競合他社の追跡
競合他社のアカウントや関連するハッシュタグを監視することで、競争環境をリアルタイムで把握できます。競合他社がどのようなキャンペーンを実施しているか、どのような反応を得ているかを観察することで、自社の戦略に活かすことが可能です。
センチメント分析
センチメント分析は、投稿内容からユーザーの感情を分析する手法です。Xの投稿データを活用することで、特定のテーマや製品に対する感情的な反応を把握できます。
例えば、新製品がリリースされた際にポジティブな反応が多いのか、懸念や批判が目立つのかを分析することで、マーケティングや製品開発に役立てることが可能です。自然言語処理(NLP)技術を用いて、投稿内のキーワードや文脈を解析し、ポジティブ・ネガティブ・中立の3つのカテゴリに分類することが一般的です。これにより、消費者インサイトを効率的に収集できます。
MLモデルのトレーニング
Xの膨大な投稿データは、機械学習(ML)モデルのトレーニングに最適な素材となります。自然言語処理や感情分析のモデルを構築する際に、現実のデータとしてXの投稿を使用することで、モデルの精度を向上させることができます。
業界動向分析
業界全体のトレンドや新たな技術革新の兆候を把握するために、Xデータは欠かせません。特定の業界に関連するキーワードやハッシュタグをモニタリングすることで、業界内で注目されている話題を迅速にキャッチアップできます。
例えば、新製品や技術的課題に関する議論が投稿されることが多いため、それらを分析することで競争優位性を確立できます。さらに、業界動向を分析することで、自社が市場でどのようなポジションにあるのかを把握し、今後の戦略を策定するための重要な情報を得ることができます。
市場調査
Xの投稿データを活用することで、市場調査のスピードと精度を向上させることができます。従来の市場調査は、アンケートやインタビューに依存することが多いですが、Xではリアルタイムで膨大な数の投稿が行われているため、消費者の生の声を迅速に収集することが可能です。
例えば、新商品に対する期待感や、サービスに対する具体的な要望を把握する際に有効です。また、投稿の地理情報や時間帯を分析することで、地域別や時間別のトレンドも把握できるため、より詳細な市場分析が実現します。
マーケティングの最適化
マーケティング活動の成果を最大化するために、Xデータを活用した分析は欠かせません。特定のハッシュタグや画像付き投稿の効果を比較することで、エンゲージメント率を高める投稿形式を特定できます。また、広告キャンペーンの効果測定やターゲット層の反応分析も行いやすく、データに基づいた意思決定が可能になります。
他にも、インフルエンサーの特定にも活用でき、SNSマーケティングの精度をさらに高めることが可能です。
新製品イノベーション
Xデータを利用することで、新製品のアイデアや改善点を効率的に見つけることができます。顧客が投稿する要望やフィードバックを分析することで、現行製品の問題点や新たなニーズを発見できるため、製品開発の初期段階から活用することが可能です。
また、競合製品に対するネガティブな意見を分析し、それを改善点として取り入れることも有効です。
研究目的
社会科学やコンピューターサイエンスなど、多様なトピックに関する研究で活用されています。COVID-19のパンデミック時には、人々の認識や感情の変化、デマの発生原因などを分析するために使用されました。
このようにXのデータはあらゆるビジネスシーンで役立ちます。他にも、自社のターゲット層は誰をフォローしているか、どんなポストに興味関心があるか、現在のトレンドワードは何かなどを分析すれば、ユーザーが求めているニーズや思考の理解に役立つでしょう。
X(Twitter)からデータをスクレイピング・取得する方法
Xからデータを抽出する方法は以下の3つが挙げられます。
- Webスクレイピングツールを利用する
- X APIを利用する
- オープンソースのスクレイピングパッケージを利用する
Webスクレイピングツールを利用する
Webスクレイピングツールとは、Webサイト内の情報を自動で抽出するソフトウェアサービスのことです。一般的にWebスクレイピングを行うためには、Pythonなどのプログラミングが必要です。
しかし、Webスクレイピングツールを利用すれば、プログラミングを行わずとも、かんたんなクリック操作だけでスクレイピングタスクを実行できます。Xのポストデータをスクレイピングする際に最も効率的な方法といえるでしょう。
X APIを利用する

XではAPIを提供しています。X APIとは、公式のWebサイトを経由せずとも、Xのサービスを利用できるようになる機能で、様々なツールと連携できます。例えば、Pythonを使ってポストの自動投稿や、特定の人物のポストを自動取得することが可能です。X APIを利用するには、Xにログインした状態で「X Developer Platform」にアクセスし、利用申請を行います。申請後、審査に問題がなければAPIが利用できるようになります。
主な機能と料金は、次のとおりです。
プラン | 月額料金 | 月間投稿上限(ユーザーあたり) | 月間投稿取得上限(エンドポイントによる) | App数 | 主な機能 |
Free | 無料 | 500件 | 100件 | 1 | 基本的なAPIアクセス、投稿・削除機能、ログイン機能、広告APIアクセス |
Basic | $200/月 | 3,000件(Appあたり50,000件) | 15,000件 | 2 | 拡張APIアクセス(アカウントデータの取得)、リアルタイムデータ取得、広告API、リストやDMの管理 |
Pro | $5,000/月 | Appあたり300,000件 | 1,000,000件 | 3 | さらなる拡張APIアクセス、大量データ取得、フィルタリングストリーム |
Enterprise | カスタム | 制限なし | 制限なし | カスタム | 完全なAPIアクセス、カスタム機能とサポート |
※2024年11月より料金体系の変更がありました。(Upcoming updates to the Self Serve X API)
Freeプランの場合、自身のフォロワーリストなどは得られますが、他人のポストやフォロワー情報などは取得できません。他人のポストやリポスト・いいね等の情報を取得するにはBasic以上のプラン加入が必要です。
さらに、APIを使ってデータ取得を自動化するには、Pythonなどのプログラミング知識が欠かせません。
例えば、Pythonで「おはようございます!」とポストする場合は以下のように記述します。
(実行環境:AWS Lambda Python3.9)
これに加えて、自動起動・メッセージやリストのカスタマイズが必要です。プログラミングの知識がない方にとってはハードルが高いといえるでしょう。
また、X APIでは利用規約があるため、規約範囲内でしか利用できないことも注意が必要です。例えば、スパムやボットによる大量投稿を防ぐため、連続で同じ内容のポストができない「重複コンテンツポリシー」が適用されます。
規約に違反した場合、API制限としてポストや読み込みが一定時間利用できなくなります。開発者は利用ルールを十分に理解し、責任を持って利用する必要があります。
オープンソースのスクレイピングパッケージを利用する
オープンソースとは、誰でも利用・編集できるように無償で公開されたソースコードのことです。オープンソースのスクレイピングパッケージを使えば、無料でスクレイピングを行うことができます。しかし、スクレイピングプログラムを構築するには、プログラミングスキルを習得しなければなりません。
また、オープンソースは非営利団体・コミュニティが管理しているため、アップデートやバグ修正(バグフィックス)の即時性を保証されないというデメリットもあります。他にも、プログラムがインターネット上に公開されているため、ハッカーなど悪意のある第3者から狙われやすく、不正アクセスやアカウントの乗っ取りなどのリスクが高まります。
初心者がX(Twitter)データをスクレイピングするならWebスクレイピングツールが最適
ここまで解説した通り、初心者がXのデータをスクレイピングする際は、Webスクレイピングツールの活用がおすすめです。他の方法に比べ、手軽でかんたんな操作だけでデータ取得が可能なので、時間とコストを大幅に節約できます。
数あるWebスクレイピングツールの中でも「Octoparse」では、コードを書かずにかんたんな設定・操作だけで、データ抽出の自動化が実現可能です。わずか10分程で、何千ものポストデータを抽出できます。さらに、データ抽出スピードが速いだけではなく、無料から使えるなど導入費用の安さも魅力です。
個人での利用であれば、無料プランでも十分に活用できます。一方企業が膨大な量のデータ抽出を求める場合は、有料プランがおすすめ。Octoparseを利用する際は、予算と要件に応じて、適切なプランを選択しましょう。
Octoparseでポストデータをスクレイピングする方法
Octoparseでは、数多くのWebサイトのデータ抽出テンプレートが用意されています。データを抽出したい対象サイトのテンプレートをチェックするだけで利用が可能です。ここでは、テンプレートの使い方について解説します。
ステップ1
お使いにOS(Windows、Mac)に合わせてOctoparseの最新バージョンをダウンロードし、ログインします。
起動すると次のような画面が表示されますので、検索窓に「Twitter」と入力します。

ステップ2
X(Twitter)関連のテンプレートが表示されます。

ステップ3
Xのテンプレートはいくつか存在しますが、それぞれ抽出できるデータが異なります。
それぞれの違いは次の表を参考にしてください。
Get Twitter Cookies | ユーザー名(ニックネームやアカウントのメールアドレスではない)とパスワードを入力すると、クッキーが取得できます。 |
Twitter Scraper (by Account URL) | X(Twitter)のアカウントページから、各ポストの投稿ID、投稿内容、投稿日時など詳細情報を抽出します。 |
Twitter Scraper (by Search Result URL) | X(Twitter)のページから、各ポストの投稿内容、投稿日時などの情報を抽出します。 |
Tweets & Comments Scraper (by Search Result URL) | キーワードから最新のポスト、トップポストなどのデータを抽出します。 |
Twitter Scraper (by hashtag) | トップポストから「いいね数」「リポスト数」「返信数」などのデータを抽出します。 |
Twitter Scraper (by Keywords) | 任意の期間において特定のキーワードでポストされた情報を抽出します。 |
Twitter Auteur Scraper | キーワードから作成者に関する情報(コンテンツ、コメントなど)を抽出します。 |
ステップ4
ポストデータの取得を開始する前に、まずは「Get Twitter Cookies」のテンプレートを使用して、クッキーを取得する必要があります。
https://www.octoparse.jp/template/get-twitter-cookies
Octoparseでスクレイピングする際は、ユーザーのプライバシーデータを保存しませんので、ご安心ください。

- ステップ1:Xのユーザー名とパスワードを入力してください。例えば、あなたがElon Muskの場合は、Elon Muskではなく@elonmuskと入力してください。
- ステップ2:保存>実行をクリックし、「クラウド収集」または「ローカル収集」を選択します。するとクッキー情報を取得できます。
ステップ5
続いて、「Twitter Scraper(by Account URL)」テンプレートを使って、Octoparse Japanのポストデータをスクレイピングします。
https://www.octoparse.jp/template/twitter-scraper-by-account-url
テンプレートを選択したら、TwitterアカウントのURLを入力します。入力したら、実行ボタンをクリックしましょう。

<アカウント名がわからない場合>
アカウント名は、各アカウントのURL内に記載されています。
例えば、「https://twitter.com/octoparsejapan」の場合は末尾の「octoparsejapan」がアカウント名です。

ステップ6
タスク実行方法を選択する画面になりますので、「ローカル抽出」か「クラウド抽出」のいずれかを選択します。データ量が少なければローカル抽出で問題ありません。クラウド抽出の場合はスピードが最大20倍にアップしますが、有料プランの契約が必要となります。

タスクを実行するとデータ抽出が開始されます。全てのデータが抽出されるまでに、数分程度掛かりますので、完了まで少し待ちましょう。
抽出したデータは、外部ファイルにエクスポートできます。エクスポート先はExcel、CSV、HTML、JSON、その他データベースのいずれかから選択可能ですので、活用方法に合わせて選択しましょう。
例えば、Excelにエクスポートした場合、グラフやピボットテーブルを作成するなど、データの見える化が可能です。Excelの便利な活用方法を知りたい方はこちらの記事を参考にしてください。
参考:Excelでデータ分析を行う際に知っておくべき関数10選
合法性と倫理的な利用規約
スクレイピングとは、ウェブ上の情報を自動で収集する手法です。スクレイピング自体は違法ではなく、公開されている情報を収集する行為は合法とされています。
ただし、使い方を誤ると法的リスクにさらされる可能性があります。特に、以下の点に注意しましょう。
- 著作権の遵守:著作権で保護されたコンテンツを無断で収集・再配布することは違法です。
- プライバシー保護:個人情報を無断で収集し、プライバシーを侵害することは違法です。
- 利用規約の遵守:ウェブサイトの利用規約にスクレイピングが禁止されている場合、その規約を遵守する必要があります。
また、X(Twitter)のようなソーシャルメディアでは、独自の利用規約を設けています。Webサイトをスクレイピングする際は、利用規約に必ず目を通すようにしましょう。
実際に、X(Twitter)のサービス利用規約では、APIを通じてのスクレイピングは許可されていますが、それ以外の方法でのスクレイピングは明確に禁止されています。具体的には、以下のように記載されています。
<X サービス利用規約>
ユーザーはまた、たとえばTwitterサービスの妨害や当社が提供するインターフェースおよび手順以外の方法を使ったTwitterサービスへのアクセスにより、Twitterサービスの不正利用をしないことにも同意するものとします。ユーザーは、本サービスへのアクセスまたはその使用中に、次のいずれも行ってはなりません。
(iii)当社から提供される(かつ該当する利用条件に従う場合にのみ提供される)、当社の現在利用可能な公開インターフェース以外の方法(自動プログラムか否かを問わない)での、本サービスへのアクセスもしくはその探索またはアクセスもしくは探索の試み(ただし、当社との個別契約で特に許可されている場合は除く)(注記: 本サービスへのクローリングまたはスクレイピングを、当社による事前の書面での同意がないまま行うことは明示的に禁止されています)
引用:X サービス利用規約
したがって、Xを使ってスクレイピングを行う際には、以下の点に注意してください。
- 短時間で大量のアクセスを避ける: サーバーに過度の負荷をかけないように注意すること。
- 個人的な使用範囲に限定する: データの使用目的が合法的であることを確認すること。
- 規約違反に注意: 規約違反が疑われる行為は避け、必要に応じて事前に許可を取ること。
詳しくは、こちらの記事を参考にしてください。
参考:X(Twitter)でスクレイピングは禁止?スクレイピングのポイントと注意点を解説
まとめ
今回は、数あるSNS(ソーシャルネットワーキングサービス)中でも、特に利用者数が多い、X(Twitter)のデータをスクレイピング・取得する方法を紹介しました。
Xのポストデータを活用すれば、ブランドのモニタリング、競合他社の監視、MLモデルのトレーニング、新製品の開発など、あらゆる場面で役立ちます。
XではAPIも提供していますが、初心者にはやや扱いが難しいため、Webスクレイピングツールの活用がおすすめです。中でも、Octoparseはノーコードでポストデータを抽出できる便利なツールです。Octoparseのテンプレートには、すでにXのAPIが組み込まれているため、データ収集プロセスを高速かつ効率的に実行し、スクレイピングに必要な技術インフラをユーザーに提供します。
まずは実際に触ってみて、Xスクレイピングを体感してみてください。
ウェブサイトのデータを、Excel、CSV、Google Sheets、お好みのデータベースに直接変換。
自動検出機能搭載で、プログラミング不要の簡単データ抽出。
人気サイト向けテンプレート完備。クリック数回でデータ取得可能。
IPプロキシと高度なAPIで、ブロック対策も万全。
クラウドサービスで、いつでも好きな時にスクレイピングをスケジュール。