データ分析とは、「数あるデータから有益な情報を探し出し、改善に役立てる取り組みのこと」を指します。ビッグデータの時代では、データの分析や活用はますます重要になっています。
ビジネスにデータ分析を取り入れることで、意思決定がスピードアップしたり、課題を特定できたり、新しい施策を考えられたりといったように、数多くのメリットがあります。
膨大なデータを収集し、素早く分析を進めるには、ITツールの利用が欠かせません。近年では、データ分析が注目されていることで、さまざまな分析ツールが登場しています。そこで今回はデータ分析に役に立つツール29選を目的別に紹介します。
Webデータ収集ツール4選
1. Octoparse
Octoparse(オクトパス)は、あらゆるWebサイト上のデータを手軽に抽出できる強力なWebスクレイピングツールです。Webページ自動認識の機能を備え、取得先のURLを入力すると、データが自動的に検出され、プログラミングの知識がなくても、簡単にデータを抽出できます。
さらに、スクレイピングを扱いやすくするために、数多くのWebスクレイピングテンプレートを提供しています。パラメータ(対象サイトURL、検索キーワードなど)を入力するだけで、データがどんどん抽出されてきます。取得したデータは、CSV、Excel、またはデータベースなどのフォーマットとして保存も可能です。
また、クラウド型のプラットフォームも提供しているので、定期的なデータ抽出も可能で、取得したデータはクラウドに保存され、いつでもアクセスできます。ハードウェア保守も不要なので、ネットワーク中断を心配する必要もありません。
Webスクレイピングに必要な機能をすべて無料で使えるので、データ収集ツールとして最もおすすめしたいサービスの1つです。
2. Content Grabber
Content Graberは、企業向けのWebクローラーソフトウェアです。単独のWebクローリングエージェントを作成できます。ほぼすべてのWebサイトからテキストや画像などのコンテンツデータを抽出でき、抽出したデータは、Excel、XML、CSV、などほとんどのデータベースに構造化データとして保存できます。
さらに、多くの強力なスクリプト編集、インターフェースのデバッグを提供するため、より高度なWebスクレイピングプロセスの構築も可能です。ユーザーは、C#またはVB.NETを使用して、スクリプトをデバッグしたり書き込んだりして、クローリングプロセスを構築できます。たとえば、Content Grabberは、Visual Studio 2013と統合して、ユーザーの特定のニーズに基づいて、高度で洗練されたカスタマイズされたクローラーに最も強力なスクリプト編集、デバッグ、単体テストをサポートします。
注意点としては、高度な編集ができる反面、プログラミングスキルを持たない人には扱いが難しい点です。
3. Import.io
Import. IoはURLを入力するだけでデータ抽出を行うスクレイピングツールです。クラウドベースのサービスなので、ソフトウェアのインストールは一切不要です。Import. Ioを起動し、対象WebページのURLを入力するだけで、後は自動的にデータ箇所を判断して情報を抽出してくれます。
さらに、Windows、Mac、Linuxなど、それぞれのOSで使えるスクレイピング用のアプリも用意されています。スクレイピングの終了後は、CSV/JSON形式でデータのエクスポートも可能。さらに、毎週・毎日・毎時といったクローリング作業の定期実行も設定できます。
4. Parsehub
Parsehubは、AJAX、JavaScript、リダイレクト、およびCookieを使用するサイトからの複雑なデータ抽出をサポートする優れたWebクローラーです。Web上の文書を読み込んで自動解析し、関連するデータを出力できる機械学習技術を備えています。
Parsehubは、Windows、Mac、Linuxなど各OSのデスクトップクライアントとして利用でき、ブラウザ内に組み込まれているWebアプリケーションを使用することもできます。
データ処理ツール10選
1. Knime
KNIME は、ワークフロー型データ分析プラットフォームを提供するオープンソースソフトウェアです。ノードと呼ばれる機能の塊(かたまり)を線でつないで、さまざまな処理を実現します。
1000を超えるノード、数多くのワークフローサンプルに加え、包括的な統合ツールと様々なアルゴリズムが利用でき、データ内に隠されている課題・問題を発見したり、新たな知見を得たりすることで、未来を予測するのに役立つサービスです。
2. OpenRefine
OpenRefineは、スタンドアローン(他のシステムに接続せず、単独で使用する状態)のオープンソースのデスクトップアプリケーションで、データのクリーンナップ、他形式への変換、データラングリングと呼ばれる処理を容易に行うことができます。
見た目はスプレッドシートアプリケーションに似ており、実際にスプレッドシートファイル形式も処理できますが、OpenRefineはよりデータベースに近い動作を実現します。
3. R言語
R言語は、オープンソースソフトウェアの統計解析向けのプログラミング言語です。システム開発に用いられる他のプログラムミング言語とは位置付けが異なり、統計解析機能をはじめ、解析処理やデータのグラフ化機能が豊富という特徴があります。
R言語は実務分野での利用も拡大しており、環境問わずあらゆる職場や組織で応用が効きます。データ分析や統計学の専門家(統計家・データサイエンティストなど)であれば習得しておいて損はないでしょう。
4. Orange
Orangeは、データマイニングの初心者から、スクリプトを書いてデータ処理のアルゴリズムを実装するプログラマーまで、多様なインターフェースを持つユニークなツールです。ビジュアルプログラミング言語として、事前に定義されたウィジェットまたは、ユーザーが設計したウィジェットをリンクしてワークフローを作成するインターフェースを介して実装されます。
データ分析結果を美しく表現するためのビジュアライゼーション機能が充実しており、棒グラフ、折れ線グラフ、ツリー図、散布図、ネットワーク図、ヒートマップまで、多彩なアウトプットを実現します。
5. RapidMiner
RapidMinerは、オープンソースのデータ分析プラットフォームです。機械学習、データマイニング、テキストマイニング、特徴選択、予測分析、経営分析などを行います。プログラミングなしでデータ分析を行える点が特徴です。また、オープンソースの統計分析ソフトRやプログラミング言語Pythonと連携でき、より高度な分析も可能です。
データマイニング処理は、「データ準備」→「データ分析」→「結果評価」という流れが基本ですが、RapidMinerを活用することで、これらの処理にかかる作業コストを大幅に軽減できます。
RapidMinerは、散布図やヒストグラム、箱ひげ図、ヒートマップ等の可視化機能を豊富に備えています。分析結果を可視化することで、データから集計を超える新たな知見を得られるでしょう。
6. Pentaho
Pentahoは、多種多様なビッグデータを統合し、分析を行うためのデータ統合・分析基盤です。データを抽出・準備・ブレンドする「データ統合基盤」、統合したデータを分析・可視化する「データ分析基盤」の2つの基盤により、データ統合から分析までの一貫した環境を提供します。
優れたBIスイートであるPentahoは、レポーティング、インタラクティブ(対話型)分析、ダッシュボード、データ統合/ETL(Extract/Transform/Load)、データ・マイニング、その他、BIプラットフォームとBIに必要なすべての機能が用意されています。
7. Talend
Talend は、単一のオープンプラットフォームで、クラウドとオンプレミスの両環境にわたってデータを統合します。データ統合連携基盤として、複数のシステムを対象としたデータの統合・連携はもちろん、単一データベースシステムを対象としたアプリケーション開発基盤としても威力を発揮します。
Talendで生成した処理は、すべてJavaコードとしてエクスポートすることも可能です。収集した多くのデータを迅速にビジネスシーンで展開できます。
8. Weka
Wekaはデータ解析と予測モデリングのための視覚化ツールとアルゴリズムの集合体です。データプリプロセッシング、クラスタリング、統計分類、回帰分析、視覚化、特徴選択といった標準的データマイニングタスクをサポートしています。
完全にJavaで実装されているので、ほとんどのプラットフォームで動作し、GUIも備え使いやすいです。Wekaに実装された機械学習やクラスタリングのアルゴリズムは他のツールとAPIやCLIを通して利用可能であるため、多くのツールでライブラリとして利用されています。
9. NodeXL
NodeXLは、Excel で実行できるオープンソースのネットワーク分析テンプレートです。Excel ワークシートにエッジリストを入力したり、コピー&ペ―ストしたりすることで簡単にネットワーク図を描くことができます。また、ノードの形状には画像を選択することができ、画像ベースのネットワーク図を描くことも出来ます。
グラフのメトリックを簡単に計算するとネットワークの可視化を迅速に作成することができ、使い慣れたスプレッドシートに、ソーシャルネットワーク分析と可視化機能が追加されています。
10. Gephi
GephiはNetBeansを基にしてJavaで組まれた、ネットワーク解析及び可視化用オープンソースソフトウェアパッケージです。例えるならば、データを対象に扱う Photoshop のようなものです。
ユーザーは描画されたグラフと対話し、構造や形状、色などを操作しながら、隠された属性を引き出します。Gephi が目標としているのは、データ解析の支援を通じて、仮説を立てたり、パターンを直感的に把握したりすることで、データソーシング時に構造的な特異点や欠陥を迅速に解消することです。
データ可視化ツール6選
1. Tableau
Tableauは、セールスフォース社が提供する大量のデータを直感的に可視化・分析できるツールです。Tableauでは、世界中のユーザーがオープンデータを使用して作成した様々なレポートを無料でブラウザで閲覧することができます。Tableauで可視化できるデータソースはテキストデータ、ExcelファイルOData、Web Data Connector、統計ファイルなど多種多彩です。
2. Solver
Solverは、Excelをベースにしたレポーティング、予算管理、経営ダッシュボードと倉庫管理データを中規模企業向けに提供します。簡単な操作によって任意の集計軸でデータを参照することが可能となります。
Solverのもつ革新性はお客様にとって大変魅力的です。例えば、レポートダッシュボードや予算管理機能に加えて、ビジネス課題を掘り下げるための共有機能や分析機能を持ち合わせています。Solverの先進的なソリューションは、導入企業にとってデータ解析の本質を理解し、的確な経営判断の支えになるでしょう。
3. Qlik
Qlik がデータ管理からカスタムアプリのビルドまで、必要なソリューションすべてを 提供します。BI (ビジネスインテリジェンス) ユーザーを対象とした世界最大級の調査において Qlik がビジュアル分析などの部門で No. 1 を獲得しています。
Qlikは、世界中の企業がエンドツーエンドのソリューションを活用してデータから価値を引き出し、より迅速に行動して、よりスマートに働き、大きくリードできるように支援しています。
4. FineReport
FineReportは帳票作成、ダッシュボード設計、データ入力、モバイル対応など様々な機能をオールインワンに集約したデータ分析ツールです。Excel風のGUIを使い、ドラッグ&ドロップ操作のみでデータセットを選択し、レポートとダッシュボードをノーコードで構築します。
複数のデータベースにまたがってデータを取得することで、異なる業務システムのデータを一枚のテンプレートで可視化できるのが特徴です。ドリルアップあるいはドリルダウンを設定することで、さまざまな切り口からビジネスを検討し、情報のレベルを切り替えることができます。
また、豊富なグラフ、可視化効果だけではなく、財務・生産・営業・マーケティングなど様々なテーマの経営ダッシュボードのテンプレートを用意。設計に時間をかけることなく、適切な形式に表現できます。
5. Datawrapper
Datawrapperは、美しいチャートを作る「データビジュアライゼーション」を容易に実現するオンラインサービスです。基本的な操作はExcelなどのデータを貼り付けて、好きなチャートの形式を選ぶだけで、棒グラフ、折れ線グラフ、円グラフ、ドーナツグラフなどが生成されます。
グラフには埋め込みコードが用意されており、簡単に他サイトに埋め込むことが可能です。作成したグラフやチャートなどを記事に付けられ、スクリーン上でデータを分かりやすくかつ、視覚的に美しく見せることができます。
6. Infogram
Infogramはあらかじめ用意されたチャート、グラフ、地図を選び、可視化したいデータを入力することにより、簡単にインフォグラフィックスを作成できるサービスです。作成したインフォグラフィックは、PNG・GIF・PDF形式でダウンロードでき、そのまま配布したりプレゼン資料に挿入したりできます。共有 URLを発行できるため、クラウド上での共有も可能です。
感情分析ツール4選
1. Opentext
OpenTextは、テキストの会話中に存在する感情やパターンを識別し、評価するための分析エンジンです。トピック、文章などのテキストの一部が事実であるか主観的であるかを認識し、これらのコンテンツ内で表現された意見がプラス、マイナスまたはニュートラルであるかどうかを判断します。
2.Lexalytics
Lexalyticsは、クライアントからのテキスト、つぶやき、その他のコメントを収集し、細かく分析して実用的で価値の高い洞察を得ることによって、ユニークなサービスアプローチを提供するツールです。LexalyticsはAPIとExcelプラグインによるテキスト分析を提供し、大きな知識ベースがあり、深層学習にも使われています。
3. SAS Viya
SAS Viyaは、主なWebサイト、ソーシャル・メディア・サイト、企業内部の文書などからデジタル・コンテンツを自動収集し、強力な統計テクノロジーと言語ルールを駆使し、収集したテキストに含まれるセンチメントデータ(感情)を抽出します。これを元にユーザー、顧客、競合企業の感情を把握するために、データ集計・グラフ化し、トレンドを見つけ出します。
4. Opinion Crawl
Opinion Crawlは、現在の出来事、企業、製品、および人々のオンライン感情分析サービスです。トピックを入力するだけで、そのトピックに対する感情評価を取得できます。
各トピックに対する感情のリアルタイム把握、最新のニュース見出しリストやサムネイル画像を一覧可するほか、記事の特徴をタグで分類して円グラフで表示させることもできます。トピックに対して、ポジティブかネガティブかを瞬時に判断できます。
オープンデータソース4選
1. Data.gov
Data.govは、米国のオープンガバメントに関する取り組みの中で代表的な存在で、政府機関が保有する情報・データを入手できるサイトです。
単に統計データの集計結果を公表しているのではなく、ローデータを様々な形(CSV、JSON、PDF、RDF、RSS、XLS、XML)で取得でき、利用者は自由に取得・加工・分析できます。また、このData.govの構築に関わったSocrata社による「Open Data API」を利用することで、API経由での取得も可能です。
2. US Census Bureau
US Census Bureauは、アメリカ合衆国の国勢調査のことです。人口データ、地理データおよび教育を扱う米国市民の生活に関する豊富な情報を扱っています。
3. The CIA World Factbook
The CIA World Factbookは、CIA(米国の中央情報局)の年次刊行物です。世界各国に関する情報を年鑑形式でまとめており、世界中のあわせて268の国家・属領・その他の地域に関連する、人口統計・地理・通信・政治・経済・軍事情報を提供しています。
4. PubMed
公式サイト:https://pubmed.ncbi.nlm.nih.gov/PubMedは米国国立医学図書館(通称:NLM)が提供する、医学・生物学文献データベースです。世界約70カ国、約5,000誌以上の文献データを検索し自由に閲覧できます。
PubMedを使用することで、MEDLINEやPreMEDLINEの文献データベースに無料でアクセスできる上、MEDLINE以外の NLMデータベースなどにもアクセスでき、豊富な医学・医学関連情報を検索できることがメリットです。
オープンデータソースをもっと知りたい方は、次の記事をご参考ください:2024年に知っておくべきオープンデータソース70選
まとめ
今回紹介した通り、データ分析にはたくさんの便利なツールがあります。ビジネスの目的や用途にあわせて、必要なデータ分析に適したツールを選びましょう。