ビッグデータの発展とともに、さまざまな分野の研究がデータ駆動型に変わってきて、データサイエンスも今広く知られるようになりました。大学にデータサイエンスを学べる学部ができたり、講座やコースなども多く開催され、データサイエンティストを目指している人もたくさんいます。この記事では、統計学から機械学習やマーケティングまで、初心者がデータサイエンスを学ぶのにおすすめの本を80冊紹介します!
Part I: データサイエンス概論
1.『データサイエンス講義 』Rachel Schutt、Cathy O’Neil 著
本書では、データサイエンスを行う上で、どのようなプロセスが必要か、データサイエンティストとしてはどのようなスキルセットが必要で、どのような思考方法を選択する必要があるのかを実例を多数示しながら紹介します。
2.『戦略的データサイエンス入門 ―ビジネスに活かすコンセプトとテクニック』Foster Provost、Tom Fawcett著
本書は、データをビジネスに活かすために身に付けておくべき基本的な考え方と、データマイニングやモデリングの根底に存在するコンセプトについて、体系的に解説しています。
3.『データサイエンス入門』竹村彰通著
本書はデータの処理・分析に必要な情報学(コンピュータ科学)と統計学の基本知識をおさえ、またデータから新たな価値を引き出すスキルの学び方を紹介します。
Part II: データサイエンスための数学
微分積分&線形代数
4.『その数学が戦略を決める』イアン・エアーズ著
本書では一貫して絶対計算(すべてを大量データに基づく数字を使って意思決定を行うこと)の利点を現実のいろいろな例から説いています。
5.『プログラミングのための線形代数』堀玄、平岡和幸著
本書は、専門・非専門を問わずコンピュータにかかわる方を主な対象に想定した線形代数の参考書です。単に「線形代数プログラムの書き方」を解説する本ではなく、数学のプロでない読者に線形代数の本音を語ることが狙いです。
6.『統計学のための数学入門30講 (科学のことばとしての数学)』永田靖著
本書の内容は高校数学から初等の微分積分,線形代数学のレベルであり、わかりやすくなぜこの数式が統計学に役立つのかについて丁寧に解説しています。
7.『これなら分かる最適化数学―基礎原理から計算手法まで』金谷健一著
本書は最適化手法の入門書として書かれたもので、経営学やORのみならず、統計的最適化や機械学習に関する話題も扱っています。また、各手法を紹介するだけでなく、その数学的背景の解説に力点を置いています。
8.『統計のための行列代数(上・下)』D. A.ハーヴィル著
この本は、統計ユーザーが線形統計モデルや多変量解析での応用に必要とする線形代数の基礎を、具体的に行列を使って解き明かした入門書です。
統計学
9.『統計学が最強の学問である』
10.『統計学が最強の学問である[実践編]—データ分析のための思想と方法』
11.『統計学が最強の学問である[ビジネス編]――データを利益に変える知恵とデザイン 』
12.『統計学が最強の学問である[数学編]――データ分析と機械学習のための新しい教科書』
この4冊は西内啓さんのシリーズ作品で、統計学がなぜ必要なのかをよく説明しています。この4冊を読んで、統計学の本当の魅力とパワフルさを知っているでしょう。
13.『プログラミングのための確率統計』堀玄、平岡和幸著
この本は、数式による定理の証明とその説明という数学教科書の一般的なスタイルとは異なったかたちで確率統計を解説していいます。
14.『統計学入門 (基礎統計学)』
15.『自然科学の統計学 (基礎統計学)』
16.『人文・社会科学の統計学 (基礎統計学) 』
この3冊は東京大学出版会の基礎統計学3部作で、基本的な内容を網羅的に扱って、さまざまな統計学的考え方を紹介し、その基礎をわかりやすく解説します。
17.『データサイエンスのための統計学入門 ―予測、分類、統計モデリング、統計的機械学習とRプログラミング』Peter Bruce、Andrew Bruce著
本書はデータサイエンスに必要な統計学と機械学習の重要な50の基本概念と、関連する用語について、簡潔な説明と、それを裏付ける最低限の数式、クリアな可視化、実現するRコードを提示して、多方面からの理解を促します。
多変量解析
18.『多変量データ解析法―心理・教育・社会系のための入門』足立浩平著
本書を読み終えた後、SPSSあるいはR等の統計ソフトを用いて実際のデータに触れることにより、さらに多変量解析への理解と興味が深まることでしょう。
19.『多変量解析法入門 (ライブラリ新数学大系) 』永田靖、棟近雅彦著
本書は入門的な統計的方法を習得した方々を対象とした多変量解析法の入門書です。
因果推論
20.『データ分析の力 因果関係に迫る思考法』伊藤公一朗著
本書はランダム化比較試験、RDデザイン、パネル・データ分析など、因果関係に迫る最先端のデータ分析手法について、数式を使わず、具体例とビジュアルな描写を用いて解説していきます。
21.『「原因と結果」の経済学―――データから真実を見抜く思考法』中室牧子、津川友介著
この本を読めば、2つのことがらが本当に「原因と結果」の関係にあるのかどうかを正しく見抜けるようになり、身の回りにあふれる「もっともらしいが本当は間違っている根拠のない通説」にだまされなくなります。この「因果推論」の考えかたを、数式などを一切使わずに徹底的にやさしく解説します。
ベイズ統計
22.『ベイズモデリングの世界』岩波書店
本書はベイズ統計について統計モデリングの立場から幅広く解説し、特に、階層ベイズモデルや状態空間モデルの周囲にひろがる世界について、さまざまな視点から論じています。
23.『基礎からのベイズ統計学: ハミルトニアンモンテカルロ法による実践的入門』豊田秀樹著
本書は基本的なことから、数式をわかりやすく用いて、その体系を解説しています。ベイズ統計の本格的な入門書としては出色の出来だと思います。
24.『ベイズ統計の理論と方法』渡辺澄夫著
本書はベイズ統計学に初めて出会う人が疑問に思うことを解説し、理論的な基礎を明らかにし、実用上で注意することを説明します。
統計モデリング
25.『データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)』久保拓弥著
本書は現象を数理モデルで表現・説明するのに慣れていない人のために、章ごとに異なる例題を解決していく過程を通して、統計モデルの基本となる考えかたを説明します。
26.『予測にいかす統計モデリングの基本―ベイズ統計入門から応用まで (KS理工学専門書)』樋口知之著
本書はデータの見方や考え方から述べられた本当にほしかった入門書です。
27.『マーケティングの統計モデル (統計解析スタンダード)』佐藤忠彦著
本書は効果的なマーケティングのための統計的モデリングとその活用法を解説します。
Part III: データサイエンスためのコアスキル
機械学習
28.『入門 機械学習』Drew Conway、John Myles White 著
本書はプログラミングの素養がある読者向けに、数学的・理論的な知識が必要なくても読めるよう、理論より実践に重きを置いて書かれた機械学習の入門書です。
29.『パターン認識と機械学習(上・下)』C.M. ビショップ著
本書はベイズ理論に基づいた統一的な視点から機械学習とパターン認識の様々な理論や手法を解説しています。
30.『機械学習スタートアップシリーズ ベイズ推論による機械学習入門 (KS情報科学専門書) 』須山敦志著
本書は「機械学習をもっと身近に、機械学習をもっとわかりやすく!」を合言葉に、より丁寧な記述で、基本的なテーマを解説していきます。
31.『言語処理のための機械学習入門 (自然言語処理シリーズ) 』高村大也著
本書は機械学習の入門書としましては、大変分かりやすく、様々な機械学習モデルを網羅していると思います。
32.『はじめてのパターン認識』平井有三著
本書はパターン認識にはじめて触れる読者に向け、基礎からわかりやすく解説した入門書です。パターン認識の概念がよく理解できるとともに、Rによる実行例など実際に応用する際にも役立つ内容が盛り込まれています。
33.『機械学習のエッセンス -実装しながら学ぶPython,数学,アルゴリズム』加藤公一著
本書では機械学習のいくつかの有名なアルゴリズムを、自分でゼロから実装することを目標としています。
データマイニング
34.『データマイニング入門』豊田秀樹著
本書はデータマイニングの基礎、ニューラルネット、決定木、サポートベクターマシン、ベイジアンネットワーク、潜在意味解析など近年登場した新しい分析までをお菓子やワインの銘柄など親しみやすいデータで幅広く解説します。
35.『データマイニングとその応用 (シリーズ・オペレーションズ・リサーチ)』加藤直樹、矢田勝俊、羽室行信著
古典的なアソシエーション分析を一度は学んでみたいという方にオススメ。
36.『データマイニングによる異常検知』山西健司著
本書はデータマイニングによる異常検知に特化して書かれた日本で初めての書です。
37.『数式を使わないデータマイニング入門~隠れた法則を発見する』岡嶋裕史著
本書ではこのデータマイニングの手法について入門レベルで簡単に解説しています。
38.『戦略的データマイニングアスクルの事例で学ぶ』池尾恭一、井上哲浩著
本書は実際にアスクルがデータマイニングに用いた膨大な顧客の購買履歴などを素材に、顧客構造、顧客クラスターの分析などによってどう売り上げ増につなげたかを具体的に明らかにしています。
SQL
39.『SQL 第2版 ゼロからはじめるデータベース操作』ミック著
本書は「データベースやSQLがはじめて」という初心者を対象に、プロのデータベース(DB)エンジニアである著者がSQLの基礎とコツをやさしく丁寧に教える入門書です。
40.『いちばんやさしい SQL 入門教室』矢沢久雄著
本書では更新系のSQLの基本的な使い方も解説します。マスターするSQLは、「SQLの構文」「サンプル(例文)」「練習問題」の3ステップで解説します。段階を踏んで学べるので、初心者の学習に最適です。
41.『ビッグデータ分析・活用のためのSQLレシピ』加嵜長門、田宮直人著
本書は、著者が普段の業務で実際に作成しているレポートやSQLのコードをより汎用化し、レシピ集としてまとめたものです。「データの加工」「売上の把握」「ユーザーの把握」「Webサイト内のユーザー行動の把握」「異常値の検出」「検索機能の評価」「レコメンド」など、具体的なシーン別に、実践的な手法とノウハウを解説しています。
R
42.『Rによるデータサイエンス データ解析の基礎から最新手法まで』金明哲著
本書はR言語によるデータ解析の入門書です。データサイエンスブームに先駆けた初版の発行以来、網羅性と実用性の高さから、多くのRユーザーに支持を得てきました。
43.『Rではじめるデータサイエンス』Hadley Wickham、Garrett Grolemund著
本書はデータサイエンスに必要な要素とプロセス(インポート、整理、変換、可視化、モデル、コミュニケーション、プログラミング)を明確に定義し、それぞれ順を追い、各節の最後には練習問題を掲載して、ていねいに説明します。データサイエンティストを目指すなら必読の一冊です。
44.『Rクックブック』Paul Teetor著
本書はオープンソースの統計解析ツール、Rの使い方、機能、威力を、200以上におよぶ問題の「レシピ」を通じて紹介するクックブックです。
Python
45.『IPythonデータサイエンスクックブック ―対話型コンピューティングと可視化のためのレシピ集』Cyrille Rossant著
本書はPythonの対話型環境IPython notebookを使ってデータ分析および可視化を行うためのレシピを集めたクックブックです。
46.『Pythonデータサイエンスハンドブック ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習』Jake VanderPlas著
本書はPythonでデータの操作、変換、可視化、統計的処理、データモデルの構築、科学計算を行う人にとってはいつも手元に置いておきたい「使える」一冊です。
47.『Python機械学習プログラミング 達人データサイエンティストによる理論と実践』Sebastian Raschka著
本書は機械学習の理論と実践についてバランスよく解説してあり、AIプログラミングの第一歩を踏み出すための格好の一冊です。
深層学習
48.『深層学習 (機械学習プロフェッショナルシリーズ)』岡谷貴之著
本書はいま最も注目されている機械学習手法である深層学習(ディープラーニング)を、トップ研究者が解説しました。
49.『ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装』斎藤康毅著
本書は「ディープラーニング」についての本です。ディープラーニングを理解するために必要な知識を、初歩的なことから一つひとつ積み重ねながら説明していきます。
50.『機械学習スタートアップシリーズ これならわかる深層学習入門 (KS情報科学専門書)』瀧雅人著
本書は『深層学習』の入門版というものです。
51.『イラストで学ぶ ディープラーニング (KS情報科学専門書) 』山下隆義著
本書はディープラーニングをはじめて学びたい人を対象とした入門書です。
52.『深層学習 Deep Learning (監修:人工知能学会) 』近代科学社
本書は、この分野の最先端の著者らが、人工知能学会誌に掲載した連載解説を大幅に加筆再編し、今までの到達点・今後の課題を具体的な研究成果と共に書いたものです。
53.『深層学習』KADOKAWA
AI研究の一分野として注目を集める深層学習(ディープラーニング)に関する教科書として世界的な評価を受けている解説書です。
強化学習
54.『強化学習 (機械学習プロフェッショナルシリーズ) 』森村哲郎著
本書は強化学習で必要になる数理を広くカバーしました。
55.『強化学習』Richard S.Sutton、Andrew G.Barto著
本書は強化学習の基本的な考え方から、関連アルゴリズム、応用例までを網羅しており、初学者から先端的研究者までを対象とする一冊です。
テキストマイニング&自然言語処理
56.『言語処理のための機械学習入門 (自然言語処理シリーズ)』高村大也著
本書は機械学習の入門書としましては、大変分かりやすく、様々な機械学習モデルを網羅しています。
57.『自然言語処理 (放送大学教材)』黒橋禎夫著
本書は自然言語処理に関連する主要なトピックスがコンパクトにまとまっています。
58.『社会調査のための計量テキスト分析―内容分析の継承と発展を目指して』樋口耕一 著
本書は計量テキスト分析を行うための著者自作のソフトウェアKHコーダーの解説書です。
59.『自然言語処理の基本と技術 (仕組みが見えるゼロからわかる)』奥野陽、グラム・ニュービッグ、萩原正人著
本書は、この未来に不可欠となるに違いない自然言語処理の、技術的、ビジネス的基礎知識をくまなくコンパクトに図解した一冊です。
60.『入門 自然言語処理』オライリージャパン
本書では、NLPの理論的な基礎、理論、応用をバランスよく解説します。
前処理
61.『前処理大全(データ分析のためのSQL/R/Python実践テクニック)』本橋智光著
本書はデータサイエンスに取り組む上で欠かせない「前処理スキル」の効率的な処理方法を網羅的に習得できる構成となっています。
62.『機械学習のための「前処理」入門』足立悠著
本書では、構造化データ、画像データ、時系列データ、自然言語について、機械学習における前処理の手順を紹介します。
Part IV: データサイエンスの関連知識
経済学
63.『実証分析のための計量経済学』山本勲著
本書は推定結果を多数紹介しながら、理論や数式展開を極力省略して、直感的・実践的に解説し、多くの分析手法を取り上げ、入門から大学院レベルまで幅広くカバーします。
64.『計量経済学 (y21) 』浅野皙、中村二朗著
より学習しやすいように、付録・演習問題を充実させ、問題の解答を収載します。
65.『「ほとんど無害」な計量経済学―応用経済学のための実証分析ガイド』NTT出版
本書は労働経済学や教育の経済学で主流となった「実験学派」の計量分析の手法を理論と応用の面から解説し、回帰モデルのβ係数(の期待値)を推定するための手法に焦点を絞り、理論と応用をバランスよく紹介します。
マーケティング
66.『ビッグデータ時代のマーケティング―ベイジアンモデリングの活用 (KS理工学専門書) 』佐藤忠彦、樋口知之著
本書はデータ駆動型のマーケティングが必要とされている基本的な考え方、必要な知識、応用事例、高度な活用へのヒントまで紹介します。
67.『改訂4版 グロービスMBAマーケティング 』グロービス経営大学院著
本書はよく知られている商品やサービスの実例を通じて、ブランド戦略、価格戦略、ポジショニング、セグメンテーション、CRMをはじめ、基礎から応用まで体系的に学べます。
68.『マーケティング・エンジニアリング入門 (有斐閣アルマ)』上田雅夫、生田目崇著
本書は現代のマーケティング課題に答えるための必須のスキルとして、データの扱い方から実践的手法まで、体系的に解説します。
69.『データ・ドリブン・マーケティング――最低限知っておくべき15の指標』マーク・ジェフリー著
本書はデータにもとづいたマーケティングの意思決定によって業績を伸ばしたい経営者・マーケティング幹部必読の書です。
人工知能
70.『イラストで学ぶ 人工知能概論 (KS情報科学専門書) 』谷口忠大著
本書は探索、位置推定、学習と認識、言語と論理の概要をわかりやすく解説します。
71.『人工知能はどのようにして 「名人」を超えたのか?』山本一成著
本書は目からウロコの解説の連続で、既存のどんな人工知能の解説書よりも面白くてわかりやすい、必読の1冊となっています。
72.『人工知能は人間を超えるか ディープラーニングの先にあるもの』松尾豊著
本書はトップクラスの人工知能学者が語る、知的興奮に満ちた一冊です。
73.『人工知能入門』小高知宏著
本書は探索による問題解決、知識表現と推論、学習、自然言語処理、人工知能という学問領域を構成する基本的分野を網羅しています。
データ可視化
74.『ビジュアライジング・データ ―Processingによる情報視覚化手法』Ben Fry著
本書は地図情報・階層ファイルシステム・リスト・グラフ構造・時系列データなど、さまざまなデータの収集・解析手法から対話的な視覚的手法・プログラミングテクニックまでを豊富な実例を用いて詳しく解説しています。
75.『ビューティフルビジュアライゼーション』オライリージャパン
本書では学者や技術者、芸術家、分析の専門家など異なる立場でそれぞれのプロジェクトに取り組むその道のプロによるさまざまなビジュアライゼーション手法やツールを紹介します。
Webスクレイピング
76.『PythonによるWebスクレイピング』Ryan Mitchell著
本書は、前半でWebスクレイパーとクローラの基礎をていねいに解説し、後半でOCRを使った情報抽出や、JavaScript実行、Seleniumによるインタフェース使用やテスト自動化、自然言語処理などの高度なトピックに加えて法律面の解説など、Webスクレイピングを実際に行うために必要なプログラミングテクニックとテクノロジー全般を紹介します。
77.『Pythonクローリング&スクレイピング[増補改訂版] -データ収集・解析のための実践開発ガイド』加藤耕太著
本書は基本的なクローリングやAPIを活用したデータ収集、HTMLやXMLの解析から、データ取得後の分析や機械学習などの処理まで解説。データの収集・解析、活用がしっかりと基本から学べます。
ビッグデータ
78.『ビッグデータの正体 情報の産業革命が世界のすべてを変える』講談社
本書は企業はいかに新たな価値を生み出すことができるのか、人々は物事の認知のあり方をどのように変える必要があるのか―大胆な主張と見事な語り口でその答えを示しています。
79.『IoT時代のビッグデータビジネス革命』インプレス
本書は、スマートシティとビッグデータを国際通念に合わせて解説し、海外でのビジネスを行う際に、間違えて戦わないようにしたいという観点にこだわった構成となっています。
80.『ビッグデータを支える技術 刻々とデータが脈打つ自動化の世界』西田圭介著
本書ではこのエンジニアリングの問題に主軸を置き、可視化を例に、一連のデータ処理に必要な要素技術を整理しデータを効率良く扱うための土台を作り、その上でシステムの自動化をサポートする種々の技術を追っていきます。
まとめ
長い記事ですが、最後まで読んでありがとうございます!データサイエンティストにならなくても、これらの知識は今後絶対に必要になるスキルだと思います!本だけでなく、今ではオンライン学習サイトも多くあります。活用することで、独学でもデータサイエンスを体系的に学ぶことができます。一緒に頑張りましょう!