二次使用について
当コンテンツはすべて、閲覧者自身の勉強用としてパソコンのモニター画面上で閲覧する行為に限定し、公開しています。これ以外の使用については担当講師へ電子メールにてお問い合わせ下さい。
2007年1月8日更新
NPO法人 フリーWebカレッジ 能力開発学科 コース001111「社会人に必要な数のセンス」
コース001111_8 データ解析
担当講師:加藤良平(情報ハブ株式会社 代表取締役)
NPO法人 フリーWebカレッジ 経営数学学科 コース001111 _8 担当講師:加藤良平 ( 情報ハブ株式会社 代表取締役 )
一連のコースの最後に、経営企画部門やマーケティング部門で働く人にとって、比較的身近な数学の応用として、データ解析(多変量解析あるいは統計解析などとも呼ばれる)について触れておこう。これも具体的手法を細かく言い出すとキリがないのだが、ここでは「相関係数」と「重回帰分析」と「主成分分析」について、ごく概念的なことを説明する。参考書もさまざまなものが出ており、また下記のようなデジタル資料もある。
■データ解析についてのデジタル資料(教材)
http://www008.upp.so-net.ne.jp/contents/datakaiseki.html
![]()
しかし得点数では後れをとっている。広島というと1980年前後の最盛期を知る者にとっては「ソツのない野球」というイメージが何となくあるのだが、実際には少なくとも攻撃面で、そうでもないようだ。巨人は2005年には本塁打数でダントツだったのだが2006年はそれも振るわず、しかも打率も低いので、広島に並ぶ程度の得点数しかあげていない。
![]()
|
チーム略称 |
得点数 |
本塁打数 |
チーム打率 |
盗塁数 |
|
中日 |
669 |
139 |
0.27 |
73 |
|
阪神 |
597 |
133 |
0.267 |
52 |
|
ヤクルト |
669 |
161 |
0.269 |
83 |
|
巨人 |
552 |
134 |
0.251 |
73 |
|
広島 |
549 |
127 |
0.266 |
54 |
|
横浜 |
575 |
127 |
0.257 |
51 |
![]()
そういった直感的な発見に対し、もう少しきちんとした数学的根拠を与えるのがデータ解析である。
たとえば常識的にいって、チーム打率が高ければ、得点数も多いと考えていいだろう。6チームを見比べても、何となくそういう傾向は見てとれる。しかし実際にそれを検証するには、「相関係数」という値を計算する必要がある。複数(今回でいえば6)のサンプルに対して測定された2種類のデータ量の大小関係が、どれだけ一致するかをみるものである。まったく同じデータ量の場合、相関係数は1となる。大小関係がお互いまったく無関係の場合、相関係数は0となる。片方が「昼の時間」でもう片方が「夜の時間」といった具合に、大小関係が完全に相反する場合、相関係数はマイナス1となる。今回、実際にチーム打率と得点数の間で相関係数を計算すると、約0.697となった。やはりそれなりに、正の関係にはなっているわけである。
![]()
重回帰分析というのは、得点数のようにさまざまな要因が絡むデータ量を、実際にどんな要因がどう関係しているか、検証するものである。今回の場合、重回帰分析を行うことで、得点数というものは大まかにいって次のように近似できることがわかる。
![]()
得点数 = 1.117×本塁打数 + 3896×チーム打率 + 1.380×盗塁数 - 666
![]()
ただし残念ながら、これはそれほどピッタリとした良い近似ではないことも同時にわかる。実際、2005年のデータを元に重回帰分析を行うと、本塁打の数はむしろマイナスで効いてくる。そういった近似の良さの検証も含めて、重回帰分析という手法が確立されているわけだ。
重回帰分析は、要因(上記の例では、本塁打数やチーム打率や盗塁数)から結果(得点数)を予測するという目的のほか、望ましい結果のために必要な要因の数値を知る、あるいは要因と結果の関係を知る、といった目的で広く用いられている。
![]()
一方、主成分分析というのは、「得点数」のように何かの量をほかの量で説明するのではなく、特徴的な量により各データを主要な二次元にプロットする際に使われる。今回は、本塁打数、チーム打率、盗塁数という3つの特徴量を元に、2つの主成分を求め、プロットしてみた。
2つの主成分がどんな意味を持つのかは自明ではなく、それを読み取るのが、分析者の腕の見せどころということになる。阪神、広島、横浜という3球団は攻撃面では比較的似た特徴を持っていること、また優勝した中日は、全体に平均的(バランスが取れている)こと、などがわかるだろう。この主成分分析は、企業イメージ調査やタレント・ポジショニングなどにもよく使われる。
![]()

![]()
数学的にいえば、相関係数というのは、内積をはじめとしたベクトル演算が中心である。重回帰分析は平たくいえば一次連立方程式であり、これは逆行列計算をはじめとした行列(マトリクス)演算が中心となる。
ただし、効果の検定などのためには、より進んだ統計学知識が必要だ。主成分分析も行列演算だが、こちらは固有値問題という難問を解かねばならない。その過程で、たとえば上記の例のように特徴量の種類が3(本塁打数、チーム打率、盗塁数)なら、三次方程式を解く必要がある。特徴量の種類が4なら四次方程式だ。ベクトルや行列の演算、固有値問題などは総称して「線形代数学」と呼ばれ、データ解析を理論的に理解するのに必須の分野である。
<以上>
<コース一覧>
■コース001111_1開講の辞
■コース001111_2
■コース001111_3
■コース001111_4
■コース001111_5
■コース001111_6
■コース001111_7
■コース001111_8
「データ解析(多変量統計解析)はなぜ大切か」
■データ解析についてのデジタル資料(教材)
http://www008.upp.so-net.ne.jp/contents/datakaiseki.html
■データ解析についてのデジタル資料(教材)
http://www008.upp.so-net.ne.jp/contents/datakaiseki.html
■データ解析についてのデジタル資料(教材)
http://www008.upp.so-net.ne.jp/contents/datakaiseki.html
■データ解析についてのデジタル資料(教材)
http://www008.upp.so-net.ne.jp/contents/datakaiseki.html