心理学は統計を用いることで科学的な根拠を得て主張を行っていました。そのため、心理学を学ぶ上で統計分析の学習は避けて通ることができません。
今回は数ある統計分析の中でも分散分析と呼ばれる手法をご紹介します。分散分析とはどのようなものなのか、そのやり方について例を挙げながらわかりやすく説明していきます。
目次
分散分析とは
分散分析
とは、研究で得られた複数のデータ群の平均値が統計学的に有意な差があるのか、それとも誤差なのかを判定する統計手法です。
分散分析はAnalysis of Varianceの頭文字を取ってANOVAと表現されることもあります。
分散分析の例
分散分析について具体的なイメージが持てるよう、例を挙げてみましょう。
【分散分析の例】
目的:小学6年生の理科の学力向上に最も有効な授業方法を見つけたい
手段:次の3つの学習法を受けた生徒のテストの点数がどれほどなのかを検討する
- 一斉指導
- 体験学習
- グループ・ディスカッション
このような目的を達成するために、テストで得たデータを分析する方法で有効なのが分散分析です。
そもそも、このテストの結果を比較するときに分散分析で平均値を比較する理由は何なのでしょうか。
例えば、6年1組からA君のテスト結果、6年2組からB君のテスト結果、6年3組からC君のテスト結果を抜き出し比較するという方法が考えられます。
A君(6年1組) | B君(6年2組) | C君(6年3組) | |
指導方法 | 一斉指導 | 体験学習 | グループ・ディスカッション |
テスト結果 | 50点 | 60点 | 100点 |
この結果をみると、グループ・ディスカッションという学習をしたC君の得点が最も高くなっており、理科の学力向上に最も有効な指導方法はグループ・ディスカッションであると思えます。
しかし、本当にそうなのでしょうか。
例えば、C君は元々知能が高い子であったり、塾に通っていてテストの内容を事前に学習していれば起こりうるものであり、このような得点差はグループ・ディスカッションという指導を受けたからテストで良い点数を取れたのかどうかは分かりません。
つまり、グループ・ディスカッションという指導方法によりいつもテストの点数が高くなるという意味のある(有意な)差なのか、それともC君が理科が得意であるために偶然起こった差であるのかは判別できません。
そのため、理科が得意な子もいれば、そうでない子もいる集団全体を代表する平均値を比較する分散分析を行うことによって、平均値の差が偶然によるものなのかそれとも統計的に有意なものなのかを判定する必要があるのです。
平均値を比較する統計分析
実は集団の平均値を比較する統計手法は分散分析だけではありません。
2つの集団の平均値を比較する方法はt検定と呼ばれる手法で行われます。
例えば、心理療法の介入前と介入後の数値を比較する(対応のあるt検定)、2クラスの学力差を比較する(対応のないt検定)などの際にはt検定を用いて統計処理を行います。
しかし、3群以上のデータの平均値の差を比較する場合にはt検定を用いず、分散分析を行います。
2群間の差を比較するt検定を複数回行えば、3群以上のデータの計算も行えるように思えますが、t検定を繰り返すと本当は正しい仮説を誤っていると判断してしまう可能性が高まってしまいます。
そのため、3群以上のデータを比較する場合は分散分析によって検討するようにすべきなのです。
分散分析の種類
分散分析と一言でまとめても実はいろいろな種類があるのです。
それぞれの種類を覚える前に次の用語の意味を覚えておきましょう。
- 要因:収集するデータに影響を与える原因
- 水準:要因の下位分類のこと
例えば、東京都と大阪の学力差を比較検討しようと、国語・数学・英語のテストを実施したとしましょう。
この時の要因と水準は次のようになります。
被験者 | |||||
要因 | 地域 | 学力テスト | |||
水準 | 東京都 | 大阪府 | 国語 | 数学 | 英語 |
一元配置分散分析
一元配置分散分析とは、要因が1つであり、水準が3つ以上あるデータに対して行う分散分析
のことです。
例えば、学校において生徒の学力の偏りを調べるため、5教科のテストを実施した場面を考えてみましょう。
被験者 | |||||
要因 | 学力テスト | ||||
水準 | 国語 | 数学 | 英語 | 理科 | 社会 |
このような場合、5教科それぞれのテストの得点の平均値を比較することで、有意に高いもしくは低い教科を捉え、より力を入れて授業を行うべき教科を見つけることが出来るでしょう。
このように、一元配置分散分析は要因が1つで、水準が3つ以上あるデータに対して実施します。
二元配置分散分析
二元配置分散分析は、要因が2つあるデータに対し実施します
。
例えば、天候によってバスと電車の乗客数はどのようになるのかを検討する場面を考えてみましょう。
被験者 | ||||||
要因①乗り物 | 電車 | バス | ||||
要因➁天候 | 晴れ | 曇り | 雨 | 晴れ | 曇り | 雨 |
この時要因①(乗り物)は2水準、要因➁(天候)は3水準となり、2×3=6つの群が存在します。
そして分散分析により、それぞれの群の有意さを求めるのですが、二元配置の分散分析では、次のような効果を検出することが出来ます。
【二元配置分散分析で求める効果】
- 主効果:1つの要因間で統計的に有意な差があること
- 交互作用:要因①と要因➁が影響を及ぼし合い生じる変化のこと
上の例で挙げるならば、バスよりも電車の方が乗客数が多い、晴れの日よりも雨の日の方が乗客数が多いなどの場合は主効果です。
これに対し、雨の日のバスの乗客数が他の群よりも有意に高いなどの場合は、乗り物という要因と天候という要因それぞれが組み合わさり乗客数が増えているということを示すため、交互作用が生じていると判断できるのです。
分散分析のやり方
それでは分散分析はどのようにすれば良いのでしょうか。
帰無仮説・対立仮説の設定
分散分析は統計的仮説検定の一つであり、データの分析の前に、まずは仮説を立てる必要があります。
まず、主張を行うために必要となるのが帰無仮説です。
帰無仮説とは、棄却されることを目的とした仮説のことを言います。
例えば、3つのクラスの学力差を検討する場面において、帰無仮説は「3つのクラスのテストの平均点に差はない(全ての平均値は統計的に有意な差はない)」というものになります。
そして、データの解析によって帰無仮説が否定されたときに採択される仮説が対立仮説です。
上の帰無仮説に対する対立仮説は「3つのクラスのテストの平均点に差がある(群の平均値の中に有意に高い、もしくは低い値がある)」となります。
帰無仮説の棄却
分散分析では帰無仮説を棄却できるか判定するために、統計ソフトを用いれば必要項目を入力すると自動でデータの解析をしてくれますが、もともとは分散分析表を作成することからスタートします。
平方和 | 自由度 | 平均平方 | F検定値 | |
群間 | ||||
群内 | ※² | |||
全体 | ※¹ | ※³ |
※¹~※³は計算しません。
平方和とは、ずれの程度を表すもので、(それぞれのデーター平均値)²の合計によって算出することが出来ます。
そのため、群内の平方和はそれぞれの群の平方和の合計によって求めることが出来ます。
また、群間の平方和は(各群の平均ー全体の平均)²×各群データの個数の合計によって求められ、群内の平方和+群間の平方和は全体の平方和となります。
また、自由度は次のようにして求めることが出来ます。
- 群内自由度:各群のデータ数-1の合計
- 群間自由度:群の数-1
- 全体自由度:データの総個数-1
また、平方平均は平方和を自由度で割ることで算出できます。
そのため、群内の平均平方は(群内平方和÷群内自由度)、群間の平均平方は(群間平方和÷群間自由度)によって算出することが出来ます。
最後のF検定値は(群間の平均平方÷群内の平均平方)で算出することが出来ます。
その後、群内自由度、群間自由度に当てはまる棄却域をF分布表に照らし合わせ見つけだし、計算したF検定値と比較します。
そして、F検定値>F分布表の棄却域となれば、帰無仮説を棄却し、対立仮説を採択することが出来ます。
多重比較
しかし、帰無仮説を棄却しただけでは、「比較する群のどこかに差がある」ことしか分かりません。
そのため、どの群の間に有意差があるのかを見つけ出す必要があるのです。
このために行うのが多重比較です。
多重比較にはいくつかの種類がありますが、最も用いられることが多い方法はテューキー法と呼ばれる方法です。
また、二元配置分散分析などでは、主効果と交互作用がどのように生じているのかを詳しく検定する必要があるので、忘れないでおきましょう。
分散分析について学べる本
分散分析について学べる本をまとめました。
初学者の方でも手に取りやすい入門書をまとめてみましたので、気になる本があればぜひ手に取ってみて下さい。
実験計画と分散分析のはなし―効率よい計画とデータ解析のコツ
一元配置分散分析は別ですが、実際に研究を行うようになると、複数の要因、水準を扱い分散分析を実施する場面もあるでしょう。
そのような複雑な分析を行うときに何よりも大切なのが、実験デザインをしっかりと確立させることです。
実験デザインが確立されていないと実際に有意差が見つかったとしても、それが何を意味しているのか分からなくなってしまいます。
ぜひ実際の分析の前にしっかりと実験計画を行えるようにしましょう。
入門はじめての分散分析と多重比較
平均値の差を検討するという点ではt検定と分散分析は同じですが、複数の要因を扱うためしっかりと基礎から学んでおく必要があります。
ぜひ本書で分散分析ではどのようなことを行うのか、その中身をしっかりと学びましょう。
適切な分析を行うためにしっかりとした研究計画を
分散分析は心理学研究でも使われることの多い分析法ですが、狙った分析結果を得るために何よりも重要なのが研究計画をしっかりすることです。
ぜひ様々な心理学研究に目を通し、分散分析を行っている研究はどのようなデザインで行っているのかを気にするようにすると、自分が研究を行う際の助けになるでしょう。
【参考文献】
- 南風原朝和(2002)『心理統計学の基礎―統合的理解のために (有斐閣アルマ)』有斐閣
- 入戸野宏(2004)『心理生理学データの分散分析』Japanese Journal of Physiological Psychology and Psychophysiology 22 (3), 275-290
- 落合信寿(2011)『心理学分野で用いられる統計解析手法(2)』バイオメカニズム学会誌 35 (3), 208-212