p値とは?統計的仮説検定や有意水準について分かりやすく解説

2021-07-12

p値とは、帰無仮説を棄却するか否か、有意水準を用いて決める際に用いられる判断材料です。

ここでは、統計的仮説検定の方法や統計解析ツールで求められた結果が有意か否かについて識別する基準を分かりやすく説明していきます。

このサイトは心理学の知識をより多くの人に伝え、
日常に役立てていただくことを目指して運営しています。

Twitterでは更新情報などをお伝えしていますので、ぜひフォローしてご覧ください。
→Twitterのフォローはこちら 

統計的仮説検定とは

統計的仮説検定とは、実験や調査によって得られたデータ(標本)から、地球上に存在する全人口(もしくは、日本国民・全●●県民など)の全体(母集団)のデータを推測して説明することができるか否かについて、統計処理を実施することによって求められたp値を用いて科学的に判断をする手段です。

では、どのような場面で統計的仮説検定が役立つのかについて、具体例を織り交ぜて説明いたします。例えば、日本国民(母集団)の若年層・高年層の年齢差による月間読書量に差があるかどうかを調査することになったとしましょう。

その際、日本国民が対象の調査だからといって、国民全員にアンケート用紙を配布するとなると、コストやデータ分析に必要な所要時間に大きな負担がかかることは避けられません。この時に、統計的仮説検定の手段を用いると、アンケート用紙への必要回答者数を少なくて200人程度に抑えることができます。

そして、この得られた一部のデータ(標本)から、日本国民についても同様に説明することができるかを判断することができるのです。そのため、調査や実験の場面では必要不可欠な科学的判断の手段といえます。

統計的仮説検定は、主に3つの構成要素で成立しています。以下で3つの構成要素について実際に分析をする段階を踏まえ、具体的に説明して参ります。

i.「2つの仮説(帰無・対立) を立てる」

はじめに、新たに研究をする際に、明らかにしたい事象を上げて仮説を立てましょう。

今回は、日本国民の若年層よりも高年層の方が1ヶ月間の読書量が多いという説を立てたとします。この仮説は、若年層・高年層の2つの群間に読書量の差が存在することを主張する “対立仮説”と呼びます。

対して、もう1つの仮説は帰無仮説であり、これは日本国民の若年層・高年層の2つの群間には読書量の差が存在しなく等しい結果であることを主張します。

ii.「帰無仮説が真であることを前提とし、検定統計量を計算する」

実際に統計処理を行う際には、求めようとしている事象(今回の場合は若年層・高年層の読書量)間の関わりは、帰無仮説であることを前提に考えます。

iii. 「有意水準による結果の判断」

最後に、統計分析処理によって求められたp値を判断材料とし、有意水準を指標として用いて、帰無仮説(若年層・高年層の読書量には差がない)を棄却し、対立仮説(若年層・高年層の読書量に差がある)を採用するか否かの判断をする流れになります。

p値・有意水準・有意差の意味と具体例

では、統計学を触れる際に必ず目にかけることになる専門用語「p値(P-value)」「有意水準(significance level)」「有意差(significant difference)」の意味について、上記で取り上げた具体例を再び用いながら説明いたします。

日本人の若年層・高年層による月間読書量に差があるのかを検証するために、アンケート調査を実施し、300人分のデータを集めることができたとしましょう。それらのデータを用いて、若年層・高年層の群間比較を行いたいため、今回は対応のないt検定を実施したとします。

それぞれの群間の平均値や標準偏差は、若年層(M= 2.37, SD= 1.41)、高年層(M= 4.71, SD= 0.57)であったとします。そして、t検定の結果、(t(298)= 2.17, p< .05)の結果が得られたとしましょう。

この時にt検定の結果として、求められた(t(298)= 2.17, p< .05)に注目してください。この記述に含まれている(p< .05)がp値であり、有意水準を意味しています。

p値とは、(.000〜1)の間で算出される値で、帰無仮説を棄却するか否かの判断基準として用いられる数値のことを指しています。

有意水準とは、算出されたp値を用いて、その分析結果が有意なものであるか判断する基準であり、一般的にp値が(.05)を下回っているものが有意であると判断されます。

この結果に関して更なる記述をする際には、決まり文句として「若年層よりも高年層よりも読書量が多い有意差が示された。」などと記述されることが多いです。有意差とは、「χ2検定」、「t検定」や「分散分析」の分析結果の記述で用いられるキーワードです。

上記では、「p値」「有意水準」「有意差」について、論文に記述される形式を具体例として挙げ、簡易的な説明をいたしました。それでは、以下の項目にて「p値」「有意水準」「有意差」の詳細について説明いたします。

※これらの説明をする際に用いた具体例は実際に調査をし、導き出された結果ではありません。あくまで「p値」「有意水準」「有意差あり・なし」を説明するために、取り上げた簡易的な例文です。

p値の定義

p値とは、求められた分析結果が帰無仮説である確率を表記する数値です。

多くの心理研究では、p値が5%を下回る(p< .05)場合は、帰無仮説が発生しうる確率は5%(対立仮説発生確率は95%)であり、その研究にて対立仮説が発生したことは偶然ではないと判断され、帰無仮説を棄却し、対立仮説を採択されることが一般的です。

また、p値が5%を超えたとしても、10%を下回る場合(p< 0.1)は、有意傾向があると表記されることもあります。

有意水準の定義

有意水準とは、統計的仮説検定を実施し、求められたp値を用いて帰無仮説を棄却するか否かを判断する基準のことを指します。

上記のp値の定義でも取り上げましたが、一般的に、p値が5%を下回ると帰無仮説は棄却することができると判断されます。

また、有意水準の判断基準は5%、1%、0.1%と細かく細分化されています。それらの判断基準や、論文へ挿入される図に頻出しがちな記号を簡易的に纏めた図を以下に載せているので、参考にしてみてください。

有意差あり・有意差なしの意味

論文を読んでいる際に、結果の項目で「有意差があった」「有意差がなかった」といった文脈を見かけたことはありますでしょうか。この「有意差」のあり・なしとは、一体何を意味しているか、それの解釈の仕方を説明します。

それは、事象間の平均値に「統計学的に意味のある差」があるか否かを説明しているとイメージをしてください。そして、この統計学的に意味のある差があるとする判断基準は上記で触れた有意水準が5%未満か否かです。

これは、事象間に統計学的に意味のある差の存在の有無を検討する「χ2検定」、「t検定」もしくは「分散分析」で求められた結果を説明する際に用いられるキーワードです。

一方で、事象間の差の有無を検討する目的以外で用いられる統計分析法である「相関分析」、「重回帰分析」などでは、統計学的に意味のある関係を持つ、つまり、「有意な関係がある・ない」といった説明文を記述する必要があります。

検定を行う際の注意点

統計分析を行う際に用いるデータに関して注意を払っていただきたいポイントが2つあります。

1つ目は、データに天井効果(ceiling effect)、床効果(floor effect)が発生していないか否かです。

天井効果や床効果とは、1データの平均値±標準偏差の数値が最高値・最低値を突き抜けている状態を指しています。最高値を上回る場合は天井効果、最低値を下回る場合は床効果が発生しています。

これらの現象が発生しているデータを用いて分析を行うと後ほど何かしらの弊害が生まれる可能性がありますので、分析開始前に記述統計でデータの状態を確認してから分析に取り掛かった方が良いといえます。

2つ目は、外れ値の存在です。

外れ値とはデータ収集をする際に何かしらの不具合などで発生する、他のデータと比べると異常値とも取れる突飛した数値が数少なく紛れ込むものです。

外れ値を残した状態で分析を続行すると、他のデータの平均値が外れ値に引っ張られてしまい、今後の分析に何かしらの支障を来す可能性があるため、記述統計を実施し、発見した際は除外するようにしてください。

第一種の誤り

第一種の誤り(type I error)とは、本来であれば事象間に有意差(有意な関係)がないのにも関わらず、p値が5%を下回っていたことで、帰無仮説を棄却し、対立仮説を採用してしまう誤った判断をしてしまうことを指しています。偽陽性(false positive)とも呼びます。

第二種の誤り

第二種の誤り(type II error)とは、本来であれば事象間に有意差(有意な関係)があるのにも関わらず、p値が5%を上回っていたことから、帰無仮説を採択し、対立仮説が誤りであると判断してしまうことを指しています。偽陰性(false negative)とも呼びます。

p値への批判と問題点

p値が5%未満という有意水準が、はじめて公の場で使用されたのは、FisherのStatistical Methods for Research Workers(1925)であるとされています。

当時、Fisherが有意水準を5%未満に決めた理由は便利や個人的な好みであり、標準偏差±2の範疇(約95%)から抜け出す場合には有意であると判断すれば良いと考えていたようで、科学的根拠に基づいて吟味された末に導き出された有意水準ではなかったといわれています。

Fisherの主張を数多くの学者が検証を重ねた結果、社会的に起こりうる様々な出来事・事象に対して有意水準5%説は妥当であると結論づけられましたが、その後にもp値に対する懐疑的な見解は残っています。

現状、p値や有意水準を用いた判断をする際に、上記でも取り上げた、第一種の誤り・第二種の誤りが起こる可能性を否めることはできません。

実際、p値はデータ数に大きく作用され、統計分析をする際にデータが多いに越したことはないですが、データ数が多くなればなる程に分析結果で導き出されるp値も小さくなっていき、第一種の誤りが発生しやすくなると考えられています。

そのため、p値以外に分析結果を判断する基準が必要であるとされ、95%信用区間の記述や、効果量(χ2値・t値、F値、β、など)も用いて有意か否かの判断をすべきであるといった考え方もされています。

検定が行えるツール

それでは、実際にp値が伴う様々な統計法を実施することができる統計ツールを紹介いたします。

SPSS

SPSSとは、IBM社が取り扱っている統計解析ツールです。本記事中で取り上げた複数の分析法はもちろんのこと、心理学研究に必要な統計分析法に幅広く対応しています。

またAmosを導入することによって、「共分散構造分析」にも対応することが可能です。

HAD

HADとは、関西学院大学の社会学部の清水裕士教授が作成されたExcelを用いた無料の心理統計ツールです。

SPSSと同様に、本記事中で取り上げた複数の分析法にも対応しており、分析を実施するだけで簡易的な表や図と共に結果が表示されるので、レポート・論文作成にもってこいなツールです。

また、共分散構造分析にも対応(Windowsのみ)しているので、無料で統計解析ツールを使いたいといった人にオススメです。

検定についてわかりやすく学べる本

p値はもちろんのこと、様々な心理統計法について分かりやすく説明されている本を紹介します。

created by Rinker
¥3,080 (2024/09/18 06:35:37時点 Amazon調べ-詳細)

複数の科学的判断基準を持ち、虚偽溢れる情報社会に騙されない力を持つ

新たな研究を行おうとした際には、様々な情報に触れていかねばなりません。

その際に触れる、ネット・メディア・書籍をはじめとする情報全てが正解、真実を射抜いているとは断言できません。

心理学が関係するものでも誤った知識が世間に流通しているものがあります。例えば、血液型が性格に影響を及ぼすといったものが代表例として挙げられます。この間違った知識には、バーナム効果(誰しもに当てはまりやすい傾向のある事象)の心理テクニックが使われているので、本当に当てはまっていると信じてしまう人もいるようです。

この誤った情報を信じ、実際に、血液型を独立変数として取り扱う実験計画を立て、いざ分析を実施したとしても、血液型によって性格が変わることはないので、非有意の実験結果が導き出されて途方に暮れることは避けねばなりません。

心理学の世界に限らず、正誤情報溢れる現代社会において、数多くの誤った情報に容易く翻弄されない力を身につける。そのためには、情報の出典源を探し求める力だけでなく、情報を正しく読み解く能力を身に付ける他ありません。その時に、統計学の知識は大変役立つことでしょう。

参考文献

大久保街亜・岡田謙介「伝えるための心理統計」(2012)勁草書房

倉田博史「大学4年間の統計学が10年間でざっと学べる」(2019)角川文庫

白井祐浩著「統計嫌いのための心理統計の本」(2017) 創元社

こちらもおすすめ

    • この記事を書いた人

    ねべあ

    学部で犯罪心理学を専攻していました。社会調査士資格を所有しています。研究補助やStudent Assistantの場で心理学同等に統計学を取扱う機会が多かったです。

    -統計

    © 2020-2021 Psycho Psycho