ウィルコクソン検定の違いを完全解説|符号順位検定と順位和検定の使い分け方

統計学を勉強していると、「ウィルコクソンの符号順位検定」と「ウィルコクソンの順位和検定」という2つの似た名前の検定に出会います。

どちらもノンパラメトリック検定の代表格ですが、実はまったく異なる場面で使う検定です。

符号順位検定は「同じ対象を前後で比較するとき」、順位和検定は「異なる2グループを比較するとき」に使われます。

この記事では、この2つのウィルコクソン検定の違いを、統計初心者でも直感的に理解できるように解説します。

t検定との違いや、実務での使い分け方、データに合わせた判断フローチャートまで掲載。

この記事を読み終えるころには、「どの検定を使えばいいのか」が一瞬で判断できるようになるはずです。

目次

ウィルコクソンの符号順位検定と順位和検定の違いを一言でいうと?

統計を学んでいると、「ウィルコクソン検定」という言葉を耳にするたびに、少し混乱しませんか。

実は、ウィルコクソン検定には2つの異なるタイプがあるのです。

それが「符号順位検定」と「順位和検定」。どちらもノンパラメトリック検定ですが、使う場面がまったく違います。

一言でまとめると、次のようになります。

検定名 使う場面 データの関係 代表的な例
ウィルコクソンの符号順位検定 同じ対象を2回測定したとき 対応あり 治療前後の比較、テスト前後の成績
ウィルコクソンの順位和検定(マン・ホイットニー検定) 異なる2つのグループを比較するとき 対応なし 男女比較、地域別比較

つまり、同じ人(または同じもの)を比較するときは符号順位検定、別々のグループなら順位和検定です。

この1行を覚えておくだけで、検定選びで迷うことはほとんどなくなります。

「対応がある」か「対応がない」かで使う検定が違う

「対応がある」とは、同じ対象を2回測定しているという意味です。

たとえば、同じ患者の治療前と治療後の血圧同じ学生のテスト前後の成績などが典型的な例です。

これらのようにペア関係がある場合は、ウィルコクソンの符号順位検定を使います。

一方で、「男性グループと女性グループの満足度」や「地域Aと地域Bの売上高」のように、別々の人・場所のデータを比較する場合は、ウィルコクソンの順位和検定(マン・ホイットニー検定)を使います。

判断のコツはシンプルです。自分にこう問いかけてください。

「この2つのデータはペア(対応)になっているか?」

はい → 符号順位検定 / いいえ → 順位和検定

どちらも「ノンパラメトリック検定」という共通点がある

2つのウィルコクソン検定には、もう1つの共通点があります。

それはどちらもノンパラメトリック検定であるということ。

ノンパラメトリック検定とは、データが正規分布(ベルカーブ型の分布)であることを前提としない方法のことです。

イメージとしては、「データの形にこだわらず、順位だけで勝負する検定」のようなものです。

そのため、外れ値(極端に大きい・小さい値)や分布の歪みがあっても、結果が大きくブレません。

正規性を仮定するt検定とは異なり、「現実のデータ」に強いのが特徴です。

比較項目 t検定(パラメトリック) ウィルコクソン検定(ノンパラメトリック)
分布の仮定 正規分布が必要 不要
データ型 連続データ 連続 or 順序データ
外れ値の影響 大きい 小さい
主な対象 理論モデルの検証 実際の現場データ

違いと共通点をパッとつかむ早見表

最後に、この記事の要点をまとめた早見表を示します。

項目 符号順位検定 順位和検定
対応の有無 対応あり(同じ対象) 対応なし(別グループ)
別名 Wilcoxon Signed-Rank Test Mann–Whitney U Test
使う例 治療前後の変化、テスト前後 男女比較、地域比較、治療法A vs B
比較するもの 中央値の差 分布全体の違い
分布仮定 不要 不要

まるで兄弟のように名前が似ていますが、性格(用途)は正反対。

この2つを混同せずに使い分けられることが、統計分析の第一歩です。

違いの本質は「データの関係性」。ここを見抜けるようになると、統計の理解が一気に深まります。

 

ウィルコクソンの符号順位検定とは?

ウィルコクソンの符号順位検定(Wilcoxon Signed-Rank Test)は、同じ対象を2回測定したときに、その差が統計的に有意かどうかを調べる検定です。

つまり、「治療前と治療後」「研修前と研修後」など、同じ人やモノを2回比べる場合に使います。

対応のあるt検定(ペアt検定)のノンパラメトリック版と考えるとわかりやすいです。

対応のある2群を比べるときの検定(例:前後比較)

この検定は、「同じ対象を2つの条件下で測定したデータ」にぴったり合います。

たとえば次のようなシーンです。

分野 比較の内容 使用例
医療 治療前と治療後の症状スコア 新薬の効果測定
教育 勉強法導入前後の成績 新しい学習法の効果
ビジネス 研修前後の営業成果 研修プログラムの評価
製造 工程改善前後の不良率 品質改善の検証

こうしたケースでは、同じ個体を2回測定するため、測定値のペアが生じます。

このペアの「差の方向(プラスかマイナスか)」と「差の大きさ(絶対値)」を同時に評価するのが、符号順位検定の特徴です。

手順の流れ(差をとって順位づけ → 符号を考慮)

検定の流れをシンプルに整理すると、次の7ステップになります。

ステップ 内容
各ペアの差(後−前)を計算する
差が0のデータを除外する
差の絶対値を小さい順に並べ、順位をつける
元の符号(プラス/マイナス)を順位に戻す
プラス順位の合計とマイナス順位の合計を計算する
どちらか小さい方をT値として採用する
T値からp値を求め、有意差の有無を判定する

これだけ聞くと少し難しそうですが、要するに「プラスの差が多いか」「マイナスの差が多いか」を順位で判断しているのです。

正規分布を仮定せずに中央値の差を比較できるので、少ないデータでも頑健な結果が得られます。

具体例で理解する:ダイエット前後の体重データ

ここでは、12人の参加者がダイエットプログラムに参加した例で考えましょう。

それぞれの体重(kg)の変化を表にまとめます。

被験者 差(後−前) 差の順位 符号
A 85.0 82.5 -2.5 3
B 92.0 88.0 -4.0 5
C 78.0 78.5 +0.5 1
D 88.0 83.0 -5.0 6
E 81.0 79.0 -2.0 2
F 95.0 89.0 -6.0 7

プラスの順位和:1、マイナスの順位和:3+5+6+2+7=23。

この場合、小さい方の合計(1)がT値になります。

統計表やソフトを使ってp値を求めると、p < 0.05 となり、「体重が有意に減少した」と結論づけられます。

つまりこの検定は、平均ではなく中央値の変化を検出しているのです。

極端な外れ値に影響されにくく、少人数データにも適しています。

ウィルコクソン符号順位検定のポイントまとめ

特徴 内容
比較対象 同じ個体の2条件
求めるもの 中央値の差(有意かどうか)
データの仮定 分布の形を問わない
外れ値への耐性 強い
主な使用ソフト R, Python, Excel(アドイン)

要するに、符号順位検定は「小さいデータでも堅実に真実を見抜く検定」です。

分布の歪みや外れ値の影響を受けにくく、特に医療・心理・教育研究などでよく使われます。

“同じ対象の前後比較”にはまずこの検定を思い出す、それが基本です。

 

ウィルコクソンの順位和検定(マン・ホイットニー検定)とは?

ウィルコクソンの順位和検定(Wilcoxon Rank-Sum Test)は、「対応のない2つのグループ」の間に統計的な差があるかどうかを調べる検定です。

別名で「マン・ホイットニーのU検定(Mann–Whitney U Test)」とも呼ばれます。

簡単に言うと、男女・地域・製品AとBのように、独立したグループを比べるときに使う検定です。

対応のない2群を比べるときの検定(例:男女の比較)

ウィルコクソン順位和検定が活躍するのは、次のような「グループ間比較」の場面です。

分野 比較内容 使用例
マーケティング 性別・地域別の満足度 男性と女性の製品評価
医療 異なる治療法の比較 治療法A vs 治療法Bの効果
教育 異なる学校や教材の比較 A校とB校の成績差
品質管理 製造方法の違い 旧プロセスと新プロセスの品質比較

符号順位検定が「同じ人の前後比較」なのに対して、こちらは「別の人たちの比較」です。

つまり、データ同士にペア関係がないときに使うというのがポイントです。

手順の流れ(全データをまとめて順位づけ → 順位和を比較)

ウィルコクソン順位和検定は、全データを1つにまとめて順位をつけ、その順位の合計(順位和)をグループごとに比べます。

手順は次のようになります。

ステップ 内容
2つのグループ(AとB)のデータを1つにまとめる
全データを昇順に並べ、順位をつける
各グループに属するデータの順位を合計する
小さい方の順位和(またはU値)を検定統計量として使用する
p値を求め、有意差があるかどうかを判定する

全データを“1列に並べて順位づけする”という発想が、符号順位検定との大きな違いです。

順位を使うため、データの分布や外れ値に左右されにくいという特長も共通しています。

具体例で理解する:男性グループと女性グループの満足度

たとえば、カフェの満足度を男女8名ずつに聞いたとしましょう(スコアは10点満点)。

グループ スコア
男性 7, 6, 8, 5, 9, 7, 6, 8
女性 8, 9, 7, 8, 9, 6, 7, 8

これらをまとめて順位づけし、各グループの順位の合計を求めます。

男性グループの順位和:59 / 女性グループの順位和:78。

順位の合計が大きいほど、より高い値を取っていることを意味します。

この例では女性の順位和が高いため、女性の方が満足度がやや高い傾向にあるとわかります。

ただし、p値 = 0.27(RやPythonで計算)となり、統計的には有意な差とは言えません

ウィルコクソン順位和検定のポイントまとめ

特徴 内容
比較対象 異なる2つのグループ
求めるもの 2つの分布(中央値)の違い
別名 マン・ホイットニーのU検定
データ仮定 分布形に制約なし
外れ値への耐性 強い
適用シーン グループ間比較、製品比較、地域比較

符号順位検定との比較で理解を深めよう

2つのウィルコクソン検定は名前が似ていますが、実際の使い方はまったく異なります。

比較項目 符号順位検定 順位和検定
対応の有無 対応あり(同一対象の前後) 対応なし(独立した2群)
別名 Wilcoxon Signed-Rank Test Mann–Whitney U Test
主な対象 治療前後、テスト前後 男女比較、地域比較
分析単位 差(変化量) 順位(スコアの高さ)

要するに、符号順位検定は“同じ人を2回見る”、順位和検定は“別の人を比べる”と覚えておきましょう。

どちらも、正規分布を仮定できないときの強力な味方です。

t検定との違いと、ノンパラメトリック検定を選ぶ基準

ウィルコクソン検定とt検定は、どちらも「2つのグループを比較する検定」です。

ただし、前提条件がまったく異なります。

t検定はデータが正規分布していることを前提にしていますが、ウィルコクソン検定はその仮定を必要としません。

言い換えると、「データがきれいなベルカーブ型ならt検定、形が崩れていたらウィルコクソン検定」です。

正規分布しないデータではt検定が使えない

t検定(t-test)は平均値の差を比較するパラメトリック検定です。

パラメトリックとは、「データの分布(母集団)が正規分布に従う」と仮定する方法のこと。

もしこの前提が崩れていると、結果が信頼できなくなります。

検定名 仮定 対象とする値
t検定 正規分布+分散の等質性 平均値
ウィルコクソン検定 分布の仮定なし 中央値(順位)

たとえば、顧客満足度(1~5段階)や所得のような「偏った分布」のデータでは、t検定の前提が崩れます。

このような場合は、ウィルコクソン検定で中央値の差を比較する方が適切です。

サンプルサイズが小さいときの代替手段

もう1つのポイントは「サンプルサイズ」です。

t検定は標本が十分に大きい(一般的にはn≥30)場合に信頼性が高まります。

しかし、nが小さい場合は中心極限定理が働かないため、平均の検定は不安定になります。

そのようなときに有効なのが、ウィルコクソン検定です。

分布に仮定を置かず、小標本でも堅実に機能します。

状況 推奨される検定 理由
n ≥ 30、ほぼ正規分布 t検定 検出力が高い
n < 20、または歪んだ分布 ウィルコクソン検定 分布仮定が不要で安定
極端な外れ値あり ウィルコクソン検定 順位で処理するため頑健

つまり、少ないデータや非正規データではウィルコクソン、十分なデータではt検定という住み分けです。

分布を確認して適切な検定を選ぶフローチャート

実務で迷ったときは、以下の判断フローを使うと便利です。

質問 答え 選ぶ検定
同じ対象を2回測定している? はい 符号順位検定
異なるグループを比較している? はい 順位和検定(マン・ホイットニー)
データは正規分布している? はい t検定
データが歪んでいる/外れ値がある? はい ウィルコクソン検定

また、データが正規分布に従うかを確認するには、RやPythonで「Shapiro–Wilk検定」や「Q-Qプロット」を使うのが一般的です。

視覚的に見るだけでも構いません。分布が左右非対称であれば、ウィルコクソン検定を優先しましょう。

t検定とウィルコクソン検定の比較まとめ

最後に、両者の特徴を並べて整理します。

比較項目 t検定 ウィルコクソン検定
前提条件 正規分布が必要 不要
データ型 連続データ 連続・順位データ
外れ値の影響 受けやすい 受けにくい
標本サイズ 大きい方が有利 小さくても可
対象 平均の差 中央値(順位)の差
代表的な用途 理想的データの比較 現実的データの比較

要するに、t検定は「理論的に美しいデータ」に強く、ウィルコクソン検定は「現実的で汚れたデータ」に強い、と覚えておくとわかりやすいです。

実務の多くは後者ですから、ウィルコクソン検定を使えるようになると分析の幅が広がります。

検定結果の見方と解釈のコツ

ウィルコクソン検定を実行したあとに出てくる結果――特に「p値」や「有意差あり/なし」という言葉。

ここを誤解してしまうと、せっかくの分析も正しく読めなくなります。

この章では、“p値の正しい意味”と“結果の読み解き方”をわかりやすく整理します。

p値とは何か?

p値(p-value)は、「帰無仮説が正しいとした場合に、観測データのような極端な結果が出る確率」です。

つまり、偶然でこの結果が出る確率を数値で表したものです。

たとえば、p = 0.03 という結果が出た場合、

  • 「もし本当に差がないと仮定したら、これほどの差が偶然に出る確率は3%しかない」
  • だから「差がない」とは言いにくい → 差が“ある”と判断する

一般的に、p < 0.05を基準に「有意差あり」と判断します。

p値の範囲 判断 意味
p < 0.001 極めて有意 偶然とは考えにくい差
0.001 ≤ p < 0.01 非常に有意 明確な差がある
0.01 ≤ p < 0.05 有意 差があるとみなせる
p ≥ 0.05 有意差なし 統計的に差があるとは言えない

ただし、p値が「差の大きさ」そのものを表しているわけではありません。

これは非常に重要なポイントです。

p値の誤解に注意しよう

次のような誤解は非常に多いです。

  • ❌ 「p = 0.05だから、95%の確率で差がある」→ 誤り
  • ❌ 「pが小さいほど効果が大きい」→ 誤り
  • ✅ 「pが小さいほど、偶然では説明できない」→ 正しい

p値は「偶然かどうか」を測る指標であって、「どれくらい差があるか」は示していません。

そのため、p値だけで結論を出すのではなく、次に紹介する効果量も確認する必要があります。

効果量(Effect Size)もセットで見る

効果量は、「どのくらいの差があるのか」を定量的に示す指標です。

p値が有意でも、効果量が小さければ「差はあるけど実務的には意味がない」ということもあります。

ウィルコクソン検定では、主に次の効果量を使います。

効果量 記号 目安
相関係数 r = Z / √n 0.1:小さい効果/0.3:中程度/0.5:大きい
Cliff’s delta(順位和検定用) d 0.1:小/0.3:中/0.5:大

たとえば、p < 0.001でもr = 0.08なら効果はごく小さいと判断します。

逆に、p = 0.07でもr = 0.45なら「実務的には意味がある差」と言える場合もあります。

統計的有意性 vs 実質的有意性

「有意差がある=重要な差がある」とは限りません。

サンプルサイズが大きいと、ほんのわずかな違いでも統計的には有意になります。

たとえば:

  • 男性の満足度平均 4.32/女性の満足度平均 4.35(p = 0.01)

差は統計的に有意でも、実務的にはほぼ同じ満足度です。

このように、「p値が小さい=意味がある」ではなく、「p値+効果量+文脈」で判断することが大切です。

結果を読むときのチェックリスト

検定結果を見たら、次の4点をチェックしましょう。

  1. p値:0.05より小さいか?
  2. 効果量:差の大きさはどの程度か?
  3. 信頼区間:中央値の差がどの範囲にあるか?
  4. 実務的意味:現場で有意義な差か?

この4つを一緒に見ることで、「統計的に正しく、かつ実務に意味のある結論」が導けます。

報告例:統計結果をどう書くか

最後に、報告書や論文での典型的な書き方の例を紹介します。

ウィルコクソンの符号順位検定の結果、介入前後のスコアに有意な差が認められた(T = 12, p = 0.004, r = 0.46)。これは中程度の効果量を示し、介入が一定の改善効果をもたらしたことを示唆する。

マン・ホイットニーのU検定の結果、男性群と女性群の満足度に統計的に有意な差は認められなかった(U = 178, p = 0.27, Cliff’s d = 0.12)。したがって、性別による満足度の違いは実質的に小さいと判断できる。

このように、p値・効果量・解釈をセットで記述するのが、現代の統計レポートの基本形です。

混乱しやすいポイントを整理しよう

ウィルコクソン検定は便利な検定法ですが、実際の現場では「どっちを使えばいいの?」「名前が似ていてややこしい!」という声が多いです。

ここでは、特に混乱しやすい3つのポイントをクリアに整理します。

① 「対応あり/なし」があいまいなケース

最もよくある混乱が、「データが対応しているのか、していないのか」です。

基本の考え方はシンプルです。

同じ対象を2回測った → 対応あり
別々の人・グループを比較 → 対応なし

しかし、現場では次のようなグレーゾーンが存在します。

ケース 判断 使う検定
同じ患者の治療前後の症状 同じ対象を2回測定 符号順位検定
治療A群と治療B群(別の患者) 独立した2群 順位和検定
年齢や性別を揃えてマッチングしたペア 統計的に対応あり 符号順位検定
同じ製品を2つの工場で製造 異なるグループ 順位和検定

判断のコツは、「1行目のデータと2行目のデータに意味のあるペア関係があるか?」と自問することです。

「同じ個体・同じ条件に紐づく」なら対応あり、「グループごとに別の人」なら対応なしです。

② 「順位データだけに使える」と思っていませんか?

ウィルコクソン検定は「順位を使う検定」ですが、連続データ(数値データ)にも使えます。

実際、体重・血圧・得点など、ほとんどのケースは連続データです。

検定内部で自動的に「順位」に変換して計算するため、元のデータが整数でも小数でも問題ありません。

データ型ごとの対応表を見てみましょう。

データの種類 ウィルコクソン検定で使えるか 備考
連続データ(体重、点数など) 最も一般的な使用ケース
順序データ(5段階満足度など) 順位情報があるためOK
カウントデータ(件数など) 分布が偏る場合は注意
名義データ(性別、血液型など) 順位がないので不適

「数値じゃないと使えない」と思っている人もいますが、“順序がある”ことが大事なのです。

③ 「ウィルコクソン」と「マン・ホイットニー」の違いがややこしい

最後にもう一度、名前の違いを整理しておきましょう。

検定名 英語表記 対応の有無 別名
ウィルコクソンの符号順位検定 Wilcoxon Signed-Rank Test 対応あり なし(ペアt検定の代替)
ウィルコクソンの順位和検定 Wilcoxon Rank-Sum Test 対応なし マン・ホイットニーのU検定

この2つは本質的に別の検定です。
ただし、後者(順位和検定)は「ウィルコクソン検定」と略されることが多いため混乱が起きます。

論文や統計ソフトの出力では、「Wilcoxon rank-sum test」と「Mann–Whitney U test」が同じ結果を示すことを覚えておきましょう。

④ 実務で迷ったときの“1分診断チャート”

次のフローチャートを使えば、ウィルコクソン検定を選ぶべきかどうか、すぐに判断できます。

質問 はい いいえ
同じ対象を2回測定している? 符号順位検定
異なる2グループを比較している? 順位和検定(マン・ホイットニー)
データは正規分布している? t検定 ウィルコクソン検定

この流れを覚えておけば、ほとんどのケースで迷わなくなります。

⑤ よくある質問(FAQ)

最後に、現場でよく聞かれる質問をQ&A形式でまとめます。

Q1:ウィルコクソン検定は中央値の差を直接比べているの?

厳密には「中央値の差を仮定しない検定」です。データの順位に基づいて分布全体の差を検出しています。ただし、実務上は“中央値の差を見る検定”と理解して問題ありません。

Q2:3群以上を比べたい場合はどうする?

ウィルコクソン検定は2群専用です。3群以上の比較には「クラスカル=ウォリス検定」または「フリードマン検定(対応あり)」を使います。

Q3:順位が同じデータ(タイ)が多いときはどうなる?

同順位が発生した場合、順位の平均値を使用します。多すぎると検出力が少し下がりますが、問題にはなりません。

Q4:ウィルコクソン検定は平均の差も見ている?

いいえ。平均ではなく、データの順位分布(つまり中央値や全体的な傾向)の差を評価しています。

これらの違いを理解しておくことで、「なぜその検定を選んだのか」を説明できるようになります。
これは統計分析において最も重要なスキルの1つです。

まとめ:違いを理解してデータに合った検定を選ぼう

ここまで、ウィルコクソンの符号順位検定と順位和検定の違いを詳しく見てきました。

両者の使い分けを正しく理解することは、統計分析の基礎であり、信頼できる結果を導く第一歩です。

最後に、この記事のポイントを整理しておきましょう。

ウィルコクソンの2つの検定を一言でまとめると

符号順位検定 → 対応あり(同じ人・モノの前後比較)

順位和検定 → 対応なし(別グループ同士の比較)

つまり、「同じ対象か?」「別の対象か?」のたった1つの判断軸で、どちらを使うか決まります。

項目 符号順位検定 順位和検定(マン・ホイットニー)
対応の有無 対応あり 対応なし
比較対象 同じ個体の2条件 異なるグループ
代表的な例 治療前後・テスト前後 男女比較・地域比較
パラメトリック検定の対応 ペアt検定 独立2標本t検定
扱う値 順位+符号 順位の和

そして、どちらも「ノンパラメトリック検定」に分類されます。

つまり、正規分布を仮定せず、外れ値や小さいサンプルにも強いという共通点があります。

t検定との使い分けの最終整理

検定を選ぶときに迷ったら、次の早見表を使いましょう。

条件 選ぶべき検定
データが正規分布/サンプル数が十分 t検定(平均の差を検定)
データが非正規/外れ値がある ウィルコクソン検定(中央値の差を検定)
対応あり 符号順位検定
対応なし 順位和検定(マン・ホイットニー)

一度この表を頭に入れておけば、「どの検定を使うか」で迷う時間は大幅に減ります。

実務での応用:検定選びの黄金ルール

  • データの形を「分布」で確認する(正規分布かどうか)
  • サンプル数を確認する(n < 20ならウィルコクソン)
  • 対応の有無を明確にする
  • p値と効果量をセットで解釈する

これらの流れを自然にできるようになれば、統計分析の信頼性が格段に上がります。

次のステップ:さらに一歩進んだ分析へ

ウィルコクソン検定の理解は、他のノンパラメトリック検定を学ぶための入り口でもあります。

比較の目的 対応あり 対応なし
2群 ウィルコクソン符号順位検定 ウィルコクソン順位和検定(マン・ホイットニー)
3群以上 フリードマン検定 クラスカル=ウォリス検定

これらを組み合わせて使うことで、より多様な実験や調査データに対応できるようになります。

結論:検定の“使い分け力”が信頼性を生む

統計分析は「計算」ではなく「判断」の連続です。

どの検定を選ぶかという判断こそ、データサイエンスの核心です。

ウィルコクソン検定を正しく使い分けることで、

小さなサンプルでも誤らない、再現性の高い分析ができるようになります。

ぜひこの記事を参考に、自信を持って「正しい検定」を選べる統計分析者を目指しましょう。

よかったらシェアしてね!
  • URLをコピーしました!
目次