無母數分析中的 Mann-Whitney U 檢定法

深入探討兩組獨立樣本中位數比較的非參數檢定方法

主要亮點

無母數特性：不依賴於資料的常態分佈，適用於各種資料型態。
獨立樣本比較：主要用於檢驗兩組獨立樣本中位數或秩次是否存在顯著差異。
實務應用廣泛：可應用於小樣本、非正常分布和序數資料等多種情境。

引言與背景

在統計分析領域中，對於兩組獨立樣本的比較通常依賴於參數檢定，例如獨立樣本 t 檢定。然而，當樣本資料不符合常態分佈假設或變異數不齊性等條件時，這些參數檢定的效能往往受到限制。為解決這些問題，無母數檢定方法被提出，其中最知名的是 Mann-Whitney U 檢定（又稱 Wilcoxon 秩和檢定）。

Mann-Whitney U 檢定法由 H.B. Mann 和 D.R. Whitney 於 1947 年提出，旨在檢驗兩個獨立樣本的中位數是否顯著不同。此方法不需要假設基本的常態分佈或變異數同質性條件，使其在處理非正態或小樣本資料時非常有用。

Mann-Whitney U 檢定的基本概念

定義與目標

Mann-Whitney U 檢定是一種無母數統計檢定方法，主要用於比較兩組獨立樣本（群體）的中位數或數據的排位（秩次）是否顯著不同。該檢定的目標是評估兩組資料是否可能來自於同一母體分佈，或者說它們在某個感興趣的變數上是否展現出顯著差異。

通常在以下情形下運用 Mann-Whitney U 檢定：

當資料不符合常態分佈假設。
當資料屬於序數型或連續型數據，但缺乏相應分布假設時。
在小樣本分析中，當樣本數不足以滿足參數統計檢定的要求。

檢定原理

Mann-Whitney U 檢定藉由比較兩組資料樣本中數據的相對次序（秩次）來進行分析，主要過程可概括為以下幾個步驟：

數據排序與秩次分配

首先，將兩組獨立樣本中的所有觀察值合併起來進行排序。排序後，每一個觀察值都會被賦予一個秩次。當有相等的數值（即平手）時，各自的秩次以該平手秩次的平均值來分配，這樣可以確保每一數據點公平地被評估。

計算秩次和與 U 統計量

完成排序並分配秩次後，下一步便是計算每組樣本各自的秩次總和。假設兩組分別記為群體 A 和群體 B，其秩次和分別為 \(R_A\) 和 \(R_B\)。接著根據秩次和計算出對應的 U 值。一般而言，有以下兩個 U 值計算公式：

\( U_A = n_A n_B + \frac{n_A (n_A+1)}{2} - R_A \) 及 \( U_B = n_A n_B + \frac{n_B (n_B+1)}{2} - R_B \)

其中 \(n_A\) 與 \(n_B\) 分別表示群體 A 和群體 B 的樣本數。最後取兩者中較小的 U 值作為最終的檢定統計量。

統計推論

得到 U 統計量後，可通過查找臨界值表或使用統計軟體轉換成標準分數（Z 值）來進一步進行顯著性檢定。如果計算出的 p 值小於預設的顯著水平（例如 0.05），則可以拒絕虛無假設，從而認為兩個群體在研究變數上的中位數存在顯著差異。

適用情況與使用條件

應用場景

Mann-Whitney U 檢定法在社會科學、生物醫學以及其他研究領域中應用廣泛，主要因為它對數據分佈沒有嚴格要求。以下幾種典型情境經常會使用此方法：

臨床試驗與藥物效果比較：當研究中對比兩組病患在接受不同治療方案後的反應，由於樣本數通常有限且數據可能不符合常態分佈，此時 Mann-Whitney U 檢定能夠提供可靠的中位數比較。
心理及社會科學研究：在比較不同群體的行為模式、態度或信念時，當資料為排名或其他非正態形式時，此檢定法能很好地應對分析需求。
生物學與環境科學：許多實驗研究中，測量到的數據來源於自然變異大或分布偏斜的集合。Mann-Whitney U 檢定提供一種分析方法來比較兩個環境處理或生物體樣本之間的差異。

使用條件與假設

為確保檢定的有效性和結果的準確性，Mann-Whitney U 檢定法依賴於以下幾個關鍵假設條件：

獨立性：兩組樣本必須來自彼此獨立的群體，且各組內資料彼此獨立。
隨機抽樣：樣本應從各自的總體中隨機抽取，以確保樣本能夠代表整個母體。
順序或連續資料：數據需至少符合有序資料的要求，亦即資料間可以進行排名。

與其他檢定方法的比較

當考慮兩組樣本差異時，參數檢定如獨立樣本 t 檢定往往是首選。但獨立樣本 t 檢定要求資料需服從正態分佈且具有相似的變異數。與此不同，Mann-Whitney U 檢定法不需要滿足這些嚴格條件：

與 t 檢定相比：當樣本數較大且資料接近常態分佈時，t 檢定可能提供更高的檢定效能。但是在小樣本或非正態情形下，Mann-Whitney U 檢定更為穩健。
與 Wilcoxon 符號等級檢定：後者常用於比較配對或依賴樣本，而 Mann-Whitney U 檢定則專注於兩個獨立樣本。這使得兩者在適用範圍上有所區別。
與 Kruskal-Wallis 檢定：Kruskal-Wallis 檢定可視為 Mann-Whitney U 檢定在多組資料情境下的推廣，因此當需要同時比較三組或更多群體時，Kruskal-Wallis 檢定更適用。

詳細檢定步驟及計算

步驟概述

進行 Mann-Whitney U 檢定主要包含下列步驟：

合併並排序所有觀察數據。
為每個數據點分配秩次，如遇平手則取各自的平均值。
計算兩組樣本的秩次總和。
利用秩次總和計算 U 統計量。
根據 U 值，透過臨界值表或將 U 值轉換為 Z 值來進行顯著性檢定。

數據整理與排序示例

下面是一個簡單的示例表格，展示了如何從兩組樣本中計算秩次和 U 值：

樣本	觀察值	秩次
群體 A	5	3
	7	5
	9	7
	10	8
群體 B	4	2
	6	4
	8	6
	11	9

在這個表格中，兩組數值首先合併排序，接著依據從小到大的順序分配秩次。根據分配結果，各組的秩次和可以進一步用來計算 U 統計量。如果兩組的秩次和有明顯的差異，則代表兩組數據分佈存在顯著差異。

公式應用與轉換

前面提到的 U 值公式可用於計算各組的 U 統計量。考慮群體 A 擁有 \(n_A\) 個觀察值，群體 B 擁有 \(n_B\) 個觀察值：

\( U_A = n_A \times n_B + \frac{n_A (n_A+1)}{2} - R_A \)

\( U_B = n_A \times n_B + \frac{n_B (n_B+1)}{2} - R_B \)

根據哪一個 U 值更小可作為檢定的判斷依據。進一步，為了便於解釋和應用，有時該 U 值會被轉換成標準化的 Z 值以便與標準常態分佈進行比較，從而確定是否達到統計顯著性。

優點與限制討論

主要優點

Mann-Whitney U 檢定法在統計應用中擁有以下明顯優勢：

無分佈假設：該方法不要求數據服從正態分佈，這意味著在真實應用中，當資料明顯偏離常態模型時，依然能夠進行穩健的比較。
適用於小樣本：在小樣本分析中，由於資料不足以支撐參數檢定的要求，Mann-Whitney U 檢定提供了一個有效的替代方案。
適合排序數據：當資料以秩次或排序值表達時，這一檢定方法具備相當高的靈活性和適用性。

主要限制

儘管 Mann-Whitney U 檢定法廣泛應用，但在某些情況中，它也存在數個限制：

檢定力較低：相比於滿足正態分佈假設的 t 檢定，Mann-Whitney U 檢定可能在測試小效應或中位數差異時檢定力不足。
只能評論中位數或秩次差異：該方法無法直接提供關於均值差異的資訊，結果主要反應數據排序上的差距而非實際平均值。
依賴秩次分配：結果較為依賴於數據的排序，因此在存在較多平手或重複數值時，可能需要額外的處理策略。

實際應用與軟體支持

臨床與社會科學中的應用

在臨床研究中，Mann-Whitney U 檢定常用於對比不同治療方法的效果。例如，醫學研究者可能比較接受新藥與安慰劑治療的病人的臨床結果，當數據分佈不明或樣本數較少時，此檢定法能夠有效判斷兩組之間的中位數是否存在顯著差異。

在社會科學研究中，例如心理學或市場研究中，該檢定法能夠用於比較兩個獨立調查群體的态度或行為指標。因為該方法處理的是排名資料，所以在面對 Likert 尺度等調查數據時也很適合。

統計軟體實作

許多現代統計軟體均支持 Mann-Whitney U 檢定，這使得該方法在應用上變得十分方便。常見工具包括：

SPSS：SPSS 中內置了 Mann-Whitney U 檢定功能，使用者只需選擇相應的選項，軟體便會自動計算 U 值及相應的 p 值。
R 語言：R 語言中，可通過函數 wilcox.test() 輕鬆進行 Mann-Whitney U 檢定。通常設定 paired = FALSE 即可。
Python：在 Python 的 scipy.stats 模組中，mannwhitneyu() 函數可用來執行該檢定。

這些工具均提供詳細結果，包括 U 值、標準分數（Z 值）以及 p 值，使研究者能夠根據結果做出統計推斷。

R 語言實例代碼

以下是一段使用 R 語言進行 Mann-Whitney U 檢定的簡單示例代碼：


# 註：這是一段 R 語言代碼，使用 wilcox.test() 進行檢定
# 模擬兩組數據
group_A <- c(5, 7, 9, 10)
group_B <- c(4, 6, 8, 11)

# 進行 Mann-Whitney U 檢定 (非配對)
result <- wilcox.test(group_A, group_B, paired = FALSE)
print(result)

常見問題與解釋

何時選用 Mann-Whitney U 檢定？

當數據未達到正態分佈假設，或涉及的是順序尺度資料，以及沒有樣本數較大時，選用 Mann-Whitney U 檢定是一個不錯的選擇。這能夠避免使用參數檢定帶來的偏誤，並且在檢定效能上雖然可能略顯不足，但在無假設前提下提供了更為穩健的檢定結果。

如何解釋檢定結果？

當檢定結果顯示 p 值低於預設的顯著性水平（例如 0.05）時，可以得出結論認為兩組樣本來源的母體分佈在研究變數上存在顯著差異。反之，若 p 值較高，則應認為沒有足夠證據顯示兩組中位數有顯著差異。需要特別留意的是，Mann-Whitney U 檢定反映的是中位數與秩次分佈上的差異而非直接的均值差異，因此解釋結果時應聚焦於數據排序及分布特徵。

進階討論與實例擴展

比較不同方法的應用優勢

除了經典的獨立樣本 t 檢定外，研究者在數據分析時也可能考慮其他無母數檢定方法來補充或驗證結果。Mann-Whitney U 檢定法由於其無分佈限制的特性，提供了一種重要的補充手段，特別是在資料顯示出異常分布或高度偏斜時。

與參數檢定相比，其檢定力度雖然有時不足，但在資料數量有限或存在較多平手情況下，其整體運行和解釋上的簡潔性使其具備不可替代的優勢。研究者在進行多組比較時，也可以利用 Kruskal-Wallis 檢定來處理，這種方法將 Mann-Whitney U 檢定的基本思想推廣至多組數據的情境中。

實例應用：環境科學中的應用

在環境科學研究中，通常會面對來自不同地區或不同處理方式下的測量數據。以土壤樣本中某種元素的含量為例，假設研究者希望比較兩個不同地區的土壤中該元素的中位數。一組數據來自於受人為活動影響較大的地區，而另一組則來自於較為自然狀態的環境。傳統的 t 檢定在此情境下可能不具備代表性，因為數據往往具有偏態分佈。使用 Mann-Whitney U 檢定，研究者可以根據兩組數據的秩次和判斷兩個地區之間是否存在顯著差異，從而為環境監控和政策制定提供依據。

實例應用：社會研究中的探索

社會科學領域中，調查研究經常採用 Likert 尺度問卷來測量受訪者的態度。由於此類數據屬於序數資料，直接使用參數方法進行檢定可能不合理。Mann-Whitney U 檢定在這種情況下則表現出其獨特的優勢。例如，在研究男女對於某社會政策實施後的滿意度時，儘管兩組數據沒有滿足常態分佈，該方法依然可以有效比較兩組的中位數差異，從而得出可靠的結論。

表格總結：Mann-Whitney U 檢定與其他檢定方法對比

特性/方法	Mann-Whitney U 檢定	獨立樣本 t 檢定	Wilcoxon 符號等級檢定
資料分佈要求	無常態假設	要求正態分佈	用於配對樣本
適用樣本類型	獨立樣本、序數數據	獨立連續數據	依賴配對或相依數據
檢定對象	中位數或秩次	平均數	相對變化
主要優點	穩健、適合小樣本及異常分佈	檢定效能高（在滿足前提條件下）	專為依賴樣本設計

結論與總結

Mann-Whitney U 檢定作為一種經典的無母數統計方法，憑藉其無需依賴於常態分佈及變異數同質性假設，已成為比較兩組獨立樣本中位數差異的重要工具。其檢定流程通過數據排序、秩次分配，再計算 U 統計量，從而達成對樣本分布的檢驗。儘管此方法在檢定力上有一定局限，並且無法直接提供平均數之差異，但在小樣本、非正態分佈或序數資料的情況下，依然能夠給出穩健且可靠的結論。

在實際應用中，無論是在臨床試驗、環境科學還是社會科學領域，研究者都能根據研究目的及數據特性選擇 Mann-Whitney U 檢定為主要比較方法。通過與其他統計檢定手段相比較，可以清楚看出這種方法在應對特定問題時的獨特優勢與潛在不足。事實上，隨著統計軟體的普及和功能的日益增強，這一檢定法已成為學術研究中不可或缺的一部分，既保障了方法論的嚴謹性，又為數據分析提供了極大的靈活性。

最終，正確理解和應用 Mann-Whitney U 檢定需要研究者對數據的特性及研究問題的需求有充分把握，從而根據研究設計選擇合適的統計工具，確保得出科學、準確的結論。

參考文獻

關於 Mann-Whitney U 檢定的詳細解析 - 知乎
曼-惠特尼U檢驗介紹 - Newton
Mann-Whitney U 檢定步驟與示例 - Statistics Using Python
無母數檢定介紹 - Statorials
無母數統計分析 - R-Stat
Mann-Whitney U 檢定解讀 - 永析統計
Mann-Whitney U Test Calculator - Social Science Statistics