One-way ANOVA
By. Younghoon, Jung
23 Sep 2020

우리는 t-test로 두 그룹 A, B의 mean이 유의미한 차이가 있는지 확인할 수 있다. 그런데 만약 그룹이 셋 이상이라면 어떻게 해야 할까? 이런 경우에는 One-way ANOVA를 이용할 수 있다.

Analysis of variance (ANOVA)는 the law of total variance를 이용해서 그룹 간에 통계적 차이가 존재하는지 추정하는 방법이다. 그중에서도 간단한 형태인 onw-way ANOVA는 여러 집단이 존재할 때 이들의 평균 μ0,μ1,...μn\mu_0, \mu_1,...\mu_n에 유의미한 차이가 있는지 판단하는 방법이다.

예를 들어 Group A, B, C가 있을 때 null hypothesis와 alternative hypothesis는 다음과 같습니다.

H0:μ1=μ2=μ3H_0: \mu_1 = \mu_2 = \mu_3 H1:μiμj for some 1ij3H_1: \mu_i \neq \mu_j \textrm{ for some } 1 \leq i \neq j \leq 3

이제 가설을 검증하기 위해서 variance를 이용한다. the law of total variance에 따르면 variance의 총합은 다음과 같이 나눌 수 있다.

The total variation of all the scores=the variance within each group+the variation between the groups\textrm{The total variation of all the scores} = \textrm{the variance within each group}\\ + \textrm{the variation between the groups}

예를 들어 아래의 상황에서는 각 그룹의 variance는 크고 서로 다른 그룹 사이의 variance는 작은 편이다. 얼핏 보면 측정된 데이터의 분포가 비슷하기 때문에 mean도 거의 같을 것이므로 H0H_0를 reject 하지 않는다.

A B C
10 11 11
13 13 12
17 18 17
23 24 24
36 37 36

다음 상황에서는 각 그룹의 variance는 작고 서로 다른 그룹 사이의 variance는 크다. 평균은 눈으로 보아도 차이가 보인다. 따라서 이 경우에는 H0H_0를 reject 한다.

A B C
30 17 11
30 18 12
30 19 12
31 20 12
31 20 12

사실 앞선 두 상황은 통계적 검정 없이도 두 그룹의 mean이 유의미한 차이가 있는지 판단을 하기 쉬웠다. 하지만 항상 문제가 쉽지는 않기 때문에 일반적으로 다음의 test statistic을 이용해서 판단해야 한다.

F=between group variancewithin group varianceF = \frac{\textrm{between group variance}}{\textrm{within group variance}}

이때 test statistic이 클수록 H0H_0를 reject 할 가능성이 크다다. 여기에서 test statistic은 F-distribution을 따른다. F(d,w)F(d, w)라고 표현했을 때 dd는 degree of freedom for variance between groups이며 ww는 degree of freedom for variance within groups이다. 각각의 값은 다음과 같이 구할 수 있다.

d=the number of groups - 1d = \textrm{the number of groups - 1} w=the number of observationsthe number of groupsw = \textrm{the number of observations} - \textrm{the number of groups}

예를 들어 다음 데이터에서 test statistic을 계산해 보자.

A B C
31 22 10
29 20 14
30 21 12
30 21 12
30 21 12

Mean within each group:

A=30, B=21, C=12\overline{A} = 30, ~ \overline{B} = 21, ~ \overline{C} = 12

Overall mean:

X=21\overline{X} = 21

Between group variance:

sb=(5(3021)2+5(2121)2+5(1221)2)/(31)=405s_b = (5(30 - 21)^2 + 5(21 - 21)^2 + 5(12-21)^2) / (3-1) = 405

Within group variance:

sw=x(xX)2/(153)=62/3s_w = \sum_{x}(x-\overline{X})^2 / (15 - 3) = 62 / 3

F-statistic:

F19.6F \approx 19.6

따라서 F(2,5)F(2,5)에서 level of significance α\alpha 기준으로 F-statistic이 충분히 크다면 H0H_0를 reject 한다.