One-way ANOVA
By. Younghoon, Jung
23 Sep 2020
우리는 t-test로 두 그룹 A, B의 mean이 유의미한 차이가 있는지 확인할 수 있다. 그런데 만약 그룹이 셋 이상이라면 어떻게 해야 할까? 이런 경우에는 One-way ANOVA를 이용할 수 있다.
Analysis of variance (ANOVA)는 the law of total variance를 이용해서 그룹 간에 통계적 차이가 존재하는지 추정하는 방법이다. 그중에서도 간단한 형태인 onw-way ANOVA는 여러 집단이 존재할 때 이들의 평균 μ0,μ1,...μn에 유의미한 차이가 있는지 판단하는 방법이다.
예를 들어 Group A, B, C가 있을 때 null hypothesis와 alternative hypothesis는 다음과 같습니다.
H0:μ1=μ2=μ3 H1:μi=μj for some 1≤i=j≤3 이제 가설을 검증하기 위해서 variance를 이용한다. the law of total variance에 따르면 variance의 총합은 다음과 같이 나눌 수 있다.
The total variation of all the scores=the variance within each group+the variation between the groups 예를 들어 아래의 상황에서는 각 그룹의 variance는 크고 서로 다른 그룹 사이의 variance는 작은 편이다. 얼핏 보면 측정된 데이터의 분포가 비슷하기 때문에 mean도 거의 같을 것이므로 H0를 reject 하지 않는다.
| A | B | C |
| 10 | 11 | 11 |
| 13 | 13 | 12 |
| 17 | 18 | 17 |
| 23 | 24 | 24 |
| 36 | 37 | 36 |
다음 상황에서는 각 그룹의 variance는 작고 서로 다른 그룹 사이의 variance는 크다. 평균은 눈으로 보아도 차이가 보인다. 따라서 이 경우에는 H0를 reject 한다.
| A | B | C |
| 30 | 17 | 11 |
| 30 | 18 | 12 |
| 30 | 19 | 12 |
| 31 | 20 | 12 |
| 31 | 20 | 12 |
사실 앞선 두 상황은 통계적 검정 없이도 두 그룹의 mean이 유의미한 차이가 있는지 판단을 하기 쉬웠다. 하지만 항상 문제가 쉽지는 않기 때문에 일반적으로 다음의 test statistic을 이용해서 판단해야 한다.
F=within group variancebetween group variance 이때 test statistic이 클수록 H0를 reject 할 가능성이 크다다. 여기에서 test statistic은 F-distribution을 따른다. F(d,w)라고 표현했을 때 d는 degree of freedom for variance between groups이며 w는 degree of freedom for variance within groups이다. 각각의 값은 다음과 같이 구할 수 있다.
d=the number of groups - 1 w=the number of observations−the number of groups 예를 들어 다음 데이터에서 test statistic을 계산해 보자.
| A | B | C |
| 31 | 22 | 10 |
| 29 | 20 | 14 |
| 30 | 21 | 12 |
| 30 | 21 | 12 |
| 30 | 21 | 12 |
Mean within each group:
A=30, B=21, C=12 Overall mean:
X=21 Between group variance:
sb=(5(30−21)2+5(21−21)2+5(12−21)2)/(3−1)=405 Within group variance:
sw=x∑(x−X)2/(15−3)=62/3 F-statistic:
F≈19.6 따라서 F(2,5)에서 level of significance α 기준으로 F-statistic이 충분히 크다면 H0를 reject 한다.