23 Sep 2020
우리는 t-test로 두 그룹 A, B의 mean이 유의미한 차이가 있는지 확인할 수 있다. 그런데 만약 그룹이 셋 이상이라면 어떻게 해야 할까? 이런 경우에는 One-way ANOVA를 이용할 수 있다.
Analysis of variance (ANOVA)는 the law of total variance를 이용해서 그룹 간에 통계적 차이가 존재하는지 추정하는 방법이다. 그중에서도 간단한 형태인 onw-way ANOVA는 여러 집단이 존재할 때 이들의 평균 에 유의미한 차이가 있는지 판단하는 방법이다.
예를 들어 Group A, B, C가 있을 때 null hypothesis와 alternative hypothesis는 다음과 같습니다.
이제 가설을 검증하기 위해서 variance를 이용한다. the law of total variance에 따르면 variance의 총합은 다음과 같이 나눌 수 있다.
예를 들어 아래의 상황에서는 각 그룹의 variance는 크고 서로 다른 그룹 사이의 variance는 작은 편이다. 얼핏 보면 측정된 데이터의 분포가 비슷하기 때문에 mean도 거의 같을 것이므로 를 reject 하지 않는다.
A | B | C |
---|---|---|
10 | 11 | 11 |
13 | 13 | 12 |
17 | 18 | 17 |
23 | 24 | 24 |
36 | 37 | 36 |
다음 상황에서는 각 그룹의 variance는 작고 서로 다른 그룹 사이의 variance는 크다. 평균은 눈으로 보아도 차이가 보인다. 따라서 이 경우에는 를 reject 한다.
A | B | C |
---|---|---|
30 | 17 | 11 |
30 | 18 | 12 |
30 | 19 | 12 |
31 | 20 | 12 |
31 | 20 | 12 |
사실 앞선 두 상황은 통계적 검정 없이도 두 그룹의 mean이 유의미한 차이가 있는지 판단을 하기 쉬웠다. 하지만 항상 문제가 쉽지는 않기 때문에 일반적으로 다음의 test statistic을 이용해서 판단해야 한다.
이때 test statistic이 클수록 를 reject 할 가능성이 크다다. 여기에서 test statistic은 F-distribution을 따른다. 라고 표현했을 때 는 degree of freedom for variance between groups이며 는 degree of freedom for variance within groups이다. 각각의 값은 다음과 같이 구할 수 있다.
예를 들어 다음 데이터에서 test statistic을 계산해 보자.
A | B | C |
---|---|---|
31 | 22 | 10 |
29 | 20 | 14 |
30 | 21 | 12 |
30 | 21 | 12 |
30 | 21 | 12 |
Mean within each group:
Overall mean:
Between group variance:
Within group variance:
F-statistic:
따라서 에서 level of significance 기준으로 F-statistic이 충분히 크다면 를 reject 한다.