t-test
By. Younghoon, Jung
23 Sep 2020
23 Sep 2020
두 그룹이 있을 때 이들의 mean에 유의미한 차이가 있는지 확인하려면 t-test를 사용하면 된다.
t-test에는 Student’s t-test, Welch’s t-test 등 sample size, variance가 같은지 다른지 여부에 따라 다양한 버전이 존재한다. 하지만 모두 직관적으로 다음의 형태를 가진다.
여기에서 signal은 샘플의 차이에 관한 정보를 주며 noise는 차이에 관한 정보를 얻기 힘들도록 방해를 한다. 예를 들어 Welch’s t-test의 경우에는 test statistic이 다음과 같다.
조금 설명을 보태면 분모는 우리가 관심있는 mean의 차이를 설명하는 signal이고 분자는 mean의 차이를 설명하기 어렵게 만드는 noise이다. 즉, variance가 증가하면(noise 증가) statistic의 값이 줄어들어 두 mean이 다르다고 판단하기 어려워지고, sample의 수가 증가하면(noise 감소) 판단하기 쉬워진다.
형식적으로 null hypothesis는 다음과 같이 쓸 수 있다.
즉, 두 샘플의 mean은 같으며 어떤 차이를 발견했다면 우연이라는 뜻이다.
계산을 위해 조금 더 설명하자면 Welch’s t-test의 경우 test statistic은 근사적으로 Student’s t-distribution을 따르고 degree of freedom은 아래와 같이 구할 수 있다.
다양한 경우의 t-test와 자세한 내용은 여기를 참고하자.