t-test
By. Younghoon, Jung
23 Sep 2020

두 그룹이 있을 때 이들의 mean에 유의미한 차이가 있는지 확인하려면 t-test를 사용하면 된다.

t-test에는 Student’s t-test, Welch’s t-test 등 sample size, variance가 같은지 다른지 여부에 따라 다양한 버전이 존재한다. 하지만 모두 직관적으로 다음의 형태를 가진다.

T=signalnoiseT = \frac{signal}{noise}

여기에서 signal은 샘플의 차이에 관한 정보를 주며 noise는 차이에 관한 정보를 얻기 힘들도록 방해를 한다. 예를 들어 Welch’s t-test의 경우에는 test statistic이 다음과 같다.

T=difference between group meansvariability of groups=x1ˉx2ˉs12/n1+s22/n2T = \frac{\textrm{difference between group means}}{\textrm{variability of groups}} = \frac{|\bar{x_1} - \bar{x_2}|}{ \sqrt{s^2_1 / n_1 + s^2_2 / n_2}}

조금 설명을 보태면 분모는 우리가 관심있는 mean의 차이를 설명하는 signal이고 분자는 mean의 차이를 설명하기 어렵게 만드는 noise이다. 즉, variance가 증가하면(noise 증가) statistic의 값이 줄어들어 두 mean이 다르다고 판단하기 어려워지고, sample의 수가 증가하면(noise 감소) 판단하기 쉬워진다.

형식적으로 null hypothesis는 다음과 같이 쓸 수 있다.

H0:There is no statistically significant differece between two samplesH_0: \textrm{There is no statistically significant differece between two samples}

즉, 두 샘플의 mean은 같으며 어떤 차이를 발견했다면 우연이라는 뜻이다.

계산을 위해 조금 더 설명하자면 Welch’s t-test의 경우 test statistic은 근사적으로 Student’s t-distribution을 따르고 degree of freedom은 아래와 같이 구할 수 있다.

d.o.f=(s12/n1+s22/n2)2(s12/n1)2/(n11)+(s22/n2)2/(n21)d.o.f = \frac{(s^2_1/n_1 + s^2_2/n_2)^2}{(s^2_1/n_1)^2/(n_1-1) + (s^2_2/n_2)^2/(n_2-1)}

다양한 경우의 t-test와 자세한 내용은 여기를 참고하자.