SAS에서 TTEST가 가능하며, 일표본(one sample), 이표본(two samples), 대응표본(paired observations)에 대한

t-검정(paired T-test)을 실시 할 수가 있다.

 

SAS를 이용하여 이표본(two samples) t-검정(ttest)에 대해서 알아보자.

 

이표본 t-검정은 두 그룹의 모평균의 차가 특정한 상수와 같은지를 검정하기 위하여 각 그룹으로부터 표본을 추출하여 이들 표본평균의 차를 이용하는 검정법으로 보통 독립 t-검정이라 부르기도 한다.

 

따라서 두 모집단은 독립적인 관계에 있어야 한다.

 

 

7천 1백만건의 테스트 데이터를 이용하여 독립 t-검정을 해보자.(이표본 two sample 검정)

 

 

test라는 데이터셋으로 성별과 비용 두가지의 변수를 가지고 있으며 총관측치는 7천1백만건 정도의 데이터 셋이다. 

 

 

 

ci= 신뢰구간 계산에 대한 선택사항인데 none으로 설정하여 어떠한 신뢰구간도 구하지 않았다.

 

ci=equal 은 동일한 꼬리를 갖는 신뢰구간을 구함

ci=umpu는 umpu(uniformly most powerful unbiased test)검정에 근거한 신뢰구간을 구함

ci=none 은 어떠한 신뢰구간도 구하지 않음

 

 

위 사진은 성별에 따라 평균비용에 차이가 있는지를 알아보기 위한 이표본 독립 t-검정 결과이다.

sex 1에 해당하는 남자의 관측수는 약 3천만명이며 sex 2인 여자의 관측수는 약 4천만명 정도이다.

 

남자 1의 표본평균은 38019, 표준오차는 19.005 이다.

여자 2의 표본평균은 33191, 표준오차는 10.646 이다.

 

t-검정 결과는 분산이 동일한 경우(equal)와 다른 경우(unequal)로 나누어 출력결과를 보여준다.

분산이 동일한 경우 t-값은 234.85, 유의확률은 0.0001

분산이 동일하지 않은 경우 t-값은 221.60 유의확률은 0.0001

 

사진의 맨 아래 부분에 분산의 동일성 검정 결과를 통해 분산이 동일한지를 확인 할 수 있다.

 

H0(귀무가설) : 남녀간의 비용의 분산이 동일하다.

H1(대립가설) : not H0

F-값이 2.40, 유의확률이 0.0001로 유의수준(0.01, 0.05, 0.1) 어떤 기준으로 비교해도 작기 때문에 귀무가설을 기각함

즉, 남녀간의 비용의 분산이 동일하지 않다고 해석되고, 따라서 등분산이 아닌 unequal 쪽의 결과로 해석해야 한다.

 

H0(귀무가설) : 성별에 따라 평균 비용의 차이가 없다.

H1(대립가설) : not H0

 

t-test unequal쪽의 유의확률값이 0.0001이므로

유의수준(0.01, 0.05, 0.1)보다 작기 때문에 귀무가설을 기각한다. 

즉, 성별에 따라 평균 비용의 차이가 있다고 볼 수 있다.

 

 

www.sasbigdata.com 김진휘