[Statistics, 통계] 회귀분석

분류: Statistics 작성일: 2013.10.14 22:49 Editor: 휘라

통계에서 가장 많이 쓰이고 불리는 회귀분석에 대해 간단하게 알아보도록 하자.

 

회귀(regression)는 무엇인가?

 

사전적 의미로는 한 바퀴 돌아 제자리로 돌아오거나 돌아감으로 정의 되고 있다.

 

회귀의 기원은

 

- 영국의 유전학자 Francis Galton(1822 ~ 1911)의 유전법칙 연구 중 나온 명칭

- 부모 키와 자녀 키 간의 직선관계를 발견

  (아버지의 키가 아무리 크더라도 아들의 키는 아들 세대의 평균키로 접근하는 경향 발견)

- Francis Galton은 이러한 현상을 평균으로의 회귀(regression toward mean)라고 함

 

 

 

 

그럼 회귀의 법칙을 활용한다면?

 

전체 평균값을 가지고 알지 못하는 누군가의 키를 예측해 볼 수 있다.

 

여자의 평균키가 160정도라고 한다면 친구를 통해 소개팅을 받을 시 여자의 키가 아~ 대충 160정도 되겠지 하고 예측을 할 수가 있다.

 

하지만... 그 소개팅녀는 160의 근처가 아니었다???

이처럼 단순히 평균으로만 예측한다면, 예측의 정확도가 너무나 떨어진다..

(몸무게같이 키에 영향을 주는 다른 요인을 활용하면 좀 더 정확하게 키를 예측)

 

 

회귀분석이란?

 

변수들 간의 함수 관계를 분석하는 방법 중의 하나

 

"독립변수가 종속변수에 미치는 영향력의 크기를 파악하여

 독립변수의 특정한 값에 대응하는 종속변수 값을 예측하는 선형모형을 산출하는 방법"

 

예를들어보면

 

 - 몸무게에 따라서, 키의 값은 어떻게 되는가?

 - 담배판매량이 변하면, 폐암환자수는 어떻게 변하는가?

 

위의 예시처럼 두 변수간의 관계를 예측하고 설명하는 것이다.

 

회귀분석은 단순하게 두 변수 사이에 상관관계가 있다에서 끝나는 것이 아닌

어떤 관계인지까지 좀 더 자세히 보는 것이다.(관계의 크기, 유의도, 성격 등)

 

그렇다면 회귀분석의 종류에는 어떤 것들이 있을까?

 

회귀분석의 종류 - 독립변수의 수, 척도의 종료, 독립변수와 종속변수의 관계에 따라 구분

 

 

 

회귀분석의 종류 

 독립변수의 수

 1개

  단순 회귀분석 

 2개 이상

 다중 회귀분석

 독립변수의 척도

 등간, 비율 척도

 일반 회귀분석

 명목, 서열 척도

 더미변수를 이용한 회귀분석

 독립변수와 종속변수의 관계

 선형

 선형 회귀분석

 비선형

 비선형 회귀분석

 

 

자료가 주어지고 회귀분석을 돌려보면 원하는 관계를 알아낼 수 있을까???

- 회귀분석도 회귀분석을 할 수 있는 경우가 있고, 없는 경우가 있다.

 

회귀분석의 전제조건

 

- 특정한 독립변수 값에 해당하는 종속변수 값들이 정규분포를 이룸

- 모든 정규분포의 분산은 동일

- 종속변수 값들은 통계적으로 서로 독립적

- 독립변수들이 여러 개인 경우 독립변수간 다중공선성이 존재하지 않음

(다중공선성이란? 독립변수들간에 서로 영향을 주는 것)

 

당연한 말들이다.간단하게 생각해보면

정규분포를 이루고, 분산이 동일하지 않으면 → 규칙성이 일관되지 않으므로 예측이 불가

종속변수나 독립변수들이 자기들끼리 영향을 미치면 → 독립변수와 종속변수의 관계로만 현상을 분석하는 것이 불가

 

데이터를 돌려봐야 정규분포 또는 등분산성을 알수가 있는데 사전파악이 어렵다.

 

그렇기 때문에 일단은 정규분포를 따르고, 등분산성이 있다는 전제 하에 사후 검증을 실시한다.