본문 바로가기
반응형

회귀분석14

회귀분석 한번에 감잡기 (F값, t값) 아래는 예시 종속변수 : 성적(Y) 독립변수 : IQ, EQ, SQ 아래와 같은 모델을 가정함 $Y=a \times IQ+b \times EQ+c \times SQ+d$ F검정과 t검정 두가지를 수행함. 1) F검정은 아래 두 모델을 비교함 $Y=d$ $Y=a \times IQ+b \times EQ+c \times SQ+d$ overall 한 비교라고 할 수 있음. 둘의 차이가 있으면 우리가 가정한 모델이 의미가 있는 것임. 2) t검정은 a,b,c,d 가 0인지 아닌지 비교함. 만약 F검정에서 모델이 의미가 있었어도, t검정에서 b=0이 나오면 EQ는 무의미한 값임. + $R^{2}$은 (회귀선에 의해 설명되는 변동)/(전체변동) 을 의미함. 회귀 모델이 Y를 몇%정도 설명하는가를 알려줌. 2022. 4. 14.
회귀분석 예시모음 (단순선형) 회귀분석은 우리가 관심이 있는 종속변수들에 영향을 주는 독립변수들을 찾고, 독립변수들과 종속변수들의 관계를 나타내는 모델을 만드는 것입니다. 회귀분석에는 다양한 종류가 있습니다. 오늘 살펴볼 예시는 단순선형회귀분석의 예시입니다. 단순선형회귀분석은 종속변수와 독립변수가 1개씩이고 차수가 1차인 회귀분석입니다. 독립변수는 키, 종속변수는 몸무게 독립변수는 매출, 종속변수 주가 독립변수는 소득, 종속변수는 행복점수 독립변수는 광고비, 종속변수는 매출 2021. 9. 8.
변수 관점으로 통계분석방법들 분류하기 결과부터 보기 독립변수 종속변수 t검정 범주형 수치형 분산분석 (일원분산분석) 범주형 수치형 카이제곱검정 범주형 범주형 상관분석 (피어슨) 수치형 수치형 회귀분석 (단순선형) 수치형 수치형 로지스틱 회귀분석 수치형 (or 범주형) 범주형 아래 통계분석방법들을 변수 관점에서 분류해보려고 합니다. t검정 분산분석(일원분산분석) 카이제곱검정 상관분석(피어슨상관분석) 회귀분석(단순선형회귀분석) 변수는 독립변수와 종속변수로 나뉩니다. 각 변수는 자료의 형태에 따라 수치형자료 또는 범주형자료입니다. 어떤 통계 분석 방법의 독립변수와 종속변수가 수치형 자료인지 범주형자료인지를 알아보는 것이 이번 글의 목적입니다. 수치형 자료와 범주형자료가 무엇인지 모르는 분들을 위해 간단히 설명드리겠습니다. 수치형자료는 양적자료라고.. 2021. 9. 6.
[회귀분석] 11. 우리가 구한 회귀모델의 성질 (6가지) 우리가 지난시간까지 구한 회귀모델은 아래와 같습니다. 오늘은 우리가 구한 회귀모델의 성질을 알아봅시다. 먼저 용어를 다시 정리해봅시다. 우리가 가진 데이터를 $(x,y)$ 라고 놓았었습니다. (x,y)들을 관측값이라고도 부릅니다. 추정된 $y$ 값은 모자를 씌워서 $\hat{y}$ 로 놓았습니다. 예를 들면, i번째 관측값은 $y_{i}$이고, i번째 추정값은 $\hat{y}_{i}$ 입니다. 이때, 실제로 뽑힌 값인 관측값 $y$와 모델을 이용하여 추정한 값인 추정값 $\hat{i}$의 차이를 오차(error) 또는 잔차(residual) 이라고 부릅니다. $e_{i}=y_{i}-\hat{y}_{i}$ 성질1) 잔차의 합은 0이다. 최대우도법과 오차항가정 직접법에서 오차항의 평균을 0으로 가정했으므로,.. 2021. 4. 17.
[회귀분석] 10. 세 방법의 회귀계수 추정 결과가 같다는 것 지난시간까지 세가지 방법을 이용하여 회귀계수를 추정해보았습니다. 세가지 방법을 비교하면 아래와 같습니다. 최소제곱법 최대우도법 오차항 가정 직접법 개념 오차항의 제곱의 합이 최소가 되도록 회귀계수를 정함 표본의 발생확률이 최대가 되도록 회귀계수를 정함 두가지 가정 하에서 평균과 공분산을 구하는 과정에서 회귀계수가 구해짐. 가정 가정 없음 - 오차항의 평균이 0인 정규분포를 따른다. - 오차항들은 서로 독립이다. - 오차항의 평균은 0이다. - 오차항과 예측변수 x는 독립이다. 결과 세 방법의 결과가 같다는 것이 어떤 의미인지 생각해봅시다. 오차항의 제곱이 최소가 되도록 만든 회귀계수와, 오차항이 평균이 0인 정규분포를 따른다고 가정하고 우도를 최대로 만든 회귀계수와, 오차항의 평균이 0이라고 가정하고 구.. 2021. 4. 10.
[회귀분석] 9. 오차항 가정 직접법을 이용한 회귀계수 추정 회귀계수를 추정하는 방법은 아래 그림과 같이 세가지가 있습니다. 최소제곱법과 최대우도법은 지난 글들에서 이미 공부한 상태입니다. 오늘은 세번째 방법인 '오차항 가정 직접법' 에 대해 알아봅시다. 오차항 가정 직접법 아래와 같은 데이터가 있다고 합시다. $(x_{1},y_{1})$ $(x_{1},y_{1})$ $...$ $(x_{n},y_{n})$ 선형모델을 아래와 같이 가정합시다. $y=\beta_{0}+\beta_{1}x+\varepsilon$ 두가지 가정을 하겠습니다. - 오차항의 평균은 0이다. - 오차항과 예측변수 x는 서로 독립이다. 선형모델의 양변의 기댓값을 구하면 아래와 같습니다. $E(y)=E(\beta_{0}+\beta_{1}x+\varepsilon)$ 우변을 아래와 같이 분리해서 써줍시.. 2021. 4. 3.
[회귀분석] 8. 최대우도법을 이용한 회귀계수 추정 일반화 회귀계수를 추정하는 방법은 아래 그림과 같이 세가지가 있습니다. 지난시간에는 최대우도법의 예시를 풀어보며 최대우도법에 대한 감을 잡아보았습니다. 이번 글에서는 최대우도법을 이용하여 회귀계수를 구하는 방법을 일반화해봅시다. (최대우도법 예시) → (일반화) 최소제곱법 일반화 아래와 같은 데이터가 있다고 합시다. $(x_{1},y_{1})$ $(x_{1},y_{1})$ $...$ $(x_{n},y_{n})$ 선형모델을 아래와 같이 가정합시다. $y=\beta_{0}+\beta_{1}x+\varepsilon$ 오차항의 평균을 0, 분산을 $\sigma^2$인 정규분포를 따른다고 가정하겠습니다. 오차항에 대해 정리하면 아래와 같습니다. $\varepsilon=y-\beta_{0}-\beta_{1}x$ 정규분포 .. 2021. 3. 26.
[회귀분석] 6. 최소제곱법을 이용한 회귀계수 추정 일반화 회귀계수를 추정하는 방법은 아래 그림과 같이 세가지가 있습니다. 지난 강의에서 최소제곱법의 예시를 공부했습니다. 오늘은 최소제곱법을 이용한 회귀계수 계산 방법을 일반화해보겠습니다. (최소제곱법 예시) → (일반화) 최소제곱법 일반화 아래와 같은 데이터가 있다고 합시다. $(x_{1},y_{1})$ $(x_{1},y_{1})$ $...$ $(x_{n},y_{n})$ 선형모델을 아래와 같이 가정합시다. $y=\beta_{0}+\beta_{1}x+\varepsilon$ 오차에 대해 위 식을 정리하면 아래와 같습니다. $\varepsilon=y- \beta_{0}-\beta_{1}x$ 위 데이터를 대입하면 오차들은 각각 아래와 같습니다. $\varepsilon_{1}=y_{1}-\beta_{0}-\beta_{1.. 2021. 3. 25.
[회귀분석] 5. 최소제곱법을 이용한 회귀계수 추정 예시 회귀계수를 추정하는 방법은 아래 세가지가 있습니다. 최소제곱법을 먼저 배워볼 거구요. 간단한 예시를 통해 감을 먼저 잡고 나서 일반화시키도록 하겠습니다. (최소제곱법 예시) → (일반화) 최소제곱법 예시 A회사의 3년간 광고비(X)와 매출액 자료는 아래와 같습니다. 단위는 억원이라고 합시다. (1,5) (2,7) (3,9) 선형모델을 아래와 같이 가정합시다. $y=\beta_{0}+\beta_{1}x+\varepsilon$ 오차에 대해 위 식을 정리하면 아래와 같습니다. $\varepsilon=y-\beta_{0}-\beta_{1}x$ 위 데이터를 대입하면 오차들은 각각 아래와 같습니다. $\varepsilon_{1}=5-\beta_{0}-\beta_{1}$ $\varepsilon_{2}=7-\beta_.. 2021. 3. 25.
[회귀분석] 4. 회귀 계수의 추정의 세가지 방법 단순 선형회귀분석은 두 변수 X,Y의 관계를 잘 나타낼 수 있는 선형 모델을 찾는 것입니다. 이 모델을 찾는다는 것은 아래 수식에서 $\beta_{0}$와 $\beta_{1}$라는 계수를 추정하는 것입니다. $y=\beta_{0}+\beta_{1}x+\varepsilon $ 회귀계수를 추정하는 방법은 세가지가 있습니다. 최소제곱법, 최대우도법, 오차항 가정 직접법 입니다. 오차항 가정 직접법은 제가 붙인 이름입니다. 여기서는 세 방법을 간단히 소개하고, 다음 시간부터 직접 수식을 유도해보며 공부해봅시다. 최소제곱법 최소제곱법은 실제 y값과 모델에서 얻은 추정값 $b_{0}+b_{1}x$ 사이의 차이인 오차항 $\varepsilon$ 을 이용합니다. $\varepsilon = y-(\beta_{0}+\be.. 2021. 3. 25.
[회귀분석] 3. 단순 선형 회귀분석 소개 회귀분석의 목적은 우리가 관심이 있는 결과변수들에 영향을 주는 예측변수들을 찾고, 예측변수들과 결과변수들의 관계를 나타내는 모델을 만드는 것입니다. 보통 결과변수는 하나로 놓습니다. 예측변수들을 ${X_{1},X_{2},...,X_{n}}$이라고 놓고 결과변수를 Y라고 놓았을 때, 둘의 관계를 잘 표현해주는 함수(혹은 모델)을 찾는 것입니다. 단순 선형 회귀분석은 예측변수와 결과변수가 1개이고, 차수는 1차인 모델을 이용하는 회귀분석입니다. 따라서 아래와 같이 일차식으로 표현됩니다. $y=f(x)+\varepsilon=\beta_{0}+\beta_{1}x+\varepsilon $ 위 수식을 선형회귀모델 이라고 부릅니다. $y$는 관측값이고, $f(x)$는 예측값입니다. 이때 오차는 (관측값-예측값)입니다.. 2021. 3. 22.
[회귀분석] 2. 회귀분석의 종류 회귀분석은 여러 기준에 따라 여러 종류로 분류됩니다. (아래 도표 참고) 1) 예측변수의 종류 회귀분석 : 수치형 자료를 다룸 로지스틱 회귀분석 : 범주형 자료를 다룸 2) 예측변수의 개수 단순 회귀분석 : 독립변수 1개 다중 회귀분석 : 독립변수 2개 이상 3) 종속변수의 개수 단변량 회귀분석 : 반응변수 1개 다변량 회귀분석 : 반응변수 2개 이상 4) 모델의 차수 선형회귀분석 : 1차식 모델 사용 비선형회귀분석 : 2차식 이상의 모델 사용 도표로 정리하면 아래와 같습니다. (클릭해서 보세요) 단순 선형 단변량 회귀분석을 줄여서 '단순 선형 회귀분석'이라고 부릅니다. 다중 선형 단변량 회귀분석을 줄여서 다중 선형 회귀분석 이라고 부릅니다. 회귀분석에서는 단순 선형 회귀분석과 다중 선형 회귀분석이 주로.. 2021. 3. 12.
[회귀분석] 1. 회귀분석이란 무엇인가 회귀분석은 변수들 사이의 관계를 '모델링'하는 기법입니다. 여러 분야에서 가장 광범위하게 사용되는 통계기법중 하나입니다. 회귀분석의 목적은 우리가 관심이 있는 종속변수들에 영향을 주는 독립변수들을 찾고, 독립변수들과 종속변수들의 관계를 나타내는 모델을 만드는 것입니다. 보통 결과변수는 하나로 놓습니다. 독립변수들을 ${X_{1},X_{2},...,X_{n}}$이라고 놓고 종속변수를 Y라고 놓았을 때, 둘의 관계를 잘 표현해주는 함수(혹은 모델)을 찾는 것입니다. 보통 회귀분석이라고 하면 '선형 회귀분석'을 의미합니다. 선형회귀분석의 모델은 아래와 같습니다. $Y=\beta _{0}+\beta _{1}X_{1}+\beta _{2}X_{2}+...+\beta _{n}X_{n}+\varepsilon $ 회귀분.. 2021. 3. 12.
회귀분석에 '회귀'라는 말이 왜 붙어있나? 회귀분석은 통계학에서 매우 중요하면서 기본이 되는 과목입니다. 통계학의 꽃이라고도 불립니다. 회귀분석을 사용하는 방법에 익숙해진 뒤에는 '회귀'라는 용어에 더이상 의문을 갖지 않습니다. 이 용어의 의미를 이해했다기 보다는 각자가 접한 예제들을 이해하고 이를 '회귀분석'이라는 이름과 단순히 연결시켰을 것입니다. 회귀분석이라는 이름에 대한 의문이 사라지기 전에 이름에 담긴 의미를 알아봅시다. 회귀라는 말의 한자 뜻은 돌아올 회, 돌아갈 귀 입니다. 어딘가로 '되돌아간다'는 뜻입니다. 회귀분석은 되돌아가는 분석이라는 말인데, 무슨 의미인지 전혀 감이 오지 않습니다. 회귀분석의 목적은 우리가 관심이 있는 종속변수들에 영향을 주는 독립변수들을 찾고, 독립변수들과 종속변수들의 관계를 나타내는 모델을 만드는 것입니다.. 2018. 12. 17.
반응형