본문 바로가기
반응형

전체 글645

다중공선성 확인하는 방법 (분산팽창요인 VIF) 다중공선성이란? 독립변수들로 종속변수를 예측하고 싶은 상황입니다. 회귀분석을 이용할 겁니다. 독립변수는 X1,X2,X3가 있다고 합시다. 이때 독립변수 X1이 X2와 X3로 설명이 가능한 경우를 다중공선성이라고 합니다. 설명이 가능하다는 것을 연관성이 크다로 이해해도 됩니다. 다중공선성의 문제 다중공선성이 있을 경우 모형이 좋은데도 불구하고 유의한 독립변수가 없게 나올 수 있습니다. 모형이 좋다는 것은 결정계수값이 높다는 것입니다. 이런 이유로 다중공선성 문제는 해결해주어야 합니다. 다중공선성 진단 방법 1) 위에서 언급했듯 결정계수가 높은데도 유의한 독립변수가 없는지 확인함 2) 변수들 간의 산점도를 그려보고 상관계수를 계산함 3) 분산팽창요인 (Variance Inflation Factor, VIF).. 2023. 10. 30.
표준화 회귀계수가 뭔가요? 독립변수 X1,X2,X3 를 사용하고 종속변수 Y를 사용하여 다중회귀분석을 했다고 합시다. 다중 회귀분석 결과는 아래와 같습니다. $Y=\beta_{0}+\beta_{1}X_{1}+\beta_{2}X_{2}+\beta_{3}X_{3}$ 위 식에서 베타들을 회귀계수라고 부릅니다. 값을 한번 넣어봅시다. $Y=2+10X_{1}+2X_{2}+5X_{3}$ 여기서 계수가 가장 큰 X_{1}의 영향이 가장 크다고 잘못 해석할 소지가 생깁니다. $X_{1}$이 1만큼 증가했을 때 Y의 변화가 가장 크기 때문입니다. 그런데 만약 $X_{1}$이 몸무게이고 단위가 톤이라고 해봅시다. 몸무게가 1톤씩 차이날 일은 없으므로 1만큼 증가할 수가 없습니다. $X_{1}$은 아주 작은 값 만큼씩 변할 것입니다. 만약 몸무게의 .. 2023. 10. 25.
다중회귀분석에서 왜 수정된 결정계수를 사용하는가? 결정계수는 회귀모델의 독립변수들이 종속변수를 얼마나 잘 설명하고 있는지를 말해준다. 결정계수가 높을 수록 독립변수들이 종속변수를 잘 설명하는 것이다. 그런데 우리는 결정계수가 아니라 수정된 결정계수를 사용한다. 그 이유가 무엇일까? 회귀분석에서는 독립변수가 늘어날 수록 결정계수 가 증가한다. 거지같은(?) 독립변수가 추가되더라도, 결정계수 는 항상 올라간다. 별로 유의하지 않고, 목적에 적합하지 않은 변수라고 해도 결정계수 가 증가하는 것이다. 따라서 결정계수로는 좋은 모델을 선별할 수 없다. 이런 이유로 수정된 결정계수가 등장했다. 수정된 결정계수는 독립변수 개수에 대해 패널티를 부여한다. 독립변수가 많아지면 의도적으로 회귀계수를 감소시키는 것이다. 이렇게 되면, 정말 의미 있는 독립변수라야 수정된 회.. 2023. 10. 24.
경북 사람이라면 클릭! | UNITY 게임개발 강의 | 전액 무료 | 수료자에게 엄청난 혜택 1. 프로그램 설명 경북테크노파크에서 진행하는 게임 제작 강의가 있어서 소개 드리려고 합니다. 프로그램은 크게 둘로 나뉩니다. 프로그래밍 단기과정과 2D그래픽 단기과정입니다. 프로그래밍 단기과정은 이미 완료했고, 2D 그래픽 단기과정이 남아 있습니다. 2D 그래픽 제작, 하이브리드 UI, 애니메이션 및 최적화를 배우실 수 있습니다. 기초강의라서 게임개발에 관심이 있으신 분들은 누구나 들으실 수 있습니다. 단, 경북에 거주하시는 분이어야 합니다. 전체 강의는 7일 동안 진행됩니다. 아래 날짜에 참석하시게 됩니다. 10/7(토) 10/8(일) 10/14(토) 10/15(일) 10/21(토) 10/22(일) 10/28(토) 강의는 오전 10시부터 오후 5시까지 진행되고 점심이 제공됩니다. 위 프로그램의 특장점.. 2023. 9. 24.
표본 크기가 커지면 정규성을 따르지 않는 문제 표본의 크기가 커지면 작은 차이에도 민감하게 반응하게 됩니다. 두 집단의 평균을 비교하는 t검정에서는 표본크기를 키우면 모집단의 아주 작은 평균차이에도 불구하고 유의차가 발생합니다. 위와 같은 현상은 정규성검정에서도 발생합니다. 완벽하게 정규분포를 따르는 모집단은 존재하지 않기 때문에 표본의 크기가 커지면 모집단이 정규분포를 따른다는 가정은 대부분 기각됩니다. 그렇다면 표본이 큰 경우에는 정규분포를 항상 따르지 않으니 정규성가정을 할 수 없는것일까요? 판단은 연구자의 몫입니다. 일반적인 경우 히스토그램을 그려보고, 히스토그램의 모양이 어느정도 정규분포를 따르면 정규성이 있다고 가정하고 진행하기도 합니다. 2023. 9. 19.
[확률과통계 기초] 3-7. 연속확률변수에서 확률이 정의되지 않는 이유 이산확률변수에서는 변수가 가질 수 있는 값의 개수가 무한한데도 변수가 어떤 값을 가질 확률이 정의되는 경우가 있었습니다. 아래와 같이 확률변수가 커지면 확률이 0으로 수렴하는 경우가 대표적인 예시입니다. $P\left [ X=x \right ]=\left ( \frac{1}{2} \right )^x$ 연속확률변수도 확률변수가 가질 수 있는 값의 개수가 무한합니다. 이산확률변수와 달리 연속확률변수에서는 확률변수가 어떤 값을 가질 확률이 확률이 항상 정의되지 않습니다. 왜 그런지 같이 생각해봅시다. 연속확률변수가 확률을 갖는다고 가정하고 아래와 같은 그래프를 그려봅시다. 양 끝 값은 0이라고 합시다. 구간 안에 있는 값들이 발생할 확률이 0이 아닌 어떤 구간을 하나 정의합시다. 이 구간의 발생 확률의 최솟값.. 2023. 8. 4.
머신러닝과 데이터마이닝의 차이 머신러닝과 데이터마이닝은 유사한 분야입니다. 머신러닝에 사용되는 기법들이 데이터마이닝에도 들어가 있습니다. 둘을 완벽히 구분할 수는 없지만 둘의 차이에 대해 설명한 책이 있어서 해당 부분을 가져왔습니다. 책 제목은 Machine Learning with R(Brett Lantz)입니다. 이 책 3페이지에 아래와 같은 내용이 나옵니다. Although there is some disagreement over how widely machine learning and data mining overlap, one point of distinction is that machine learning focuses on teaching computers how to use data to solve a problem, .. 2023. 8. 1.
[확률과통계 기초] 3-6. 개수가 무한한 이산확률변수 이산확률변수는 아래 두가지 특징을 갖는 확률 변수 입니다. 1) 변수가 어떤 값을 가질 확률을 정의할 수 있음 2) 변수가 될 수 있는 값들을 셀 수 있음 이와 같은 특징을 보고 나면 이산확률변수가 될 수 있는 값들의 개수가 반드시 유한할 것이라고 생각할 수 있습니다. 주사위를 던질 때 나오는 눈의 값을 확률변수로 하는 경우나, 동전을 두번 던져서 앞면이 나오는 횟수를 확률변수로 하는 경우와 같이 많은 경우 확률변수가 될 수 있는 값의 개수가 유한한 것은 맞습니다. 하지만 개수가 무한한 경우도 있습니다. 오늘은 이산확률변수가 될 수 있는 값들의 개수가 무한한 예시를 하나 살펴봅시다. 이산확률변수가 모든 자연수 값을 가질 수 있다고 합시다. 이때 각 값이 발생할 확률을 아래와 같이 정의하겠습니다. $P\l.. 2023. 7. 24.
[확률과통계 기초] 3-5. 두 종류의 확률변수 (이산, 연속) 우리는 두 종류의 확률변수가 있다는 사실을 알게되었습니다. 확률변수가 어떤 값을 가질 확률이 존재하는 확률변수가 있었고 그렇지 않은 확률변수가 있었습니다. 확률변수가 어떤 값을 가질 확률이 정의되는 확률변수의 예시로는 '동전을 두 번 던질 때 나오는 앞면의 개수'가 있습니다. 이 확률변수를 X라고 놓고, X가 가질 수 있는 값을 집합으로 나타내면 아래와 같습니다. $X=\left \{0,1,2 \right \}$ 이러한 확률변수를 '이산확률변수'라고 부릅니다. 확률변수가 어떤 값을 가질 확률이 정의되는 확률변수들을 모아보니 이런 특징이 있었습니다. "확률변수가 될 수 있는 값들을 셀 수 있음." 이 특징을 이산확률변수의 정의로 사용합니다. 이산확률변수 : 확률변수가 될 수 있는 값들을 셀 수 있는 확률변.. 2023. 7. 17.
[확률과통계 기초] 3-4. 확률이 정의되지 않는 확률변수 어떤 확률변수 X가 있구요. 이 확률변수는 1부터 3까지의 실수 구간에 있는 값을 가질 수 있다고 하겠습니다. $1\leq X \leq 3$ 위 구간의 값이 발생할 확률이 같다고 가정하고 아래 확률을 한번 구해봅시다. $P\left [ X=1 \right ]$ 위 확률을 p라고 놓으면 전체 확률은 $p \times \infty$ 가 됩니다. 전체 확률이 무한대이므로 모순입니다. 따라서 확률을 정의할 수 없습니다. 이번에는 아래 확률을 한번 구해봅시다. $P\left [ 1\leq X \leq 2 \right ]$ 확률은 0.5입니다. 전체 구간 중 절반이기 때문입니다. 주사위를 던질 때 각 눈이 발생할 확률은 정의가 가능했는데, 오늘 살펴본 확률변수는 각 값이 발생할 확률을 정의할 수 없었습니다. 구간의.. 2023. 7. 9.
[확률과통계 기초] 3-3. 확률함수와 확률분포 우리가 계속 사용하고 있는 동전 두개 던지는 예시를 가져옵시다. 동전을 두개 던져서 앞면이 나오는 횟수를 확률변수로 놓을 수 있었습니다. 확률변수를 X로 놓으면 X가 가질 수 있는 값은 아래와 같습니다. X={0,1,2} 확률변수 X가 각 값을 가질 확률은 아래와 같습니다. $P[X=0]=\frac{1}{4}$ $P[X=1]=\frac{1}{2}$ $P[X=2]=\frac{1}{4}$ 확률변수 X가 가질 수 있는 값들과, 각 값을 가질 확률 사이에 대응관계가 존재합니다. 이 대응관계를 표로 나타내면 아래와 같습니다. X 0 1 2 합계 $P[X=x]$ $\frac{1}{4}$ $\frac{1}{2}$ $\frac{1}{4}$ 1 이와 같은 대응관계를 '확률분포'라고 부릅니다. 이 대응관계를 p(x)라는 .. 2023. 7. 2.
최빈값은 언제 쓸까? (mode) 평균, 중앙값, 최빈값은 자료를 하나의 값으로 요약해주는 대푯값입니다. 우리는 이러한 대푯값들을 자료의 종류와 상황에 알맞게 선택하여 사용해야 합니다. 자료는 수치형 자료와 범주형자료로 나눌 수 있습니다. 수치형자료는 숫자로 되어있는 자료입니다. 수치형자료의 대푯값으로는 평균과 중앙값이 사용됩니다. 범주형 자료의 대표적인 예시로는 성별이 있습니다. 아래와 같은 범주형 자료가 있다고 합시다. 남 남 남 여 여 여 여 여 여 여 이 자료에 평균이나 중앙값을 적용하는 것은 불가능합니다. 범주형 자료에서는 최빈값을 대푯값으로 사용할 수 있습니다. 위 데이터의 최빈값은 '여자'입니다. 다른 예시를 하나 더 살펴봅시다. 어떤 반 아이들에게 선호하는 직업을 조사했다고 합시다. 가장 많은 아이들이 선택한 직업이 아이들.. 2023. 6. 28.
[확률과통계 기초] 3-2. 확률변수와 확률 (P[X=x] 의 의미) 우리는 지난시간에 확률변수가 무엇인지 배웠습니다. 지난시간에 배운 확률변수 예시를 간단히 복습해봅시다. 동전을 두개 던질 때 앞면이 나오는 횟수를 확률변수로 놓을 수 있었습니다. 확률변수를 X라고 놓으면 아래와 같이 나타낼 수 있습니다. $X=\left \{ 0,1,2 \right \}$ 동전을 두개 던지면 앞면은 0,1,2개 나올 수 있기 때문입니다. 이때 각각이 발생할 확률은 $\frac{1}{4}$, $\frac{1}{2}$, $\frac{1}{4}$입니다. X가 0일 확률은 $\frac{1}{4}$를 기호를 사용하여 나타내면 아래와 같습니다. $P[X=0]=\frac{1}{4}$ 위 식에서 P는 함수가 아니라는 것에 주의하세요. "X가 0일 확률"이라는 의미의 기호일 뿐입니다. 나머지도 나타내면 .. 2023. 6. 12.
[확률과통계 기초] 3-1. 확률변수 세번째 단원인 통계 단원의 첫 시간입니다. 확률변수에 대해서 배울건데요. 확률변수는 통계에서 아주 중요한 내용입니다. 통계학은 확률변수들을 분석하는 과목이라고 할 수 있을 정도입니다. 우리는 수학에서 이미 변수라는 것을 접했는데요. 수학에서의 변수를 먼저 복습해보고 확률변수에 대해 배워봅시다.  수학에서의 변수수학에서는 정해지지 않은 어떤 값을 표현하기 위해 변수를 사용합니다. 아래와 같은 이차 함수가 있다고 합시다.  $f(x)=2x^{2}$ 이 함수에서 변수는 x입니다. 실수에서 정의된 함수라면, x에는 모든 실수가 올 수 있습니다. 혹은 변수를 유한하게 제한할 수도 있습니다. 변수 x를 아래 집합의 원소로 제한해봅시다.  x={1,2,3,4,5} 이제 x는 1,2,3,4,5 중 하나의 값을 갖는 변.. 2023. 5. 29.
[확률과통계 기초] 2-10. 2단원 확률 내용 총정리 두번째 파트인 확률파트에서 배운 내용은 아래와 같습니다. 2-1) 사건이 발생할 확률 2-2) 확률의 덧셈정리 2-3) 조건부 확률 설명 및 공식유도 2-4) 확률의 곱셈정리 2-5) 확률의 곱셈정리 직관적으로 이해하기 2-6) 사건의 독립 설명 2-7) 사건의 독립 예시 2-8) 배반사건은 독립인가 종속인가 2-9) 독립시행 간단히 복습해봅시다. 사건이 발생할 확률 어떤 시행의 표본공간을 S라고 합시다. 표본공간의 부분집합이 사건입니다. 어떤 사건 A가 발생할 확률은 아래와 같습니다. $P(A)=\frac{n(A)}{n(S)}$ 확률의 덧셈정리 확률의 덧셈정리는 사건 A 또는 B가 일어날 확률에 대한 정리입니다. 사건 A 또는 B가 일어날 확률은 아래와 같습니다. $P(A\cup B)=\frac{n(A.. 2023. 5. 25.
반응형