본문 바로가기
반응형

전체 글628

다중회귀분석에서 왜 수정된 결정계수를 사용하는가? 결정계수는 회귀모델의 독립변수들이 종속변수를 얼마나 잘 설명하고 있는지를 말해준다. 결정계수가 높을 수록 독립변수들이 종속변수를 잘 설명하는 것이다. 그런데 우리는 결정계수가 아니라 수정된 결정계수를 사용한다. 그 이유가 무엇일까? 회귀분석에서는 독립변수가 늘어날 수록 결정계수 가 증가한다. 거지같은(?) 독립변수가 추가되더라도, 결정계수 는 항상 올라간다. 별로 유의하지 않고, 목적에 적합하지 않은 변수라고 해도 결정계수 가 증가하는 것이다. 따라서 결정계수로는 좋은 모델을 선별할 수 없다. 이런 이유로 수정된 결정계수가 등장했다. 수정된 결정계수는 독립변수 개수에 대해 패널티를 부여한다. 독립변수가 많아지면 의도적으로 회귀계수를 감소시키는 것이다. 이렇게 되면, 정말 의미 있는 독립변수라야 수정된 회.. 2023. 10. 24.
경북 사람이라면 클릭! | UNITY 게임개발 강의 | 전액 무료 | 수료자에게 엄청난 혜택 1. 프로그램 설명 경북테크노파크에서 진행하는 게임 제작 강의가 있어서 소개 드리려고 합니다. 프로그램은 크게 둘로 나뉩니다. 프로그래밍 단기과정과 2D그래픽 단기과정입니다. 프로그래밍 단기과정은 이미 완료했고, 2D 그래픽 단기과정이 남아 있습니다. 2D 그래픽 제작, 하이브리드 UI, 애니메이션 및 최적화를 배우실 수 있습니다. 기초강의라서 게임개발에 관심이 있으신 분들은 누구나 들으실 수 있습니다. 단, 경북에 거주하시는 분이어야 합니다. 전체 강의는 7일 동안 진행됩니다. 아래 날짜에 참석하시게 됩니다. 10/7(토) 10/8(일) 10/14(토) 10/15(일) 10/21(토) 10/22(일) 10/28(토) 강의는 오전 10시부터 오후 5시까지 진행되고 점심이 제공됩니다. 위 프로그램의 특장점.. 2023. 9. 24.
표본 크기가 커지면 정규성을 따르지 않는 문제 표본의 크기가 커지면 작은 차이에도 민감하게 반응하게 됩니다. 두 집단의 평균을 비교하는 t검정에서는 표본크기를 키우면 모집단의 아주 작은 평균차이에도 불구하고 유의차가 발생합니다. 위와 같은 현상은 정규성검정에서도 발생합니다. 완벽하게 정규분포를 따르는 모집단은 존재하지 않기 때문에 표본의 크기가 커지면 모집단이 정규분포를 따른다는 가정은 대부분 기각됩니다. 그렇다면 표본이 큰 경우에는 정규분포를 항상 따르지 않으니 정규성가정을 할 수 없는것일까요? 판단은 연구자의 몫입니다. 일반적인 경우 히스토그램을 그려보고, 히스토그램의 모양이 어느정도 정규분포를 따르면 정규성이 있다고 가정하고 진행하기도 합니다. 2023. 9. 19.
[확률과통계 기초] 3-7. 연속확률변수에서 확률이 정의되지 않는 이유 이산확률변수에서는 변수가 가질 수 있는 값의 개수가 무한한데도 변수가 어떤 값을 가질 확률이 정의되는 경우가 있었습니다. 아래와 같이 확률변수가 커지면 확률이 0으로 수렴하는 경우가 대표적인 예시입니다. $P\left [ X=x \right ]=\left ( \frac{1}{2} \right )^x$ 연속확률변수도 확률변수가 가질 수 있는 값의 개수가 무한합니다. 이산확률변수와 달리 연속확률변수에서는 확률변수가 어떤 값을 가질 확률이 확률이 항상 정의되지 않습니다. 왜 그런지 같이 생각해봅시다. 연속확률변수가 확률을 갖는다고 가정하고 아래와 같은 그래프를 그려봅시다. 양 끝 값은 0이라고 합시다. 구간 안에 있는 값들이 발생할 확률이 0이 아닌 어떤 구간을 하나 정의합시다. 이 구간의 발생 확률의 최솟값.. 2023. 8. 4.
머신러닝과 데이터마이닝의 차이 머신러닝과 데이터마이닝은 유사한 분야입니다. 머신러닝에 사용되는 기법들이 데이터마이닝에도 들어가 있습니다. 둘을 완벽히 구분할 수는 없지만 둘의 차이에 대해 설명한 책이 있어서 해당 부분을 가져왔습니다. 책 제목은 Machine Learning with R(Brett Lantz)입니다. 이 책 3페이지에 아래와 같은 내용이 나옵니다. Although there is some disagreement over how widely machine learning and data mining overlap, one point of distinction is that machine learning focuses on teaching computers how to use data to solve a problem, .. 2023. 8. 1.
[확률과통계 기초] 3-6. 개수가 무한한 이산확률변수 이산확률변수는 아래 두가지 특징을 갖는 확률 변수 입니다. 1) 변수가 어떤 값을 가질 확률을 정의할 수 있음 2) 변수가 될 수 있는 값들을 셀 수 있음 이와 같은 특징을 보고 나면 이산확률변수가 될 수 있는 값들의 개수가 반드시 유한할 것이라고 생각할 수 있습니다. 주사위를 던질 때 나오는 눈의 값을 확률변수로 하는 경우나, 동전을 두번 던져서 앞면이 나오는 횟수를 확률변수로 하는 경우와 같이 많은 경우 확률변수가 될 수 있는 값의 개수가 유한한 것은 맞습니다. 하지만 개수가 무한한 경우도 있습니다. 오늘은 이산확률변수가 될 수 있는 값들의 개수가 무한한 예시를 하나 살펴봅시다. 이산확률변수가 모든 자연수 값을 가질 수 있다고 합시다. 이때 각 값이 발생할 확률을 아래와 같이 정의하겠습니다. $P\l.. 2023. 7. 24.
[확률과통계 기초] 3-5. 두 종류의 확률변수 (이산, 연속) 우리는 두 종류의 확률변수가 있다는 사실을 알게되었습니다. 확률변수가 어떤 값을 가질 확률이 존재하는 확률변수가 있었고 그렇지 않은 확률변수가 있었습니다. 확률변수가 어떤 값을 가질 확률이 정의되는 확률변수의 예시로는 '동전을 두 번 던질 때 나오는 앞면의 개수'가 있습니다. 이 확률변수를 X라고 놓고, X가 가질 수 있는 값을 집합으로 나타내면 아래와 같습니다. $X=\left \{0,1,2 \right \}$ 이러한 확률변수를 '이산확률변수'라고 부릅니다. 확률변수가 어떤 값을 가질 확률이 정의되는 확률변수들을 모아보니 이런 특징이 있었습니다. "확률변수가 될 수 있는 값들을 셀 수 있음." 이 특징을 이산확률변수의 정의로 사용합니다. 이산확률변수 : 확률변수가 될 수 있는 값들을 셀 수 있는 확률변.. 2023. 7. 17.
[확률과통계 기초] 3-4. 확률이 정의되지 않는 확률변수 어떤 확률변수 X가 있구요. 이 확률변수는 1부터 3까지의 실수 구간에 있는 값을 가질 수 있다고 하겠습니다. $1\leq X \leq 3$ 위 구간의 값이 발생할 확률이 같다고 가정하고 아래 확률을 한번 구해봅시다. $P\left [ X=1 \right ]$ 위 확률을 p라고 놓으면 전체 확률은 $p \times \infty$ 가 됩니다. 전체 확률이 무한대이므로 모순입니다. 따라서 확률을 정의할 수 없습니다. 이번에는 아래 확률을 한번 구해봅시다. $P\left [ 1\leq X \leq 2 \right ]$ 확률은 0.5입니다. 전체 구간 중 절반이기 때문입니다. 주사위를 던질 때 각 눈이 발생할 확률은 정의가 가능했는데, 오늘 살펴본 확률변수는 각 값이 발생할 확률을 정의할 수 없었습니다. 구간의.. 2023. 7. 9.
[확률과통계 기초] 3-3. 확률함수와 확률분포 우리가 계속 사용하고 있는 동전 두개 던지는 예시를 가져옵시다. 동전을 두개 던져서 앞면이 나오는 횟수를 확률변수로 놓을 수 있었습니다. 확률변수를 X로 놓으면 X가 가질 수 있는 값은 아래와 같습니다. X={0,1,2} 확률변수 X가 각 값을 가질 확률은 아래와 같습니다. $P[X=0]=\frac{1}{4}$ $P[X=1]=\frac{1}{2}$ $P[X=2]=\frac{1}{4}$ 확률변수 X가 가질 수 있는 값들과, 각 값을 가질 확률 사이에 대응관계가 존재합니다. 이 대응관계를 표로 나타내면 아래와 같습니다. X 0 1 2 합계 $P[X=x]$ $\frac{1}{4}$ $\frac{1}{2}$ $\frac{1}{4}$ 1 이와 같은 대응관계를 '확률분포'라고 부릅니다. 이 대응관계를 p(x)라는 .. 2023. 7. 2.
최빈값은 언제 쓸까? (mode) 평균, 중앙값, 최빈값은 자료를 하나의 값으로 요약해주는 대푯값입니다. 우리는 이러한 대푯값들을 자료의 종류와 상황에 알맞게 선택하여 사용해야 합니다. 자료는 수치형 자료와 범주형자료로 나눌 수 있습니다. 수치형자료는 숫자로 되어있는 자료입니다. 수치형자료의 대푯값으로는 평균과 중앙값이 사용됩니다. 범주형 자료의 대표적인 예시로는 성별이 있습니다. 아래와 같은 범주형 자료가 있다고 합시다. 남 남 남 여 여 여 여 여 여 여 이 자료에 평균이나 중앙값을 적용하는 것은 불가능합니다. 범주형 자료에서는 최빈값을 대푯값으로 사용할 수 있습니다. 위 데이터의 최빈값은 '여자'입니다. 다른 예시를 하나 더 살펴봅시다. 어떤 반 아이들에게 선호하는 직업을 조사했다고 합시다. 가장 많은 아이들이 선택한 직업이 아이들.. 2023. 6. 28.
[확률과통계 기초] 3-2. 확률변수와 확률 (P[X=x] 의 의미) 우리는 지난시간에 확률변수가 무엇인지 배웠습니다. 지난시간에 배운 확률변수 예시를 간단히 복습해봅시다. 동전을 두개 던질 때 앞면이 나오는 횟수를 확률변수로 놓을 수 있었습니다. 확률변수를 X라고 놓으면 아래와 같이 나타낼 수 있습니다. $X=\left \{ 0,1,2 \right \}$ 동전을 두개 던지면 앞면은 0,1,2개 나올 수 있기 때문입니다. 이때 각각이 발생할 확률은 $\frac{1}{4}$, $\frac{1}{2}$, $\frac{1}{4}$입니다. X가 0일 확률은 $\frac{1}{4}$를 기호를 사용하여 나타내면 아래와 같습니다. $P[X=0]=\frac{1}{4}$ 위 식에서 P는 함수가 아니라는 것에 주의하세요. "X가 0일 확률"이라는 의미의 기호일 뿐입니다. 나머지도 나타내면 .. 2023. 6. 12.
[확률과통계 기초] 3-1. 확률변수 세번째 단원인 통계 단원의 첫 시간입니다. 확률변수에 대해서 배울건데요. 확률변수는 통계에서 아주 중요한한 내용입니다. 통계학은 확률변수들을 분석하는 과목이라고 할 수 있을 정도입니다. 우리는 수학에서 이미 변수라는 것을 접했는데요. 수학에서의 변수를 먼저 복습해보고 확률변수에 대해 배워봅시다. 수학에서의 변수 수학에서는 정해지지 않은 어떤 값을 표현하기 위해 변수를 사용합니다. 아래와 같은 일차 함수가 있다고 합시다. $f(x)=2x^{2}$ 이 함수에서 변수는 x입니다. 실수에서 정의된 함수라면, x에는 모든 실수가 올 수 있습니다. 혹은 변수를 유한하게 제한할 수도 있습니다. 변수 x를 아래 집합의 원소로 제한해봅시다. x={1,2,3,4,5} 이제 x는 1,2,3,4,5 중 하나의 값을 갖는 변수.. 2023. 5. 29.
[확률과통계 기초] 2-10. 2단원 확률 내용 총정리 두번째 파트인 확률파트에서 배운 내용은 아래와 같습니다. 2-1) 사건이 발생할 확률 2-2) 확률의 덧셈정리 2-3) 조건부 확률 설명 및 공식유도 2-4) 확률의 곱셈정리 2-5) 확률의 곱셈정리 직관적으로 이해하기 2-6) 사건의 독립 설명 2-7) 사건의 독립 예시 2-8) 배반사건은 독립인가 종속인가 2-9) 독립시행 간단히 복습해봅시다. 사건이 발생할 확률 어떤 시행의 표본공간을 S라고 합시다. 표본공간의 부분집합이 사건입니다. 어떤 사건 A가 발생할 확률은 아래와 같습니다. $P(A)=\frac{n(A)}{n(S)}$ 확률의 덧셈정리 확률의 덧셈정리는 사건 A 또는 B가 일어날 확률에 대한 정리입니다. 사건 A 또는 B가 일어날 확률은 아래와 같습니다. $P(A\cup B)=\frac{n(A.. 2023. 5. 25.
[확률과통계 기초] 2-9. 독립시행 독립시행이란? 독립시행은 각각의 시행의 결과가 다른 시행의 결과에 영향을 주지 않는 시행을 말합니다. 주사위를 던지는 사건을 예로 들겠습니다. 주사위를 던질 때 각 눈이 나올 확률은 1/6 입니다. 주사위를 한 번 던져서 3이 나왔다고 합시다. 이렇게 발생한 결과가 그 다음 주사위를 던질때의 각 눈이 나올 확률에 영향을 주지 않습니다. 주사위를 몇번 던지건 각 눈이 나올 확률은 항상 1/6 입니다. 독립시행 확률 독립시행의 확률을 한번 구해봅시다. 주사위를 5번 연속으로 던져서 1의 눈이 3번 나올 확률을 구해봅시다. 1이 3번 나오는 경우를 예로 들면 아래와 같습니다. 1 1 1 2 2 1 1 1 2 3 1 1 1 4 5 ... 몇가지나 될까요? 총 다섯 자리 중에서 1이 들어갈 세개의 자리를 먼저 뽑.. 2023. 5. 22.
[확률과통계 기초] 2-8. 배반사건은 독립인가 종속인가 표본공간 S에 두 사건 A와 B가 있습니다. 두 사건이 배반사건이라면 아래 그림과 같이 나타낼 수 있습니다. 두 사건은 겹치는 부분이 없이 서로 떨어져 있기 때문에 독립적인 것처럼 보입니다. 우리가 일상적으로 쓰는 독립이라는 단어가 '떨어져 있는' 이라는 느낌을 주기 때문에 이런 오해가 발생하는 것 같습니다. 하지만 통계에서 사용하는 독립의 의미는 다릅니다. 통계에서 독립은 이렇게 정의가 되죠. '한 사건의 발생이 다른 사건의 발생 확률에 영향을 주지 않는 것' 그런데 만약 두 사건이 서로 배반이라면 한 사건이 발생했을 때 다른 사건이 발생할 확률은 0이 됩니다. 만약 A가 발생했다면 B는 발생할 수가 없기 때문입니다. 한 사건의 발생이 다른 사건에 엄청난 영향을 주는 것이죠. 수식으로도 한번 이해를 해.. 2023. 5. 20.
반응형