반응형 전체 글648 [확률과통계 기초] 3-8. 확률질량함수 (이산확률변수의 확률함수) 우리는 확률변수가 둘로 나뉜다는 것을 배웠습니다. 확률변수는 이산확률변수와 연속확률변수 두 가지로 구분됩니다. 이산확률변수는 확률변수 각각이 확률값을 갖습니다. 연속확률변수는 어떤 구간의 확률만 정의가 가능했습니다. 이산확률변수와 연속확률변수의 확률함수는 정의가 다릅니다. 이산확률변수의 확률함수는 확률질량함수이고 연속확률변수의 확률함수는 확률밀도함수입니다. 이번 시간에는 이산확률변수의 확률함수인 확률질량함수에 대해 배워봅시다. 간단한 예시를 통해 확률질량함수가 무엇인지 알아봅시다. 주사위를 한번 던져서 나오는 눈의 수를 확률변수 X라고 놓으면 X는 이산확률변수입니다. 확률함수는 확률변수를 확률과 대응시킨 것을 말합니다. 확률변수 X의 확률함수는 표로 나타낼 수도 있고 그래프로 나타낼 수도 있습니다. 먼저.. 2023. 11. 15. 마르코브 연쇄 쉽게 이해하기 마르코브 연쇄 예시 마르코브 연쇄와 관련된 간단한 예시를 먼저 살펴봅시다. 날씨가 두가지만 있는 세상에 살고 있다고 합시다. 맑은날(S)과 비오는날(R) 두가지만 있습니다. 확률은 아래와 같이 정의됩니다. 맑은 날 다음날 맑을 확률 = 0.9 맑은 날 다음날 비올 확률 = 0.1 비온 다음 날 맑을 확률 = 0.6 비온 다음 날 비올 확률 = 0.4 오늘 비가 왔다면, 내일 맑을 확률과 비올 확률은 0.6과 0.4입니다. 어제 날씨가 어떠했건 상관없이, 그 전날 날씨가 어떠했건 상관 없이 오늘 날씨에 따라 내일 날씨의 확률이 결정됩니다. 이러한 성질을 마르코브 연쇄라고 부릅니다. 마르코브 연쇄란? 마르코브 연쇄의 정의는 아래와 같습니다. 마르코브 연쇄 : 미래 상태의 확률분포가 과거 상태와는 독립적으로 .. 2023. 11. 9. 자기회귀모델 (Autoregressive model) 쉽게 이해하기 자기회귀모델이 무엇인지 배워봅시다. 영어로는 Autoregressive model 입니다. Auto+regressive model 입니다. regressive model 은 회귀모델인데 auto 는 무슨 뜻일까요? 자동이라고 해석하면 의미가 이상해집니다. auto 에는 ‘스스로’라는 의미가 있습니다. 여기서 auto 는 스스로라는 뜻입니다. 자귀회귀모델에는 회귀모델이라는 말이 들어 있습니다. 회귀모델가 뭔가 비슷해서 겠죠? 회귀모델은 독립변수들의 선형조합으로 종속변수를 예측합니다. 자기회귀모델에서는 다른 변수들이 아닌 자기자신으로 자기자신을 예측합니다. 이것이 어떻게 가능할까요? 자기 자신의 과거를 이용하면 가능합니다. 과거 값을 이용하여 특정 시점 t의 값을 에측하는 모델이 자기회귀모델입니다. 자기회귀.. 2023. 11. 6. 다중공선성 확인하는 방법 (분산팽창요인 VIF) 다중공선성이란? 독립변수들로 종속변수를 예측하고 싶은 상황입니다. 회귀분석을 이용할 겁니다. 독립변수는 X1,X2,X3가 있다고 합시다. 이때 독립변수 X1이 X2와 X3로 설명이 가능한 경우를 다중공선성이라고 합니다. 설명이 가능하다는 것을 연관성이 크다로 이해해도 됩니다. 다중공선성의 문제 다중공선성이 있을 경우 모형이 좋은데도 불구하고 유의한 독립변수가 없게 나올 수 있습니다. 모형이 좋다는 것은 결정계수값이 높다는 것입니다. 이런 이유로 다중공선성 문제는 해결해주어야 합니다. 다중공선성 진단 방법 1) 위에서 언급했듯 결정계수가 높은데도 유의한 독립변수가 없는지 확인함 2) 변수들 간의 산점도를 그려보고 상관계수를 계산함 3) 분산팽창요인 (Variance Inflation Factor, VIF).. 2023. 10. 30. 표준화 회귀계수가 뭔가요? 독립변수 X1,X2,X3 를 사용하고 종속변수 Y를 사용하여 다중회귀분석을 했다고 합시다. 다중 회귀분석 결과는 아래와 같습니다. Y=β0+β1X1+β2X2+β3X3Y=β0+β1X1+β2X2+β3X3 위 식에서 베타들을 회귀계수라고 부릅니다. 값을 한번 넣어봅시다. Y=2+10X1+2X2+5X3Y=2+10X1+2X2+5X3 여기서 계수가 가장 큰 X_{1}의 영향이 가장 크다고 잘못 해석할 소지가 생깁니다. X1X1이 1만큼 증가했을 때 Y의 변화가 가장 크기 때문입니다. 그런데 만약 X1X1이 몸무게이고 단위가 톤이라고 해봅시다. 몸무게가 1톤씩 차이날 일은 없으므로 1만큼 증가할 수가 없습니다. X1X1은 아주 작은 값 만큼씩 변할 것입니다. 만약 몸무게의 .. 2023. 10. 25. 다중회귀분석에서 왜 수정된 결정계수를 사용하는가? 결정계수는 회귀모델의 독립변수들이 종속변수를 얼마나 잘 설명하고 있는지를 말해준다. 결정계수가 높을 수록 독립변수들이 종속변수를 잘 설명하는 것이다. 그런데 우리는 결정계수가 아니라 수정된 결정계수를 사용한다. 그 이유가 무엇일까? 회귀분석에서는 독립변수가 늘어날 수록 결정계수 가 증가한다. 거지같은(?) 독립변수가 추가되더라도, 결정계수 는 항상 올라간다. 별로 유의하지 않고, 목적에 적합하지 않은 변수라고 해도 결정계수 가 증가하는 것이다. 따라서 결정계수로는 좋은 모델을 선별할 수 없다. 이런 이유로 수정된 결정계수가 등장했다. 수정된 결정계수는 독립변수 개수에 대해 패널티를 부여한다. 독립변수가 많아지면 의도적으로 회귀계수를 감소시키는 것이다. 이렇게 되면, 정말 의미 있는 독립변수라야 수정된 회.. 2023. 10. 24. 경북 사람이라면 클릭! | UNITY 게임개발 강의 | 전액 무료 | 수료자에게 엄청난 혜택 1. 프로그램 설명 경북테크노파크에서 진행하는 게임 제작 강의가 있어서 소개 드리려고 합니다. 프로그램은 크게 둘로 나뉩니다. 프로그래밍 단기과정과 2D그래픽 단기과정입니다. 프로그래밍 단기과정은 이미 완료했고, 2D 그래픽 단기과정이 남아 있습니다. 2D 그래픽 제작, 하이브리드 UI, 애니메이션 및 최적화를 배우실 수 있습니다. 기초강의라서 게임개발에 관심이 있으신 분들은 누구나 들으실 수 있습니다. 단, 경북에 거주하시는 분이어야 합니다. 전체 강의는 7일 동안 진행됩니다. 아래 날짜에 참석하시게 됩니다. 10/7(토) 10/8(일) 10/14(토) 10/15(일) 10/21(토) 10/22(일) 10/28(토) 강의는 오전 10시부터 오후 5시까지 진행되고 점심이 제공됩니다. 위 프로그램의 특장점.. 2023. 9. 24. 표본 크기가 커지면 정규성을 따르지 않는 문제 표본의 크기가 커지면 작은 차이에도 민감하게 반응하게 됩니다. 두 집단의 평균을 비교하는 t검정에서는 표본크기를 키우면 모집단의 아주 작은 평균차이에도 불구하고 유의차가 발생합니다. 위와 같은 현상은 정규성검정에서도 발생합니다. 완벽하게 정규분포를 따르는 모집단은 존재하지 않기 때문에 표본의 크기가 커지면 모집단이 정규분포를 따른다는 가정은 대부분 기각됩니다. 그렇다면 표본이 큰 경우에는 정규분포를 항상 따르지 않으니 정규성가정을 할 수 없는것일까요? 판단은 연구자의 몫입니다. 일반적인 경우 히스토그램을 그려보고, 히스토그램의 모양이 어느정도 정규분포를 따르면 정규성이 있다고 가정하고 진행하기도 합니다. 2023. 9. 19. [확률과통계 기초] 3-7. 연속확률변수에서 확률이 정의되지 않는 이유 이산확률변수에서는 변수가 가질 수 있는 값의 개수가 무한한데도 변수가 어떤 값을 가질 확률이 정의되는 경우가 있었습니다. 아래와 같이 확률변수가 커지면 확률이 0으로 수렴하는 경우가 대표적인 예시입니다. P[X=x]=(12)xP[X=x]=(12)x 연속확률변수도 확률변수가 가질 수 있는 값의 개수가 무한합니다. 이산확률변수와 달리 연속확률변수에서는 확률변수가 어떤 값을 가질 확률이 확률이 항상 정의되지 않습니다. 왜 그런지 같이 생각해봅시다. 연속확률변수가 확률을 갖는다고 가정하고 아래와 같은 그래프를 그려봅시다. 양 끝 값은 0이라고 합시다. 구간 안에 있는 값들이 발생할 확률이 0이 아닌 어떤 구간을 하나 정의합시다. 이 구간의 발생 확률의 최솟값.. 2023. 8. 4. 머신러닝과 데이터마이닝의 차이 머신러닝과 데이터마이닝은 유사한 분야입니다. 머신러닝에 사용되는 기법들이 데이터마이닝에도 들어가 있습니다. 둘을 완벽히 구분할 수는 없지만 둘의 차이에 대해 설명한 책이 있어서 해당 부분을 가져왔습니다. 책 제목은 Machine Learning with R(Brett Lantz)입니다. 이 책 3페이지에 아래와 같은 내용이 나옵니다. Although there is some disagreement over how widely machine learning and data mining overlap, one point of distinction is that machine learning focuses on teaching computers how to use data to solve a problem, .. 2023. 8. 1. [확률과통계 기초] 3-6. 개수가 무한한 이산확률변수 이산확률변수는 아래 두가지 특징을 갖는 확률 변수 입니다. 1) 변수가 어떤 값을 가질 확률을 정의할 수 있음 2) 변수가 될 수 있는 값들을 셀 수 있음 이와 같은 특징을 보고 나면 이산확률변수가 될 수 있는 값들의 개수가 반드시 유한할 것이라고 생각할 수 있습니다. 주사위를 던질 때 나오는 눈의 값을 확률변수로 하는 경우나, 동전을 두번 던져서 앞면이 나오는 횟수를 확률변수로 하는 경우와 같이 많은 경우 확률변수가 될 수 있는 값의 개수가 유한한 것은 맞습니다. 하지만 개수가 무한한 경우도 있습니다. 오늘은 이산확률변수가 될 수 있는 값들의 개수가 무한한 예시를 하나 살펴봅시다. 이산확률변수가 모든 자연수 값을 가질 수 있다고 합시다. 이때 각 값이 발생할 확률을 아래와 같이 정의하겠습니다. $P\l.. 2023. 7. 24. [확률과통계 기초] 3-5. 두 종류의 확률변수 (이산, 연속) 우리는 두 종류의 확률변수가 있다는 사실을 알게되었습니다. 확률변수가 어떤 값을 가질 확률이 존재하는 확률변수가 있었고 그렇지 않은 확률변수가 있었습니다. 확률변수가 어떤 값을 가질 확률이 정의되는 확률변수의 예시로는 '동전을 두 번 던질 때 나오는 앞면의 개수'가 있습니다. 이 확률변수를 X라고 놓고, X가 가질 수 있는 값을 집합으로 나타내면 아래와 같습니다. X={0,1,2}X={0,1,2} 이러한 확률변수를 '이산확률변수'라고 부릅니다. 확률변수가 어떤 값을 가질 확률이 정의되는 확률변수들을 모아보니 이런 특징이 있었습니다. "확률변수가 될 수 있는 값들을 셀 수 있음." 이 특징을 이산확률변수의 정의로 사용합니다. 이산확률변수 : 확률변수가 될 수 있는 값들을 셀 수 있는 확률변.. 2023. 7. 17. [확률과통계 기초] 3-4. 확률이 정의되지 않는 확률변수 어떤 확률변수 X가 있구요. 이 확률변수는 1부터 3까지의 실수 구간에 있는 값을 가질 수 있다고 하겠습니다. 1≤X≤31≤X≤3 위 구간의 값이 발생할 확률이 같다고 가정하고 아래 확률을 한번 구해봅시다. P[X=1]P[X=1] 위 확률을 p라고 놓으면 전체 확률은 p×∞p×∞ 가 됩니다. 전체 확률이 무한대이므로 모순입니다. 따라서 확률을 정의할 수 없습니다. 이번에는 아래 확률을 한번 구해봅시다. P[1≤X≤2]P[1≤X≤2] 확률은 0.5입니다. 전체 구간 중 절반이기 때문입니다. 주사위를 던질 때 각 눈이 발생할 확률은 정의가 가능했는데, 오늘 살펴본 확률변수는 각 값이 발생할 확률을 정의할 수 없었습니다. 구간의.. 2023. 7. 9. [확률과통계 기초] 3-3. 확률함수와 확률분포 우리가 계속 사용하고 있는 동전 두개 던지는 예시를 가져옵시다. 동전을 두개 던져서 앞면이 나오는 횟수를 확률변수로 놓을 수 있었습니다. 확률변수를 X로 놓으면 X가 가질 수 있는 값은 아래와 같습니다. X={0,1,2} 확률변수 X가 각 값을 가질 확률은 아래와 같습니다. P[X=0]=14P[X=0]=14 P[X=1]=12P[X=1]=12 P[X=2]=14P[X=2]=14 확률변수 X가 가질 수 있는 값들과, 각 값을 가질 확률 사이에 대응관계가 존재합니다. 이 대응관계를 표로 나타내면 아래와 같습니다. X 0 1 2 합계 P[X=x]P[X=x] 1414 1212 1414 1 이와 같은 대응관계를 '확률분포'라고 부릅니다. 이 대응관계를 p(x)라는 .. 2023. 7. 2. 최빈값은 언제 쓸까? (mode) 평균, 중앙값, 최빈값은 자료를 하나의 값으로 요약해주는 대푯값입니다. 우리는 이러한 대푯값들을 자료의 종류와 상황에 알맞게 선택하여 사용해야 합니다. 자료는 수치형 자료와 범주형자료로 나눌 수 있습니다. 수치형자료는 숫자로 되어있는 자료입니다. 수치형자료의 대푯값으로는 평균과 중앙값이 사용됩니다. 범주형 자료의 대표적인 예시로는 성별이 있습니다. 아래와 같은 범주형 자료가 있다고 합시다. 남 남 남 여 여 여 여 여 여 여 이 자료에 평균이나 중앙값을 적용하는 것은 불가능합니다. 범주형 자료에서는 최빈값을 대푯값으로 사용할 수 있습니다. 위 데이터의 최빈값은 '여자'입니다. 다른 예시를 하나 더 살펴봅시다. 어떤 반 아이들에게 선호하는 직업을 조사했다고 합시다. 가장 많은 아이들이 선택한 직업이 아이들.. 2023. 6. 28. 이전 1 2 3 4 5 6 ··· 44 다음 반응형