본문 바로가기
반응형

전체 글627

[확률과통계 기초] 3-15. 이항분포 예시 지난시간에 이항분포가 무엇인지 배웠습니다. 이항분포는 베르누이 시행을 n번 반복했을 때 성공이 나온 횟수인 x를 확률변수로 하는 분포이고, 분포함수는 아래와 같습니다. $p(x)=_nC_x \ p^x(1-p)^{n-x}$ 이번시간에는 이항분포의 예시를 알아봅시다. 어떤 농구선수가 있고 자유투 성공률이 70% 라고 합시다. 이 농구선수가 자유투를 5번 던져서 성공한 횟수를 X라고 놓겠습니다. X의 확률분포가 이항분포를 따릅니다. X의 확률분포를 구해보면 아래와 같습니다. $p(x)=_5C_x \ (0.7)^x(0.3)^{5-x}$ 자유투는 0번부터 5번까지 성공할 수 있습니다. 각각의 확률을 표로 나타내보면 아래와 같습니다. 값을 계산해보면 아래와 같습니다. 그래프로 그려보면 아래와 같습니다. 2024. 2. 23.
[확률과통계 기초] 3-14. 베르누이분포에서 이항분포로 시행의 결과가 성공과 실패 두가지인 시행을 베르누이 시행이라고 부릅니다. 예를 들면 동전던지기가 있습니다. 동전던지기 시행의 결과는 앞면과 뒷면 두가지입니다. 앞,뒤 앞면을 성공, 뒷면을 실패로 놓는다면 동전던지기는 베르누이시행입니다. 앞(성공),뒤(실패) 어떤 베르누이 시행의 성공 확률이 p이고 실패확률이 1-p 이라고 합시다. 이 베르누이 시행을 n번 반복한다고 합시다. 각 시행은 독립시행이라고 가정하겠습니다(독립시행이 무엇인지는 2-9강에서 배웠습니다). 베르누이 시행을 n번 반복했을 때 성공이 x번 나올 확률은 아래와 같습니다. $_nC_x \ p^x(1-p)^{n-x}$ $_nC_x$는 n번 중 성공이 x번 나오는 경우의 수 입니다. $p^x(1-p)^{n-x}$은 성공이 x번 나오고, 실패는 .. 2024. 2. 21.
[확률과통계 기초] 3-13. 이항분포 배우기 전에 베르누이분포 먼저 우리는 지난시간에 이항분포에서 '이항'이 어떤 의미인지 배웠습니다. 이항은 두개의 항이라는 뜻입니다. 이항분포가 무엇인지 배울 차례인데요. 그 전에 베르누이분포를 먼저 배우겠습니다. 이유는 다음 강의에서 알게되실겁니다. 시행과 사건 기억하시나요? 세번째 시간에 배웠던 시행, 표본공간, 사건의 정의를 가져옵시다. 시행 : 무한히 반복될 수 있고, 잘 정의된 결과 집합을 갖는 행위 표본공간 : 어떤 시행에서 발생할 수 있는 모든 결과를 모아놓은 집합 사건 : 어떤 시행의 결과들의 집합. 확률이 할당되어 있음. 표본공간의 부분집합. 시행,표본공간,사건을 쉽게 기억하는 방법은 주사위 던지기 예시로 기억하는 것입니다. 시행은 주사위던지기이고, 표본공간은 1부터6 까지의 집합이고, 사건은 짝수의 눈이 나오는 사건이.. 2024. 1. 3.
[확률과통계 기초] 3-12. 이항분포에서 '이항' 이 무슨 뜻일까 이번 시간부터 이항분포를 공부할 것입니다. 확률분포는 이산확률분포와 연속확률분포로 나뉘는데, 이항분포는 이산확률분포에 속합니다. '이항'이라는 말을 들으셨을 때 어떤 것이 떠오르셨나요? 방정식이 떠오르셨을 겁니다. 방정식에서 항을 옮기는 것을 '이항'이라고 불렀으니까요. 이항분포의 '이항'은 방정식의 '이항'과 다른 의미입니다. 방정식에서의 이항은 영어로 transposition 이고, 한자로 移項 인데 이동할 (이), 항 (항) 입니다. 이항분포에서 이항은 영어로 binomial 이고, 한자로 二項 입니다. 두개의 항이라는 뜻입니다. 따라서 이항분포를 직역하면 '두개의 항으로 된 분포'라는 뜻입니다. 두개의 항으로 된 분포라는게 어떤 의미인지는 다음시간 부터 알아봅시다. 2023. 12. 27.
[확률과통계 기초] 3-11. 우리가 배울 두가지 분포 우리는 확률분포를 배우고 있습니다. 확률분포가 두가지로 나눈다는 것도 배웠는데요. 확률분포는 이산확률분포와 연속확률분포로 나뉩니다. 이산확률분포와 연속확률분포에는 여러가지가 있습니다. 대표적인 분포들은 아래와 같습니다. 이산확률분포 : 이항분포, 기하분포, 음이항분포, 포아송분포, 초기하분포, 다항분포 연속확률분포 : 균등분포, 정규분포, t분포, 카이제곱분포, F분포, 감마분포, 베타분포 뭐가 이렇게 많은건가 싶으실텐데 다 사용되는 분포입니다. 각각의 분포가 어떤 상황에 사용되는지 궁금하신 분들은 [손으로 푸는 확률분포] 강의를 들어보시면 됩니다. 이 강의는 확률과 통계 기초 강의이므로 이산확률분포와 연속확률변수 중에서 각각 하나씩만 배웁니다. 이산확률분포에서는 이항분포, 연속확률분포에서는 정규분포를 .. 2023. 12. 20.
오즈비 95% 신뢰구간 직접 구하는 방법 이 글의 목적은 오즈비의 의미를 설명하는 것이 아니라 계산하는 방법을 설명하는데 있습니다. 아래와 같은 분할표가 있다고 합시다. disease non-disease exposed a b non-exposed c d 오즈비는 아래와 같이 계산됩니다. $OR=\frac{a/b}{c/d}$ 오즈비의 신뢰구간을 구하기 정규분포를 가정해야합니다. 먼저 로그오즈비를 아래와 같이 정의합니다. 오즈비에 로그를 씌운 형태입니다. $L=\log\left ( \frac{a/b}{c/d} \right )$ 로그오즈비가 근사적으로 정규분포를 따른다고 가정합니다. 이때 표준오차는 아래와 같이 근사적으로 계산됩니다. $SE=\sqrt{\frac{1}{a}+\frac{1}{b}+\frac{1}{c}+\frac{1}{d}}$ 로그오즈.. 2023. 12. 15.
[손으로 푸는 카이제곱검정] 1. 프롤로그 이 강의는 카이제곱검정에 대한 강의입니다. 카이제곱 검정의 원리를 수학적으로 자세하게 이해하는 것이 목적입니다. 카이제곱검정이 언제 사용되는지 알아볼건데요. 먼저 질문을 하나 던지겠습니다. 30대 남자와 여자의 흡연율에 차이가 있는지 알아보고 싶다면 어떻게 해야 할까요? 30대 남자 집단과 30대 여자 집단 전체를 조사하고 흡연율을 비교하는 것이 가장 정확한 방법일 것입니다. 하지만 아직까지 전수조사는 쉽지 않습니다. 기술적으로는 거의 가능해보이지만 시행하는 것은 또다른 문제 같습니다. 한달에 한번 의무적으로 조사에 참여하도록 하는 법이 생기면 가능할 수도 있겠습니다. 아무튼 전수조사는 어렵기 때문에 표본을 뽑습니다. 표본도 잘 뽑아야 됩니다. 남자 표본은 흡연실에서 뽑고, 여자 표본은 임산부 중에서 뽑.. 2023. 12. 14.
[확률과통계 기초] 3-10. P[X=x] 와 p(x)의 차이 확률변수 X의 확률질량함수의 정의는 아래와 같습니다. $P\left [ X=x_{i} \right ]=p_{i} \ \ (i=1,2,...,n)$ 위 식의 좌변에서 P[ ] 는 대괄호 안의 사건이 발생할 확률을 나타냅니다. 좌변은 $X=x_{i}$ 일 확률이라는 뜻입니다. 예를 들어봅시다. 주사위를 한번 던질 때 나오는 눈의 값을 확률변수 X라고 한다면, X의 확률질량함수는 아래와 같습니다. $P\left [ X=x \right ]=\frac{1}{6} \ \ (x=1,2,...,6)$ 위와 같은 표현을 더 간단히 나타낼 수 있습니다. 함수이름를 사용하는 것입니다. 함수 이름은 원하는 것을 사용하면 되는데 주로 p나 f를 사용합니다. 확률변수 X의 확률질량함수를 p(x)라고 한다면, p(x)의 의미는 '.. 2023. 12. 8.
[확률과통계 기초] 3-9. 확률질량함수의 성질 이산확률변수 X의 확률질량함수는 아래와 같습니다. $P\left [ X=x_{i} \right ]=p_{i} \ \ (i=1,2,...,n)$ 이번시간에는 확률질량함수의 세가지 성질을 알아봅시다. 확률은 0이상 1이하의 값을 가지므로 아래와 같은 조건이 성립합니다. (1) $0\leq p_{i} \leq 1$ 각 사건이 발생할 확률의 총 합은 1이므로 아래 조건이 성립합니다. (2) $p_{1}+p_{2}+\cdots+p_{n}=1$ 이번에는 확률변수 X가 어떤 범위 내에 있을 확률을 구해봅시다. X가 $x_{3}$이상이고 $x_{5}$이하일 확률은 아래와 같습니다. $P\left [ x_{3}\leq X\leq x_{5} \right ]=p_{3}+p_{4}+p_{5}$ 위 식을 일반화시키면 아래와 같.. 2023. 11. 15.
[확률과통계 기초] 3-8. 확률질량함수 (이산확률변수의 확률함수) 우리는 확률변수가 둘로 나뉜다는 것을 배웠습니다. 확률변수는 이산확률변수와 연속확률변수 두 가지로 구분됩니다. 이산확률변수는 확률변수 각각이 확률값을 갖습니다. 연속확률변수는 어떤 구간의 확률만 정의가 가능했습니다. 이산확률변수와 연속확률변수의 확률함수는 정의가 다릅니다. 이산확률변수의 확률함수는 확률질량함수이고 연속확률변수의 확률함수는 확률밀도함수입니다. 이번 시간에는 이산확률변수의 확률함수인 확률질량함수에 대해 배워봅시다. 간단한 예시를 통해 확률질량함수가 무엇인지 알아봅시다. 주사위를 한번 던져서 나오는 눈의 수를 확률변수 X라고 놓으면 X는 이산확률변수입니다. 확률함수는 확률변수를 확률과 대응시킨 것을 말합니다. 확률변수 X의 확률함수는 표로 나타낼 수도 있고 그래프로 나타낼 수도 있습니다. 먼저.. 2023. 11. 15.
마르코브 연쇄 쉽게 이해하기 마르코브 연쇄 예시 마르코브 연쇄와 관련된 간단한 예시를 먼저 살펴봅시다. 날씨가 두가지만 있는 세상에 살고 있다고 합시다. 맑은날(S)과 비오는날(R) 두가지만 있습니다. 확률은 아래와 같이 정의됩니다. 맑은 날 다음날 맑을 확률 = 0.9 맑은 날 다음날 비올 확률 = 0.1 비온 다음 날 맑을 확률 = 0.6 비온 다음 날 비올 확률 = 0.4 오늘 비가 왔다면, 내일 맑을 확률과 비올 확률은 0.6과 0.4입니다. 어제 날씨가 어떠했건 상관없이, 그 전날 날씨가 어떠했건 상관 없이 오늘 날씨에 따라 내일 날씨의 확률이 결정됩니다. 이러한 성질을 마르코브 연쇄라고 부릅니다. 마르코브 연쇄란? 마르코브 연쇄의 정의는 아래와 같습니다. 마르코브 연쇄 : 미래 상태의 확률분포가 과거 상태와는 독립적으로 .. 2023. 11. 9.
자기회귀모델 (Autoregressive model) 쉽게 이해하기 자기회귀모델이 무엇인지 배워봅시다. 영어로는 Autoregressive model 입니다. Auto+regressive model 입니다. regressive model 은 회귀모델인데 auto 는 무슨 뜻일까요? 자동이라고 해석하면 의미가 이상해집니다. auto 에는 ‘스스로’라는 의미가 있습니다. 여기서 auto 는 스스로라는 뜻입니다. 자귀회귀모델에는 회귀모델이라는 말이 들어 있습니다. 회귀모델가 뭔가 비슷해서 겠죠? 회귀모델은 독립변수들의 선형조합으로 종속변수를 예측합니다. 자기회귀모델에서는 다른 변수들이 아닌 자기자신으로 자기자신을 예측합니다. 이것이 어떻게 가능할까요? 자기 자신의 과거를 이용하면 가능합니다. 과거 값을 이용하여 특정 시점 t의 값을 에측하는 모델이 자기회귀모델입니다. 자기회귀.. 2023. 11. 6.
다중공선성 확인하는 방법 (분산팽창요인 VIF) 다중공선성이란? 독립변수들로 종속변수를 예측하고 싶은 상황입니다. 회귀분석을 이용할 겁니다. 독립변수는 X1,X2,X3가 있다고 합시다. 이때 독립변수 X1이 X2와 X3로 설명이 가능한 경우를 다중공선성이라고 합니다. 설명이 가능하다는 것을 연관성이 크다로 이해해도 됩니다. 다중공선성의 문제 다중공선성이 있을 경우 모형이 좋은데도 불구하고 유의한 독립변수가 없게 나올 수 있습니다. 모형이 좋다는 것은 결정계수값이 높다는 것입니다. 이런 이유로 다중공선성 문제는 해결해주어야 합니다. 다중공선성 진단 방법 1) 위에서 언급했듯 결정계수가 높은데도 유의한 독립변수가 없는지 확인함 2) 변수들 간의 산점도를 그려보고 상관계수를 계산함 3) 분산팽창요인 (Variance Inflation Factor, VIF).. 2023. 10. 30.
표준화 회귀계수가 뭔가요? 독립변수 X1,X2,X3 를 사용하고 종속변수 Y를 사용하여 다중회귀분석을 했다고 합시다. 다중 회귀분석 결과는 아래와 같습니다. $Y=\beta_{0}+\beta_{1}X_{1}+\beta_{2}X_{2}+\beta_{3}X_{3}$ 위 식에서 베타들을 회귀계수라고 부릅니다. 값을 한번 넣어봅시다. $Y=2+10X_{1}+2X_{2}+5X_{3}$ 여기서 계수가 가장 큰 X_{1}의 영향이 가장 크다고 잘못 해석할 소지가 생깁니다. $X_{1}$이 1만큼 증가했을 때 Y의 변화가 가장 크기 때문입니다. 그런데 만약 $X_{1}$이 몸무게이고 단위가 톤이라고 해봅시다. 몸무게가 1톤씩 차이날 일은 없으므로 1만큼 증가할 수가 없습니다. $X_{1}$은 아주 작은 값 만큼씩 변할 것입니다. 만약 몸무게의 .. 2023. 10. 25.
다중회귀분석에서 왜 수정된 결정계수를 사용하는가? 결정계수는 회귀모델의 독립변수들이 종속변수를 얼마나 잘 설명하고 있는지를 말해준다. 결정계수가 높을 수록 독립변수들이 종속변수를 잘 설명하는 것이다. 그런데 우리는 결정계수가 아니라 수정된 결정계수를 사용한다. 그 이유가 무엇일까? 회귀분석에서는 독립변수가 늘어날 수록 결정계수 가 증가한다. 거지같은(?) 독립변수가 추가되더라도, 결정계수 는 항상 올라간다. 별로 유의하지 않고, 목적에 적합하지 않은 변수라고 해도 결정계수 가 증가하는 것이다. 따라서 결정계수로는 좋은 모델을 선별할 수 없다. 이런 이유로 수정된 결정계수가 등장했다. 수정된 결정계수는 독립변수 개수에 대해 패널티를 부여한다. 독립변수가 많아지면 의도적으로 회귀계수를 감소시키는 것이다. 이렇게 되면, 정말 의미 있는 독립변수라야 수정된 회.. 2023. 10. 24.
반응형