본문 바로가기
반응형

@ 통계학 석박사 진학관련55

[수리통계학] #42. 이변량 분포 변환 (transformation) 개념 이변량 확률변수의 변수변환이 무엇인지 먼저 간단히 알아봅시다. 두 확률변수의 $X_{1}$과 $X_{2}$의 결합확률분포 를 알고 있다고 합시다. 이때 다른 다른 확률변수 $Y_{1}$과 $Y_{2}$는 아래과 같이 정의된다고 합시다. $Y_{1}=f_{1}(X_{1},X_{2})$ $Y_{2}=f_{2}(X_{1},X_{2})$ 이때 $X_{1}$과 $X_{2}$의 결합확률분포를 이용하여 $Y_{1}$와 $Y_{2}$의 결합확률분포를 구하는 것이 확률변수 변환입니다. 어떻게 사용되나? 우리가 확률분포를 구하고 싶은 확률변수인 $Y_{1}$이 아래와 같이 정의된다고 합시다. $Y_{1}=g(X_{1},X_{2})$ 이변량 분포의 변환을 이용하면 Y의 확률분포함수를 구할 수 있습니다. 약간의 편법(?.. 2023. 2. 14.
[수리통계학] #41. 주변확률분포 주변확률분포는 결합확률분포로 부터 계산된 단일변량 확률분포입니다. 이산확률변수 두 확률변수 $X_{1}$ 과 $X_{2}$의 결합확률질량함수를 알고 있다고 합시다. $p_{X_{1},X_{2}}(x_{1},x_{2})$ 이 결합확률질량함수로 부터 $X_{1}$의 확률분포함수를 얻으려면 어떻게 해야할까요. 아래와 같이 구하면 됩니다. $p_{X_{1}}(x_{1})=\sum_{-\infty 2023. 2. 13.
[수리통계학] #40. 이변량 확률분포 (결합확률분포) 우리는 24강에서 확률변수가 무엇인지 배웠습니다. 확률변수는 표본공간의 원소를 실수에 대응시키는 함수입니다. 26~27강에서는 확률분포함수를 배웠습니다. 확률분포는 확률변수를 확률에 대응시키는 함수입니다. 오늘은 이변량 확률분포를 배울 것인데요. 이변량 확률분포는 확률변수의 쌍을 확률에 대응시키는 함수입니다. 예를 들어봅시다. 주사위를 두개 던지는 시행에서 표본공간은 아래와 같습니다. $S={HH,HT,TH,TT}$ 두 확률변수 $X_{1}$과 $X_{2}$ 를 아래와 같이 정의합시다. $X_{1}$ : 앞면이 나온 횟수 $X_{2}$ : 뒷면이 나온 횟수 순서쌍 $(X_{1},X_{2})$ 의 집합을 D라고 한다면, D는 아래와 같습니다. $D=\left \{ (2,1),(1,1),(0,2) \righ.. 2023. 2. 13.
[수리통계학] #39. 특성함수가 항상 존재함을 증명 어떤 확률변수 X의 확률밀도함수가 f(x) 일 때, 특성함수는 아래와 같이 정의됩니다. $\varphi_{X}(t)=\int_{-\infty}^{\infty}e^{itX}f(x)dx$ 양변에 절댓값을 씌워줍시다. $\left | \varphi_{X}(t) \right |=\left | \int_{-\infty}^{\infty}e^{itX}f(x)dx \right |$ 아래 부등식이 성립합니다. 복소해석학 내용입니다. 증명은 글 맨 아래 첨부한 링크를 참고하세요. $\left | \varphi_{X}(t) \right |=\left | \int_{-\infty}^{\infty}e^{itX}f(x)dx \right |\leq \int_{-\infty}^{\infty}\left | e^{itX}f(x) \ri.. 2022. 7. 6.
[수리통계학] #38. 특성함수가 같으면 같은 분포일까? (유일성) 두 확률변수 X와 Y가 있다고 합시다. 두 확률변수의 누적분포함수는 $F_{X}(x)$ 와 $F_{Y}(y)$ 라고 놓겠습니다. 두 확률변수의 확률밀도함수는 $f_{X}(x)$ 와 $f_{Y}(y)$ 라고 놓겠습니다. 두 확률변수의 특성함수는 $\varphi_{X}(t)$ 와 $\varphi_{Y}(t)$ 라고 놓겠습니다. 이때 아래 성질이 성립합니다. 1. 두 함수의 누적분포함수가 같으면 특성함수도 같다. 2. 두 함수의 특성함수가 같으면 누적분포함수도 같다. 1번 성질은 쉽게 증명할 수 있습니다. 누적분포함수가 같으면 확률밀도함수가 같습니다. 특성함수는 아래와 같이 확률밀도함수에 의해서만 결정됩니다. $\varphi_{X}(t)=E[e^{itx}]=\int_{-\infty}^{\infty} e^{it.. 2022. 7. 6.
[수리통계학] #37. 특성함수 특성함수는 확률밀도함수에 퓨리에변환을 적용한 것입니다. 아래와 같이 정의됩니다. 그리스어 phi 를 기호로 사용합니다. 비교를 위해 적률생성함수도 나란히 써보겠습니다. $\varphi_{X}(t)=E\left [ e^{itX} \right ]=\int_{-\infty}^{\infty}e^{itx}f(x)dx$ $M_{X}(t)=E\left [ e^{tX} \right ]=\int_{-\infty}^{\infty}e^{tx}f(x)dx$ 특성함수는 적률생성함수에서 t자리에 it 가 대신 들어간 것입니다. 적률생성함수처럼 특성함수도 확률밀도함수마다 고유합니다. 두 확률변수의 특성함수가 같다면 확률밀도함수도 같습니다. 둘의 결정적인 차이는 다음과 같습니다. 특성함수는 적률생성함수와 달리 모든 확률분포에 대해 .. 2022. 7. 6.
[수리통계학] #36. 적률생성함수가 존재하지 않는 경우 모든 확률분포에서 적률생성함수가 존재하는 것은 아닙니다. 적률생성함수가 존재하지 않는 확률분포도 있습니다. 반면 다음 시간에 배울 특성함수는 모든 확률분포에서 존재합니다. 적률생성함수가 존재하지 않는 확률분포 예시는 아래와 같습니다. $f(x)=\frac{1}{\pi}\frac{1}{x^2+1}$ 확률변수 X는 연속확률변수이고 범위는 모든 실수입니다. 위 확률분포는 Cauchy 분포입니다. Cauchy 분포의 일반형은 아래와 같습니다. $f(x;x_{0},\gamma)=\frac{1}{\pi \gamma \left [ 1+\left ( \frac{x-x_{0}}{\gamma} \right )^2 \right ]}$ Cauchy 분포에서 $x_{0}$ 이 0이고, $\gamma$가 1인 경우입니다. $f(.. 2022. 7. 6.
[수리통계학] #35. 적률생성함수가 같은면 같은 분포일까 (유일성) 두 확률변수 X와 Y가 있다고 합시다. 두 확률변수의 누적분포함수는 $F_{X}(x)$ 와 $F_{Y}(y)$ 라고 놓겠습니다. 두 확률변수의 확률밀도함수는 $f_{X}(x)$ 와 $f_{Y}(y)$ 라고 놓겠습니다. 두 확률변수의 적률생성함수는 $M_{X}(t)$ 와 $M_{Y}(t)$ 라고 놓겠습니다. 이때 아래 성질이 성립합니다. 1. 두 함수의 누적분포함수가 같으면 적률생성함수도 같다. 2. 두 함수의 적률생성함수가 같으면 누적분포함수도 같다. 1번 성질은 쉽게 증명할 수 있습니다. 누적분포함수가 같으면 확률밀도함수가 같습니다. 적률생성함수는 아래와 같이 확률밀도함수에 의해서만 결정됩니다. $M_{X}(t)=E[e^{tx}]=\int_{-\infty}^{\infty} e^{tx}f(x)dx$ 따라.. 2022. 7. 6.
[수리통계학] #34. 적률생성함수란 무엇인가 적률생성함수는 적률을 생성하는 함수입니다. 적률은 아래와 같이 정의됩니다. $E[X^n]$ 적률은 확률변수의 거듭제곱의 기댓값입니다. 적률에는 차수가 있습니다. 위 적률은 n차 적률입니다. 적률생성함수는 미분을 이용하여 간편하게 적률을 구할수 있게 해주는 함수입니다. 확률변수 X의 적률생성함수는 아래와 같이 정의됩니다. $e^{tx}$의 기댓값입니다. $M_{X}(t)=E[e^{tx}]$ 확률변수가 이산확률변수라면 아래와 같이 계산됩니다. $M_{X}(t)=E[e^{tx}]=\sum e^{tx}p(x)$ 확률변수가 연속확률변수라면 아래와 같이 계산됩니다. $M_{X}(t)=E[e^{tx}]=\int_{-\infty}^{\infty} e^{tx}f(x)dx$ 변수는 X가 아니라 t입니다. X는 적분이되어 .. 2022. 7. 4.
[수리통계학] #33. 연속확률변수의 변수변환 (일대일 대응) 연속확률변수 $X$와 $Y$가 있습니다. 확률변수 $X$의 분포함수는 알고 있는 상황입니다. 또한 $Y=g(X)$ 라는 함수도 알고 있고 $X$와 $Y$는 일대일 대응이라고 가정합시다. 이때 $Y$의 분포함수를 구하는 방법입니다. 알고 있는 것 : $X$의 분포함수 $f_{X}(x)$, $Y=g(X)$ 조건 : $X$와 $Y$는 일대일 대응 구해야 하는 것 : $Y$의 분포함수 $f_{Y}(y)$ $X$와 $Y$가 일대일 대응이므로 $g(X)$ 는 증가함수이거나 감소함수입니다. 두 경우로 나눠서 $f_{Y}(y)$ 구하는 방법을 알아봅시다. 1. $g(X)$ 가 증가함수인 경우 연속확률변수이므로 특정 값에서의 확률을 정의할 수는 없습니다. 따라서 누적분포함수를 이용하여 접근하겠습니다. 아래 등식에서 출발.. 2022. 6. 30.
[수리통계학] #32. 이산확률변수의 변수변환 (일대일 대응) 이산확률변수 X와 Y가 있습니다. 확률변수 X의 분포함수는 알고 있는 상황입니다. 또한 $Y=g(X)$ 라는 함수도 알고 있고 X와 Y는 일대일 대응이라고 가정합시다. 이때 Y의 분포함수를 구하는 방법입니다. 알고 있는 것 : X의 분포함수, X와 Y의 관계함수 (Y=g(X)) 조건 : X와 Y는 일대일 대응 구해야 하는 것 : Y의 분포함수 아래 등식에서 출발합니다. $p_{Y}(y)=P[Y=y]$ 좌변의 $p_{y}(y)$는 확률변수 Y의 확률질량함수입니다. 우변은 확률변수 Y가 y일 확률입니다. $Y=g(X)$ 이므로 위 식을 아래와 같이 변형할 수 있습니다. $p_{Y}(y)=P[g(X)=y]$ $g(X)=y$ 는 $X=g^{-1}(y)$ 로 변형할수 있고, 둘의 발생확률은 당연히 같습니다. 따라.. 2022. 6. 30.
[수리통계학] #31. 분위수(Quantile)와 사분위수(Quartile) 분위수 설명 분위수는 확률분포에서 확률변수의 구간을 나누는 기준이 되는 수 입니다. 전체를 몇개로 나누는가에 따라 앞에 숫자가 붙습니다. 예를들여 이분위수는 전체를 둘로 나누는 분위수입니다. 확률분포를 둘로 나누는 것이므로, 이분위수를 기준으로 왼쪽의 넓이는 0.5, 오른쪽의 넓이도 0.5입니다. 따라서 이분위수는 중앙값(median)입니다. 확률분포를 셋으로 나누는 분위수는 삼분위수(tertiles)입니다. 전체를 셋으로 나누는 것이므로, 삼분위수는 2개가 있습니다. 누적 확률이 1/3이 되는 곳의 확률변수가 첫번째 삼분위수입니다. 1삼분위수라고 부릅니다. 누적확률이 3/2가 되는 곳이 두번째 삼분위수이고, 2삼분위수라고 부릅니다. 확률분포를 넷으로 나누는 분위수는 사분위수(quartile) 입니다. .. 2021. 6. 14.
[수리통계학] #30. 역누적분포함수 역누적분포함수는 누적분포함수의 역함수입니다. 누적분포함수에서는 정의역이 확률변수, 함수값이 확률이었습니다. 역누적분포함수에서는 정의역이 확률이고 함수값이 확률변수입니다. 누적분포함수 X : 확률변수 Y : 누적 확률 역누적분포함수 X : 누적확률 Y : 확률변수 역누적분포함수는 아래와 같이 정의됩니다. 확률변수 X가 F라는 누적분포함수를 따를 때, 역누적분포함수는 아래와 같다. $F^{-1}(q)=inf \left \{ x:F(X)>q \right\}$ q는 0과 1사이의 값을 갖습니다. 역누적분포함수는 분위수함수(quantile)라고도 부릅니다. 분위수를 함수값으로 갖기 때문입니다. 정규분포를 예로들어봅시다. 왼쪽부터 확률밀도함수, 누적분포함수, 역누적분포함수 입니다. 2021. 6. 11.
[회귀분석] 11. 우리가 구한 회귀모델의 성질 (6가지) 우리가 지난시간까지 구한 회귀모델은 아래와 같습니다. 오늘은 우리가 구한 회귀모델의 성질을 알아봅시다. 먼저 용어를 다시 정리해봅시다. 우리가 가진 데이터를 $(x,y)$ 라고 놓았었습니다. (x,y)들을 관측값이라고도 부릅니다. 추정된 $y$ 값은 모자를 씌워서 $\hat{y}$ 로 놓았습니다. 예를 들면, i번째 관측값은 $y_{i}$이고, i번째 추정값은 $\hat{y}_{i}$ 입니다. 이때, 실제로 뽑힌 값인 관측값 $y$와 모델을 이용하여 추정한 값인 추정값 $\hat{i}$의 차이를 오차(error) 또는 잔차(residual) 이라고 부릅니다. $e_{i}=y_{i}-\hat{y}_{i}$ 성질1) 잔차의 합은 0이다. 최대우도법과 오차항가정 직접법에서 오차항의 평균을 0으로 가정했으므로,.. 2021. 4. 17.
[회귀분석] 10. 세 방법의 회귀계수 추정 결과가 같다는 것 지난시간까지 세가지 방법을 이용하여 회귀계수를 추정해보았습니다. 세가지 방법을 비교하면 아래와 같습니다. 최소제곱법 최대우도법 오차항 가정 직접법 개념 오차항의 제곱의 합이 최소가 되도록 회귀계수를 정함 표본의 발생확률이 최대가 되도록 회귀계수를 정함 두가지 가정 하에서 평균과 공분산을 구하는 과정에서 회귀계수가 구해짐. 가정 가정 없음 - 오차항의 평균이 0인 정규분포를 따른다. - 오차항들은 서로 독립이다. - 오차항의 평균은 0이다. - 오차항과 예측변수 x는 독립이다. 결과 세 방법의 결과가 같다는 것이 어떤 의미인지 생각해봅시다. 오차항의 제곱이 최소가 되도록 만든 회귀계수와, 오차항이 평균이 0인 정규분포를 따른다고 가정하고 우도를 최대로 만든 회귀계수와, 오차항의 평균이 0이라고 가정하고 구.. 2021. 4. 10.
[회귀분석] 9. 오차항 가정 직접법을 이용한 회귀계수 추정 회귀계수를 추정하는 방법은 아래 그림과 같이 세가지가 있습니다. 최소제곱법과 최대우도법은 지난 글들에서 이미 공부한 상태입니다. 오늘은 세번째 방법인 '오차항 가정 직접법' 에 대해 알아봅시다. 오차항 가정 직접법 아래와 같은 데이터가 있다고 합시다. $(x_{1},y_{1})$ $(x_{1},y_{1})$ $...$ $(x_{n},y_{n})$ 선형모델을 아래와 같이 가정합시다. $y=\beta_{0}+\beta_{1}x+\varepsilon$ 두가지 가정을 하겠습니다. - 오차항의 평균은 0이다. - 오차항과 예측변수 x는 서로 독립이다. 선형모델의 양변의 기댓값을 구하면 아래와 같습니다. $E(y)=E(\beta_{0}+\beta_{1}x+\varepsilon)$ 우변을 아래와 같이 분리해서 써줍시.. 2021. 4. 3.
[회귀분석] 8. 최대우도법을 이용한 회귀계수 추정 일반화 회귀계수를 추정하는 방법은 아래 그림과 같이 세가지가 있습니다. 지난시간에는 최대우도법의 예시를 풀어보며 최대우도법에 대한 감을 잡아보았습니다. 이번 글에서는 최대우도법을 이용하여 회귀계수를 구하는 방법을 일반화해봅시다. (최대우도법 예시) → (일반화) 최소제곱법 일반화 아래와 같은 데이터가 있다고 합시다. $(x_{1},y_{1})$ $(x_{1},y_{1})$ $...$ $(x_{n},y_{n})$ 선형모델을 아래와 같이 가정합시다. $y=\beta_{0}+\beta_{1}x+\varepsilon$ 오차항의 평균을 0, 분산을 $\sigma^2$인 정규분포를 따른다고 가정하겠습니다. 오차항에 대해 정리하면 아래와 같습니다. $\varepsilon=y-\beta_{0}-\beta_{1}x$ 정규분포 .. 2021. 3. 26.
[회귀분석] 7. 최대우도법을 이용한 회귀계수 추정 예시 회귀계수를 추정하는 방법은 아래 그림과 같이 세가지가 있습니다. 지난시간까지 최소제곱법을 배웠습니다. 오늘은 최대우도법을 배워봅시다. 간단한 예시를 통해 감을 먼저 잡고 나서 일반화시키도록 하겠습니다. (최대우도법 예시) → (일반화) 최대우도법 예시 A회사의 3년간 광고비(X)와 매출액 자료는 아래와 같습니다. 단위는 억원이라고 합시다. (1,5) (2,7) (3,9) 선형모델을 아래와 같이 가정합시다. $y=\beta_{0}+\beta_{1}x+\varepsilon$ 오차항의 평균을 0, 분산을 $\sigma^2$인 정규분포를 따른다고 가정하겠습니다. 오차항에 대해 정리하면 아래와 같습니다. $\varepsilon=y-\beta_{0}-\beta_{1}x$ 정규분포 함수는 아래와 같이 정의하겠습니다... 2021. 3. 26.
[회귀분석] 6. 최소제곱법을 이용한 회귀계수 추정 일반화 회귀계수를 추정하는 방법은 아래 그림과 같이 세가지가 있습니다. 지난 강의에서 최소제곱법의 예시를 공부했습니다. 오늘은 최소제곱법을 이용한 회귀계수 계산 방법을 일반화해보겠습니다. (최소제곱법 예시) → (일반화) 최소제곱법 일반화 아래와 같은 데이터가 있다고 합시다. $(x_{1},y_{1})$ $(x_{1},y_{1})$ $...$ $(x_{n},y_{n})$ 선형모델을 아래와 같이 가정합시다. $y=\beta_{0}+\beta_{1}x+\varepsilon$ 오차에 대해 위 식을 정리하면 아래와 같습니다. $\varepsilon=y- \beta_{0}-\beta_{1}x$ 위 데이터를 대입하면 오차들은 각각 아래와 같습니다. $\varepsilon_{1}=y_{1}-\beta_{0}-\beta_{1.. 2021. 3. 25.
[회귀분석] 5. 최소제곱법을 이용한 회귀계수 추정 예시 회귀계수를 추정하는 방법은 아래 세가지가 있습니다. 최소제곱법을 먼저 배워볼 거구요. 간단한 예시를 통해 감을 먼저 잡고 나서 일반화시키도록 하겠습니다. (최소제곱법 예시) → (일반화) 최소제곱법 예시 A회사의 3년간 광고비(X)와 매출액 자료는 아래와 같습니다. 단위는 억원이라고 합시다. (1,5) (2,7) (3,9) 선형모델을 아래와 같이 가정합시다. $y=\beta_{0}+\beta_{1}x+\varepsilon$ 오차에 대해 위 식을 정리하면 아래와 같습니다. $\varepsilon=y-\beta_{0}-\beta_{1}x$ 위 데이터를 대입하면 오차들은 각각 아래와 같습니다. $\varepsilon_{1}=5-\beta_{0}-\beta_{1}$ $\varepsilon_{2}=7-\beta_.. 2021. 3. 25.
[회귀분석] 4. 회귀 계수의 추정의 세가지 방법 단순 선형회귀분석은 두 변수 X,Y의 관계를 잘 나타낼 수 있는 선형 모델을 찾는 것입니다. 이 모델을 찾는다는 것은 아래 수식에서 $\beta_{0}$와 $\beta_{1}$라는 계수를 추정하는 것입니다. $y=\beta_{0}+\beta_{1}x+\varepsilon $ 회귀계수를 추정하는 방법은 세가지가 있습니다. 최소제곱법, 최대우도법, 오차항 가정 직접법 입니다. 오차항 가정 직접법은 제가 붙인 이름입니다. 여기서는 세 방법을 간단히 소개하고, 다음 시간부터 직접 수식을 유도해보며 공부해봅시다. 최소제곱법 최소제곱법은 실제 y값과 모델에서 얻은 추정값 $b_{0}+b_{1}x$ 사이의 차이인 오차항 $\varepsilon$ 을 이용합니다. $\varepsilon = y-(\beta_{0}+\be.. 2021. 3. 25.
[회귀분석] 3. 단순 선형 회귀분석 소개 회귀분석의 목적은 우리가 관심이 있는 결과변수들에 영향을 주는 예측변수들을 찾고, 예측변수들과 결과변수들의 관계를 나타내는 모델을 만드는 것입니다. 보통 결과변수는 하나로 놓습니다. 예측변수들을 ${X_{1},X_{2},...,X_{n}}$이라고 놓고 결과변수를 Y라고 놓았을 때, 둘의 관계를 잘 표현해주는 함수(혹은 모델)을 찾는 것입니다. 단순 선형 회귀분석은 예측변수와 결과변수가 1개이고, 차수는 1차인 모델을 이용하는 회귀분석입니다. 따라서 아래와 같이 일차식으로 표현됩니다. $y=f(x)+\varepsilon=\beta_{0}+\beta_{1}x+\varepsilon $ 위 수식을 선형회귀모델 이라고 부릅니다. $y$는 관측값이고, $f(x)$는 예측값입니다. 이때 오차는 (관측값-예측값)입니다.. 2021. 3. 22.
[수리통계학] #29. 누적분포함수 예시 한가지 실험을 가정하고 누적분포함수를 직접 만들어봅시다. 아래와 같은 실험입니다. 실험 : 동전을 3번 던짐 표본공간 : {HHH,HHT,HTH,THH,TTH,THT,HTT,TTT} 확률변수 : 앞면이 나온 횟수 확률변수표 X P(X) 0 $\frac{1}{8}$ 1 $\frac{3}{8}$ 2 $\frac{3}{8}$ 3 $\frac{1}{8}$ 누적분포함수를 그려봅시다. 누적분포함수의 정의는 아래와 같습니다. $F_{X}(x)=P(X \leq x)=\sum_{x_{i}\leq x}^{}p(x)$ 따라서 누적분포함수는 아래와 같습니다. $F_{X}(x)=\left \{ \begin{matrix} 0 & (-\infty 2021. 3. 15.
[회귀분석] 2. 회귀분석의 종류 회귀분석은 여러 기준에 따라 여러 종류로 분류됩니다. (아래 도표 참고) 1) 예측변수의 종류 회귀분석 : 수치형 자료를 다룸 로지스틱 회귀분석 : 범주형 자료를 다룸 2) 예측변수의 개수 단순 회귀분석 : 독립변수 1개 다중 회귀분석 : 독립변수 2개 이상 3) 종속변수의 개수 단변량 회귀분석 : 반응변수 1개 다변량 회귀분석 : 반응변수 2개 이상 4) 모델의 차수 선형회귀분석 : 1차식 모델 사용 비선형회귀분석 : 2차식 이상의 모델 사용 도표로 정리하면 아래와 같습니다. (클릭해서 보세요) 단순 선형 단변량 회귀분석을 줄여서 '단순 선형 회귀분석'이라고 부릅니다. 다중 선형 단변량 회귀분석을 줄여서 다중 선형 회귀분석 이라고 부릅니다. 회귀분석에서는 단순 선형 회귀분석과 다중 선형 회귀분석이 주로.. 2021. 3. 12.
[회귀분석] 1. 회귀분석이란 무엇인가 회귀분석은 변수들 사이의 관계를 '모델링'하는 기법입니다. 여러 분야에서 가장 광범위하게 사용되는 통계기법중 하나입니다. 회귀분석의 목적은 우리가 관심이 있는 종속변수들에 영향을 주는 독립변수들을 찾고, 독립변수들과 종속변수들의 관계를 나타내는 모델을 만드는 것입니다. 보통 결과변수는 하나로 놓습니다. 독립변수들을 ${X_{1},X_{2},...,X_{n}}$이라고 놓고 종속변수를 Y라고 놓았을 때, 둘의 관계를 잘 표현해주는 함수(혹은 모델)을 찾는 것입니다. 보통 회귀분석이라고 하면 '선형 회귀분석'을 의미합니다. 선형회귀분석의 모델은 아래와 같습니다. $Y=\beta _{0}+\beta _{1}X_{1}+\beta _{2}X_{2}+...+\beta _{n}X_{n}+\varepsilon $ 회귀분.. 2021. 3. 12.
[수리통계학] #28. 누적분포함수 누적분포함수 누적분포함수는 아래와 같이 정의됩니다. $F_{X}=P(X \leq x)$ 누적분포함수의 함수값은 확률을 나타냅니다. 확률변수 X가 누적분포함수의 입력값 x보다 같거나 작을 확률입니다. 이산확률변수의 누적분포함수 이산확률변수의 누적분포함수값은 아래와 같이 계산됩니다. $p(x)$는 확률변수 X의 확률질량함수입니다. $F_{X}(x)=P(X \leq x)=\sum_{x_{i}\leq x}^{}p(x)$ 변수가 x보다 작은 경우의 확률을 모두 더하면 됩니다. 연속확률변수의 누적분포함수 연속확률변수의 누적분포함수값은 아래와 같이 계산됩니다. $f(x)$는 확률변수 X의 확률밀도함수입니다. $F_{X}(x)=P(X \leq x)=\int_{-\infty }^{x}f(x)$ 2021. 3. 11.
[수리통계학] #27. 확률밀도함수 표본공간을 S라고 놓겠습니다. 어떤 실험을 했고, 발생한 사건들의 집합이 표본공간입니다. 이 실험에서 확률변수 X를 정의했고, X가 가질 수 있는 값은 아래와 같다고 합시다. X는 연속확률변수입니다. $X=\left \{ a\leq x\leq b \right \}$ 확률변수와 확률변수가 발생할 확률을 연결하는 함수를 정의할 수 있습니다. 이를 확률함수라고 합니다. 확률변수 → (확률함수) → 확률 연속확률변수의 확률함수는 연속함수입니다. 이때는 함수 값이 확률이 아니라 함수의 면적이 확률이 됩니다. 따라서 확률함수 $f_{X}(x)$는 아래와 같이 정의됩니다. $P[(a,b)]=P[\left \{ c \in S:a 2021. 3. 10.
[수리통계학] #26. 확률질량함수 확률질량함수 표본공간 S가 아래와 같다고 합시다. 어떤 실험을 했고, 발생한 사건들의 집합입니다. $S=\left \{ c_{1},c_{2},...,c_{n} \right \}$ 이 실험에서 확률변수 X를 정의했고, X가 가질 수 있는 값은 아래와 같다고 합시다. $X=\left \{ x_{1},x_{2},...,x_{m} \right \}$ 이때 확률변수 $x_{i}$와 이 확률변수가 발생할 확률을 연결하는 함수를 정의할 수 있습니다. 이 함수를 확률함수라고 부릅니다. 확률변수 → (확률함수) → 확률 확률변수가 이산확률변수인 경우에는 이러한 확률함수를 확률질량함수라고 부릅니다. 연속확률변수인 경우는 확률밀도함수라고 부르는데 다음 글에서 다루겠습니다. 이산확률변수의 확률함수 : 확률질량함수 연속확률변수.. 2021. 3. 8.
[수리통계학] #25. 이산확률변수, 연속확률변수 표본공간의 원소인 사건(event)과 실수(real number)를 연결하는 함수가 확률변수였습니다. 사건 → (확률변수) → 실수(real number) 확률변수는 크게 둘로 나뉩니다. 셀 수 있는 이산확률변수가 있고, 셀 수 없는 연속확률변수가 있습니다. 이산확률변수 : 셀 수 있음 연속확률변수 : 셀 수 없음 여기서 셀수 있음과 없음은 '개수'와는 무관합니다. 번호 붙여 셀 수 있는지 여부를 말하는 것입니다. 예를들어 자연수의 집합은 개수가 무한하지만 셀 수 있는 집합입니다. (셀수 있음과 관련된 내용은 링크 영상 참고) 이산확률변수 예시 이산확률변수를 예로 들면 주사위를 던질 때 나오는 눈의 값이 있습니다. 사건 : 주사위 던짐 표본공간 : {1,2,3,4,5,6} 확룰변수 : 눈의 값 확률변수는.. 2021. 3. 5.
[수리통계학] #24. 확률변수의 정의 확률변수는 영어로 random variable 입니다. 사실 random variable 이라는 단어에는 '확률'이 이라는 말이 없습니다. 확률변수의 교과서적인 정의를 먼저 이야기하고 나서 예시를 통해 설명을 하겠습니다. 정의 (Definition) 확률변수는 표본공간(S)에서 실수로 정의된 함수이다. $X:S\rightarrow \mathbb{R}$ 표본공간의 원소 c에 대하여 실수값 X(c)를 대응시킨다. 실험을 했고 사건이 발생했습니다. 각 사건을 어떤 '실수 값'에 대응시키는 함수가 확률변수입니다. 예시를 통해 확률변수를 이해해봅시다. 확률변수를 정의할 때는 실험이 먼저 정의되어야 합니다. 실험을 정하고, 확률변수를 정의하면 됩니다. 예제1) 동전을 세번 던질 때, 앞면이 나온 수 실험 : 동전 .. 2021. 3. 2.
반응형