통계 강의95

$f(t)=\frac{\Gamma\left ( \frac{\nu+1}{2} \right )}{\sqrt{\nu \pi}\ \Gamma\left ( \frac{\nu}{2} \right )} \left ( 1+\frac{t^2}{\nu} \right )^{-\left ( \frac{\nu+1}{2} \right )}$ t분포의 모양을 결정하는 파라미터는

ν

$\nu$ 하나밖에 없습니다.

ν

$\nu$ 는 자유도입니다. 표본 크기가 n 인 경우 자유도

ν

$\nu$ 는 n-1입니.. 2023. 1. 14.

[통계 기호의 이해] 3. E[X] 는 함수가 아닙니다 기댓값 기호

E [X]

$E[X]$ 를 함수로 오해하시는 경우가 있습니다. 먼저 아래 질문에 답해보면서 오해하고 있는건 아닌지 확인해봅시다. Q) 확률변수 X의 확률 밀도함수를

f (x)

$f(x)$ 라고 한다면, 확률변수 X의 기댓값은 아래와 같이 계산됩니다.

E [X] = \int_{- \infty}^{\infty} x f (x) d x

$E[X]=\int_{-\infty}^{\infty}xf(x)dx$ 이때, 확률변수 3X의 기댓값을 아래와 같이 계산하는게 맞나요?

E [3 X] = \int_{- \infty}^{\infty} 3 x f (3 x) d x

$E[3X]=\int_{-\infty}^{\infty}3xf(3x)dx$ 정답은 '틀렸다' 입니다. 위와 같은 계산이 왜 틀렸는지 지금부터 알아봅시다.

E [X]

$E[X]$ 는 함수가 아니라 'X의 기댓값'을 기호로 나타낸 것입니다. X의 기댓값이라는 말을 매번 쓰기 귀찮으니

E [X]

$E[X]$ 로 표현하기로 한 것입니다. X의 기댓값이 구해지는 과정을 .. 2022. 9. 30.

[통계 적률의 이해] 16. 특성함수가 항상 존재하는 이유 적률생성함수가 존재하지 않는 경우에는 특성함수를 사용할 수 있습니다. 특성함수는 모든 확률분포에 대해 존재하기 때문입니다. 오늘은 정말 그러한지를 증명해봅시다. 먼저 특성함수가 존재한다는 의미가 무엇인지 짚고 넘어가겠습니다. 특성함수가 존재한다는 것은 t에 대한 특성함수 값이 유한하다는 의미입니다. 확률변수 X의 확률밀도함수가 f(x) 일 때, 특성함수는 아래와 같이 정의됩니다.

φ_{X} (t) = E [e^{i t x}] = \int_{- \infty}^{\infty} e^{i t X} f (x) d x

$\varphi_{X}(t)=E\left [ e^{itx} \right ]=\int_{-\infty}^{\infty}e^{itX}f(x)dx$ 양변에 절댓값을 씌워줍시다.

| φ_{X} (t) | = ∣ ∣ \int_{- \infty}^{\infty} e^{i t X} f (x) d x ∣ ∣

$\left | \varphi_{X}(t) \right |=\left | \int_{-\infty}^{\infty}e^{itX}f(x)dx \right |$ .. 2022. 9. 23.

[통계 기호의 이해] 2. P[X≤x] 형태의 부등식에 익숙해져야 하는 이유 우리는 지난시간에 아래 기호의 의미를 배웠습니다.

P [X = x]

$P[X=x]$ 이 기호는 확률변수 X가 어떤 값 x일 확률을 나타냅니다. 대문자 X는 확률 변수를 나타내구요. 소문자 x는 발생한 값을 나타냅니다. 그런데 이 표현은 모든 확률변수에 적용될 수 없습니다. 이 표현은 이산확률변수에만 적용 가능한 표현방법입니다. 연속확률변수는 x라는 값이 확률을 갖지 않습니다. 연속확률변수에서 각 값이 발생할 확률은 항상 0입니다. 연속확률변수는 확률 대신 확률 밀도 값을 갖습니다. 확률 밀도 값은 어떤 구간에 대해 적분했을 때 확률이 되는 값입니다. 표준 정규 분포를 예로 들겠습니다. 아래 그림을 봅시다. 표준정규분포 함수입니다. 표준정규분포의 함수값은 확률이 아닌 확률밀도입니다. 이 분포를 따르는 확률변수를 X라고 한다.. 2022. 9. 18.

[통계 적률의 이해] 14. 적률생성함수가 없는 분포도 있다 모든 확률분포에서 적률생성함수가 항상 존재하는 것은 아닙니다. 적률생성함수가 존재하지 않는 확률분포 도 있습니다. 오늘은 적률생성함수가 존재하지 않는 확률분포를 한가지 알아봅시다. 아래와 같은 확률분포인데요. Cauchy 분포의 일종입니다.

f (x) = \frac{1}{π} \frac{1}{x^{2} + 1}

$f(x)=\frac{1}{\pi}\frac{1}{x^2+1}$ Cauchy 분포의 일반형은 아래와 같습니다.

f (x; x_{0}, γ) = \frac{1}{π γ [1 + {(\frac{x - x_{0}}{γ})}^{2}]}

$f(x;x_{0},\gamma)=\frac{1}{\pi \gamma \left [ 1+\left ( \frac{x-x_{0}}{\gamma} \right )^2 \right ]}$ 위에서 소개한 분포는 Cauchy 분포에서

x_{0}

$x_{0}$ 이 0이고,

γ

$\gamma$ 가 1인 경우입니다. 지금부터 아래 분포의 적률생성함수를 구해봅시다. $f(x)=\frac{1.. 2022. 9. 12.

[통계 적률의 이해] 12. 정규분포의 첨도는 왜 3인가 우리는 10강에서 정규분포의 중심적률생성함수를 구했습니다. 아래와 같습니다.

M_{x - μ} (t) = e^{\frac{σ^{2} t^{2}}{2}}

$M_{x-\mu}(t)=e^{\frac{\sigma^{2}t^{2}}{2}}$ 11강에서는 정규분포의 중심적률생성함수로 구한 2,3차 중심적률을 이용하여 정규분포의 왜도를 구했습니다. 지난시간에 구한 2,3차 중심적률과 왜도는 아래와 같습니다.

μ_{2} = σ^{2}

$\mu_{2}=\sigma^{2}$

μ_{3} = 0

$\mu_{3}=0$

γ_{1} = \frac{μ_{3}}{{(μ_{2})}_{2}^{\frac{3}{2}}} = 0

$\gamma_{1}=\frac{\mu_{3}}{\left ( \mu_{2} \right )^{\frac{3}{2}}}=0$ 오늘은 정규분포의 중심적률함수를 이용해서 정규분포의 첨도를 계산해보려고 합니다. 첨도를 중심적률로 나타내면 아래와 같습니다.

κ = \frac{μ_{4}}{μ_{2}^{2}}

$\kappa=\frac{\mu_{4}}{\mu_{2}^2}$ 4차 중심적률을 .. 2022. 8. 7.

[손으로 푸는 통계 ver1.0] 101. 종강 및 이후계획 이로써 손으로 푸는 통계 강의가 완료되었습니다. 통계 기초부터 Z검정까지의 내용을 다뤘습니다. 제가 통계 공부를 시작하게 된 이유는 호기심 때문이었습니다. 회사에 와서 t검정을 갑자기 사용하게 되었고 어느 순간 t검정 사용에 익숙해져 있었습니다. 하지만 정작 t검정이 어떤 절차로 진행되는지 그 원리는 전혀 모른채 사용했습니다. 엑셀이나 SPSS에서 버튼 몇개를 클릭하거나 R이나 파이썬에서 간단한 코드를 입력하면 결과를 쉽게 출력할 수 있었습니다. 결과에서는 p값만 보면 됐습니다. 0.05보다 작으면 '유의차가 있다'고 판단했고 제 지식은 거기까지였습니다. 그러다 문득 t검정이 어떤 원리로 수행되는지 궁금했습니다. 그렇게 손으로푸는 통계라는 강의를 시작하게 되었습니다. 제가 궁금한 내용을 공부하기 위해 시.. 2022. 7. 22.

정규분포를 따르는 확률변수의 실수배 aX 의 분포 변수 X가 평균이

μ

$\mu$ 이고, 분산이

σ^{2}

$\sigma^{2}$ 인 정규분포를 따른다고 합시다. 기호로는 아래와 같이 나타냅니다.

X \sim N (μ, σ^{2})

$X \sim N \left( \mu,\sigma^{2} \right)$ 변수 X에 상수를 곱한 aX는 어떤 분포를 따르는지 알아봅시다. a는 양수라고 가정합시다. aX를 확률변수 Y라고 놓겠습니다.

Y = a X

$Y=aX$ Y의 누적분포함수는 아래와 같이 정의할 수 있습니다.

G (y) = P [Y \leq y]

$G(y)=P\left[ Y \leq y \right]$ aX=Y 를 이용하여 아래와 같이 변형합시다.

G (y) = P [a X \leq y]

$G(y)=P\left[ aX \leq y \right]$ a의 범위에 따라 둘로 나뉩니다. a가 양수인 경우 부등식의 양변을 a로 나눠줍니다. $G(y)=P\left[ X \leq \frac{y}{a} \righ.. 2022. 7. 16.

[손으로 푸는 통계 ver1.0] 90. 표본분산의 분포 시뮬레이션 (3) 누적분포함수 비교 지난 글에서 표본분산의 분포를 히스토그램으로 그려보았습니다. 모집단을 설정하고 실제 표본을 뽑아서 그린 히스토그램과 표본크기에서 1을 뺀 자유도를 갖는 카이제곱분포 함수를 그렸다. 모집단이 균등분포를 따르는 경우 표본분산의 분포와 카이제곱분포는 잘 일치하지 않았습니다. 위에 그린 함수는 확률밀도함수인데요. 표본분산의 분포를 그릴 때 히스토그램 형태로 그려야 하기 때문에 구간 간격에 따라 모양이 조금씩 달라집니다. 누적분포함수로 그릴 경우 이러한 문제가 없어지기 때문에 누적분포함수로도 그려보려고 합니다. 실험 방법은 앞의 글과 동일합니다. 모집단은 네 가지 종류로 설정했습니다. 모집단1 : 1~10 의 자연수. 1:10으로 표기 모집단2 : 1~1000 의 자연수. 1:1000으로 표기 모집단3 : 표준정.. 2022. 6. 8.

균등분포로 동전 던지기 확률, 주사위 던지기 확률 생성하기 균등분포를 이용하면 동전이나 주사위 확률 생성기를 만들 수 있습니다. 듣고 보면 간단하고 당연한 이야기 이긴 한데, 기억해 놓으면 어딘가 유용하게 써먹을 수 있을겁니다. 먼저 동전 확률을 만들어봅시다. 확률변수 X가 0~1 사이 값을 갖는 표준균등분포를 따른다고 할 때, 0~0.5 사이의 값이 나오면 앞면, 0.5~1 사이의 값이 나오면 뒷면이라고 놓으면 됩니다. $X = \begin{Bmatrix} head & 0 2021. 12. 31.

[손으로 푸는 통계 ver1.0] 79. aX가 정규분포를 다를 때, X도 정규분포를 따를까 변수 aX가 평균이

μ

$\mu$ 이고, 분산이

σ^{2}

$\sigma^{2}$ 인 정규분포를 따른다고 합시다. 기호로는 아래와 같이 나타냅니다.

a X \sim N (μ, σ^{2})

$aX \sim N \left( \mu,\sigma^{2} \right)$ aX의 확률밀도함수를 f(ax), 누적분포함수를 F(ax)라고 놓겠습니다. F(ax) 는 아래와 같이 정의됩니다. P[aX 2021. 11. 22.

[손으로 푸는 통계 ver1.0] 78. 표본분산이 정말 카이제곱분포 따르는거 맞아? 우리는 아래와 같이 좌변이 n-1 자유도 카이제곱분포를 따른다는 것을 유도했습니다.

\frac{n - 1}{σ^{2}} s^{2} \sim χ_{n - 1}^{2}

$\frac{n-1}{\sigma^{2}}s^{2} \sim \chi^{2}_{n-1}$ 그러고는 "표본분산이 카이제곱분포를 따른다"고 이야기했습니다. 어딘가 이상합니다. 좌변은 표본분산이 아니라 표본분산에 무언가 곱해진 변수입니다. 마치 3X가 정규분포를 따르는 것을 보고, X가 정규분포를 따른다고 하는 것과 같습니다. 일반화하면 아래 문제가 됩니다. "aX가 정규분포를 다를 때, X도 정규분포를 따를까?" 위 문제를 해결하고 나서 아래 문제를 해결하면 우리 의문은 해결됩니다. "aX가 카이제곱분포를 다를 때, X도 카이제곱분포를 따를까" 이어지는 강의에서 해결해봅시다. 2021. 9. 29.

코호트연구와 환자-대조군 연구의 비교 및 장단점 논문을 읽다보면 자주 등장하는 두가지 연구방법이 있습니다. 코호트연구(Cohort study)와 환자-대조군연구(Case-control study)입니다. 먼저 연구는 크게 '관찰연구'와 '실험연구'로 나뉘는데, 위 두 연구 모두 '관찰연구'에 속합니다. 관찰연구는 연구자가 원인이 되는 요소들을 통제하지 않는 것을 말합니다. 실험자를 두 그룹으로 나누고, 한 그룹에게는 담배를 피게 하고 다른 그룹은 피지 않게 하는 것은 '관찰연구'가 아니라 '실험연구'입니다. 원인이 되는 요소를 통제했기 때문입니다. 코호트연구는 다시 전향적코호트연구(Prospective cohort study)와 후향적 코호트 연구(Retrospective cohort study)로 나뉩니다. 따라서 오늘 알아볼 연구방법은 아래의 세가.. 2021. 8. 31.

[왜도의 이해] 2. 피어슨의 정의 아래 목차로 진행하고 있습니다. 두번째 글입니다. 1. 왜도란 무엇인가? 2. 피어슨의 정의 3. 왜도의 부호 4. 왜도와 적률 5. 왜도와 누율 6. 평균, 중앙값, 최빈값의 위치 7. 왜도 0이면 항상 대칭일까? 8. 표본의 왜도 9. 또 다른 정의들 피어슨은 왜도를 아래와 같은 수식으로 정의했습니다.

γ_{1} = E [{(\frac{X - μ}{σ})}^{3}]

$\gamma _{1}=E \left [ \left ( \frac{X- \mu}{\sigma} \right )^{3} \right ]$ 피어슨은 이 수식을 어떤 과정에 의해 떠올리게 되었을까요? 분산이 편차의 제곱의 기댓값이니 편차의 세제곱의 기댓값은 쉽게 떠올릴 수 있습니다.

E [{(X - μ)}^{3}]

$E \left [ \left ( X- \mu \right )^{3} \right ]$ 평균으로 부터 우측에 있는 확률변수로 .. 2021. 8. 9.

[왜도의 이해] 1. 왜도란 무엇인가? 어떤 집단의 특성을 나타내는 대표적인 통계량이 평균과 분산인데요. 그 외에도 왜도와 첨도가 있습니다. 이번 강의에서는 왜도가 무엇인지 공부해보려고 합니다. 아래는 예상 목차입니다. 1. 왜도란 무엇인가? 2. 피어슨의 정의 3. 왜도의 부호 4. 왜도와 적률 5. 왜도와 누율 6. 평균, 중앙값, 최빈값의 위치 7. 왜도 0이면 항상 대칭일까? 8. 표본의 왜도 9. 또 다른 정의들 왜도의 왜는 기울(왜)입니다. 왜도는 '기울어진 정도'입니다. 비대칭도 라도고 부릅니다. 어떤 확률분포가 한쪽으로 기울어진 정도를 나타냅니다. 왜도를 수학적으로 정의하기 전에 그래프들을 이용하여 왜도에 대한 개념을 잡아봅시다. 1) A와 B를 비교해 봅시다. A와 B는 완벽한 대칭입니다. 비대칭도를 얼마로 놓으면 될까요? 비.. 2021. 8. 8.

[손으로 푸는 통계 ver1.0] 64. 표본분산의 분포 유도 (29) 감마 1/2 계산하기 감마함수 적분형을 이용하여

Γ (\frac{1}{2})

$\Gamma \left ( \frac{1}{2} \right)$ 을 계산해봅시다. 지난 60강에서

\frac{1}{2}!

$\frac{1}{2}!$ 이

\frac{\sqrt{π}}{2}

$\frac{\sqrt{\pi}}{2}$ 인 것을 증명했었는데요. 이 결과와도 비교해봅시다. 감마함수 적분형은 아래와 같습니다.

Γ (z) = \int_{0}^{\infty} t^{z - 1} e^{- t} d t

$\Gamma (z)=\int_{0}^{\infty}t^{z-1}e^{-t}dt$

Γ (\frac{1}{2})

$\Gamma (\frac{1}{2})$ 계산하기 위해 z에 1/2 을 대입합시다.

Γ (\frac{1}{2}) = \int_{0}^{\infty} t^{- \frac{1}{2}} e^{- t} d t

$\Gamma \left ( \frac{1}{2} \right)=\int_{0}^{\infty}t^{-\frac{1}{2}}e^{-t}dt$ t를

x^{2}

$x^{2}$ 으로 치환합시다.

$\begin{align} t&=x^{2}\\ dt&=2xdx \end{align}$ .. 2021. 8. 1.

[손으로 푸는 통계 ver1.0] 63. 표본분산의 분포 유도 (28) 감마함수 적분형의 재귀적 성질 우리는 감마함수 무한곱형과 감마함수 적분형을 둘 다 유도했습니다. 아래와 같습니다.

$\Gamma (z)=\frac{1}{z}\prod_{m=1}^{\infty }\frac{1}{\left ( 1+\frac{z}{m} \right )}\cdot \left ( 1+\frac{1}{m} \right )^{z}$

$\Gamma (z)=\int_{0}^{\infty}t^{z-1}e^{-t}dt$ 두 함수는 완전히 동일하다고 합니다. 감마함수 적분형을 이용하여 무한곱형을 유도할 수 있고, 반대도 가능합니다. 이를 동치관계라고 하는데, 동치관계인 것을 보이지는 않겠습니다. 어렵고 길 것 같아 패스합니다. 감마함수 무한곱형에서 제귀적 성질이 성립한다는 것도 보였습니다.

$\Gamma (z+1)=z\Gamma (z)$ .. 2021. 8. 1.

[손으로 푸는 통계 ver1.0] 61. 표본분산의 분포 유도 (26) 팩토리얼과 적분의 연결 우리는 지난시간에 이분의일 팩토리얼이 루트 파이임을 증명했습니다.

$\frac{1}{2}!=\frac{\sqrt{\pi}}{2}$ 오일러는 이 결과에 영감을 받아 팩토리얼이 적분과 관련이 있을 것이라고 생각하게 되고, 아래 적분을 떠올립니다.

$\int_{0}^{1}x^{e}(1-x)^{n}dx$ 이 적분은 당시에 이미 알려져 있는 수식이었습니다. 왈리스, 뉴튼, 스털링이 이미 이 적분의 특수형을 다뤘었다고 합니다. 위 적분을 변형해서 팩토리얼이 포함된 식으로 바꿔보겠습니다. 아래와 같이 부분적분을 적용합니다. $\int_{0}^{1}x^{e}(1-x)^{n}dx=\left [ \frac{1}{e+1}x^{e+1}(1-x)^{n} \right ]^{1}_{0}-\int_{0}^{1} \frac{1}{e+.. 2021. 6. 19.

[손으로 푸는 통계 ver1.0] 60. 표본분산의 분포 유도 (25) 이분의일 팩토리얼이 이분의 루트 파이임을 증명 지난 시간에 우리는 왈리스공식을 유도했습니다. 아래와 같습니다.

$\frac{\pi}{2}=\prod_{n=1}^{\infty}\frac{4n^{2}}{4n^{2}-1}=\prod_{n=1}^{\infty}\left ( \frac{2n}{2n-1}\cdot \frac{2n}{2n+1} \right )= \left ( \frac{2}{1} \cdot \frac{2}{3}\right ) \left ( \frac{4}{3} \cdot \frac{4}{5}\right ) \left ( \frac{6}{5} \cdot \frac{6}{7}\right ) \left ( \frac{8}{7} \cdot \frac{8}{9}\right ) \cdots$ 이번 시간에는 왈리스공식과 오일러 무한곱을 이용하여 $\frac.. 2021. 6. 19.

[손으로 푸는 통계 ver1.0] 59. 표본분산의 분포 유도 (24) 왈리스 공식 유도3 (Wallis product) 지난 시간까지 유도한 재료들은 아래와 같습니다.