반응형 전체 글645 [분위수의 이해] 1. 상자수염그림 쉽고 자세한 설명 상자수염그림은 아래와 같은 그래프를 말합니다. 살충 스프레이 종류와 곤충 수 데이터를 사용하여 그린 상자수염그림입니다. R이라는 통계프로그램에서 제공하는 내장데이터입니다. x축이 살충 스프레이 종류이고, y축이 곤충 수 입니다. 스프레이는 A,B,C,D,E,F 의 6종류입니다. 각 스프레이당 12번씩 실험을 했습니다. 곤충 수는 살아 남은 곤충 수 인지, 죽은 곤충 수 인지 나와있지 않아서 죽은 곤충 수라고 가정합시다. 데이터의 일부를 살펴보면 아래와 같습니다. > InsectSprays count spray 1 10 A 2 7 A 3 20 A 4 14 A 5 14 A 6 12 A 7 10 A 8 23 A 9 17 A 10 20 A 11 14 A 12 13 A 13 11 B 14 17 B 15 21 B .. 2022. 7. 9. [수리통계학] #39. 특성함수가 항상 존재함을 증명 어떤 확률변수 X의 확률밀도함수가 f(x) 일 때, 특성함수는 아래와 같이 정의됩니다. $\varphi_{X}(t)=\int_{-\infty}^{\infty}e^{itX}f(x)dx$ 양변에 절댓값을 씌워줍시다. $\left | \varphi_{X}(t) \right |=\left | \int_{-\infty}^{\infty}e^{itX}f(x)dx \right |$ 아래 부등식이 성립합니다. 복소해석학 내용입니다. 증명은 글 맨 아래 첨부한 링크를 참고하세요. $\left | \varphi_{X}(t) \right |=\left | \int_{-\infty}^{\infty}e^{itX}f(x)dx \right |\leq \int_{-\infty}^{\infty}\left | e^{itX}f(x) \ri.. 2022. 7. 6. [수리통계학] #38. 특성함수가 같으면 같은 분포일까? (유일성) 두 확률변수 X와 Y가 있다고 합시다. 두 확률변수의 누적분포함수는 $F_{X}(x)$ 와 $F_{Y}(y)$ 라고 놓겠습니다. 두 확률변수의 확률밀도함수는 $f_{X}(x)$ 와 $f_{Y}(y)$ 라고 놓겠습니다. 두 확률변수의 특성함수는 $\varphi_{X}(t)$ 와 $\varphi_{Y}(t)$ 라고 놓겠습니다. 이때 아래 성질이 성립합니다. 1. 두 함수의 누적분포함수가 같으면 특성함수도 같다. 2. 두 함수의 특성함수가 같으면 누적분포함수도 같다. 1번 성질은 쉽게 증명할 수 있습니다. 누적분포함수가 같으면 확률밀도함수가 같습니다. 특성함수는 아래와 같이 확률밀도함수에 의해서만 결정됩니다. $\varphi_{X}(t)=E[e^{itx}]=\int_{-\infty}^{\infty} e^{it.. 2022. 7. 6. [수리통계학] #37. 특성함수 특성함수는 확률밀도함수에 퓨리에변환을 적용한 것입니다. 아래와 같이 정의됩니다. 그리스어 phi 를 기호로 사용합니다. 비교를 위해 적률생성함수도 나란히 써보겠습니다. $\varphi_{X}(t)=E\left [ e^{itX} \right ]=\int_{-\infty}^{\infty}e^{itx}f(x)dx$ $M_{X}(t)=E\left [ e^{tX} \right ]=\int_{-\infty}^{\infty}e^{tx}f(x)dx$ 특성함수는 적률생성함수에서 t자리에 it 가 대신 들어간 것입니다. 적률생성함수처럼 특성함수도 확률밀도함수마다 고유합니다. 두 확률변수의 특성함수가 같다면 확률밀도함수도 같습니다. 둘의 결정적인 차이는 다음과 같습니다. 특성함수는 적률생성함수와 달리 모든 확률분포에 대해 .. 2022. 7. 6. 기댓값이 무한대인 확률변수 어떤 확률변수의 기댓값이 무한대일 수 있을까요? 직관적으로 상상은 잘 되지 않지만 존재합니다. 아래 확률분포를 봅시다. $f(x)=\left\{\begin{matrix} \frac{1}{x^2} & 1 2022. 7. 6. [수리통계학] #36. 적률생성함수가 존재하지 않는 경우 모든 확률분포에서 적률생성함수가 존재하는 것은 아닙니다. 적률생성함수가 존재하지 않는 확률분포도 있습니다. 반면 다음 시간에 배울 특성함수는 모든 확률분포에서 존재합니다. 적률생성함수가 존재하지 않는 확률분포 예시는 아래와 같습니다. $f(x)=\frac{1}{\pi}\frac{1}{x^2+1}$ 확률변수 X는 연속확률변수이고 범위는 모든 실수입니다. 위 확률분포는 Cauchy 분포입니다. Cauchy 분포의 일반형은 아래와 같습니다. $f(x;x_{0},\gamma)=\frac{1}{\pi \gamma \left [ 1+\left ( \frac{x-x_{0}}{\gamma} \right )^2 \right ]}$ Cauchy 분포에서 $x_{0}$ 이 0이고, $\gamma$가 1인 경우입니다. $f(.. 2022. 7. 6. [수리통계학] #35. 적률생성함수가 같은면 같은 분포일까 (유일성) 두 확률변수 X와 Y가 있다고 합시다. 두 확률변수의 누적분포함수는 $F_{X}(x)$ 와 $F_{Y}(y)$ 라고 놓겠습니다. 두 확률변수의 확률밀도함수는 $f_{X}(x)$ 와 $f_{Y}(y)$ 라고 놓겠습니다. 두 확률변수의 적률생성함수는 $M_{X}(t)$ 와 $M_{Y}(t)$ 라고 놓겠습니다. 이때 아래 성질이 성립합니다. 1. 두 함수의 누적분포함수가 같으면 적률생성함수도 같다. 2. 두 함수의 적률생성함수가 같으면 누적분포함수도 같다. 1번 성질은 쉽게 증명할 수 있습니다. 누적분포함수가 같으면 확률밀도함수가 같습니다. 적률생성함수는 아래와 같이 확률밀도함수에 의해서만 결정됩니다. $M_{X}(t)=E[e^{tx}]=\int_{-\infty}^{\infty} e^{tx}f(x)dx$ 따라.. 2022. 7. 6. [수리통계학] #34. 적률생성함수란 무엇인가 적률생성함수는 적률을 생성하는 함수입니다. 적률은 아래와 같이 정의됩니다. $E[X^n]$ 적률은 확률변수의 거듭제곱의 기댓값입니다. 적률에는 차수가 있습니다. 위 적률은 n차 적률입니다. 적률생성함수는 미분을 이용하여 간편하게 적률을 구할수 있게 해주는 함수입니다. 확률변수 X의 적률생성함수는 아래와 같이 정의됩니다. $e^{tx}$의 기댓값입니다. $M_{X}(t)=E[e^{tx}]$ 확률변수가 이산확률변수라면 아래와 같이 계산됩니다. $M_{X}(t)=E[e^{tx}]=\sum e^{tx}p(x)$ 확률변수가 연속확률변수라면 아래와 같이 계산됩니다. $M_{X}(t)=E[e^{tx}]=\int_{-\infty}^{\infty} e^{tx}f(x)dx$ 변수는 X가 아니라 t입니다. X는 적분이되어 .. 2022. 7. 4. [수리통계학] #33. 연속확률변수의 변수변환 (일대일 대응) 연속확률변수 $X$와 $Y$가 있습니다. 확률변수 $X$의 분포함수는 알고 있는 상황입니다. 또한 $Y=g(X)$ 라는 함수도 알고 있고 $X$와 $Y$는 일대일 대응이라고 가정합시다. 이때 $Y$의 분포함수를 구하는 방법입니다. 알고 있는 것 : $X$의 분포함수 $f_{X}(x)$, $Y=g(X)$ 조건 : $X$와 $Y$는 일대일 대응 구해야 하는 것 : $Y$의 분포함수 $f_{Y}(y)$ $X$와 $Y$가 일대일 대응이므로 $g(X)$ 는 증가함수이거나 감소함수입니다. 두 경우로 나눠서 $f_{Y}(y)$ 구하는 방법을 알아봅시다. 1. $g(X)$ 가 증가함수인 경우 연속확률변수이므로 특정 값에서의 확률을 정의할 수는 없습니다. 따라서 누적분포함수를 이용하여 접근하겠습니다. 아래 등식에서 출발.. 2022. 6. 30. [수리통계학] #32. 이산확률변수의 변수변환 (일대일 대응) 이산확률변수 X와 Y가 있습니다. 확률변수 X의 분포함수는 알고 있는 상황입니다. 또한 $Y=g(X)$ 라는 함수도 알고 있고 X와 Y는 일대일 대응이라고 가정합시다. 이때 Y의 분포함수를 구하는 방법입니다. 알고 있는 것 : X의 분포함수, X와 Y의 관계함수 (Y=g(X)) 조건 : X와 Y는 일대일 대응 구해야 하는 것 : Y의 분포함수 아래 등식에서 출발합니다. $p_{Y}(y)=P[Y=y]$ 좌변의 $p_{y}(y)$는 확률변수 Y의 확률질량함수입니다. 우변은 확률변수 Y가 y일 확률입니다. $Y=g(X)$ 이므로 위 식을 아래와 같이 변형할 수 있습니다. $p_{Y}(y)=P[g(X)=y]$ $g(X)=y$ 는 $X=g^{-1}(y)$ 로 변형할수 있고, 둘의 발생확률은 당연히 같습니다. 따라.. 2022. 6. 30. [대푯값의 이해] 1. 평균과 중앙값의 발견 평균과 중앙값이 발견된 경로를 생각해봅시다. 아마 어떤 자료를 요약하는 과정에서 그 자료를 대표하는 값이 필요했고, 평균과 중앙값을 생각해냈을 것입니다. 더 나아가서 자료가 흩어진 정도를 알기 위해 분산, 표준편차, 중앙값절대편차 등을 생각했을 겁니다. 이것이 우리가 일반적으로 생각할 수 있는 발견 경로입니다. 이 글에서 다루려는 이야기는 우리가 일반적으로 생각할 수 있는 경로가 아닌 '측정'이라는 특수한 상황에서 평균과 중앙값이 발견된 과정을 다루려고 합니다. 무언가를 측정하는 상황을 가정합시다. 어떤 물체의 길이를 측정한다고 합시다. 측정 길이에는 참값이 존재할 것이지만, 측정 오차 때문에 측정 할 때마다 값이 조금씩 달라질 겁니다. 측정의 결과 아래와 같이 다섯개의 값이 얻어졌다고 해봅시다. 10,.. 2022. 6. 14. [손으로 푸는 통계 ver1.0] 91. 표본분산의 분포 시뮬레이션 (4) p값 비교 표본분산의 분포와 카이제곱분포를 비교하고 있습니다. $\frac{n-1}{\sigma^{2}}s^{2} \sim \chi^{2}_{n-1}$ 지난시간에는 누적분포함수를 비교했습니다. 모집단이 균등분포를 따르는 경우 표본을 아무리 크게 해도 표본분산의 분포와 카이제곱분포가 일치하지 않았습니다. 이번 글에서는 p값을 비교해봅시다. 정량적인 비교입니다. 비교 방법을 설명하겠습니다. 카이제곱분포의 좌측꼬리 p값이 0.05가 나오는 확률변수 값을 히스토그램에 적용하여 p값을 구합니다. 0.05와 구해진 p값을 비교하면 됩니다. 우측꼬리에서도 같은 방법으로 p값을 구합니다. 모집단의 종류, 표본의 크기를 바꿔가며 구했습니다. 히스토그램은 표본 10000개를 뽑아서 그렸습니다. 히스토그램을 그리고 해당 히스토그램에서.. 2022. 6. 13. [손으로 푸는 통계 ver1.0] 90. 표본분산의 분포 시뮬레이션 (3) 누적분포함수 비교 지난 글에서 표본분산의 분포를 히스토그램으로 그려보았습니다. 모집단을 설정하고 실제 표본을 뽑아서 그린 히스토그램과 표본크기에서 1을 뺀 자유도를 갖는 카이제곱분포 함수를 그렸다. 모집단이 균등분포를 따르는 경우 표본분산의 분포와 카이제곱분포는 잘 일치하지 않았습니다. 위에 그린 함수는 확률밀도함수인데요. 표본분산의 분포를 그릴 때 히스토그램 형태로 그려야 하기 때문에 구간 간격에 따라 모양이 조금씩 달라집니다. 누적분포함수로 그릴 경우 이러한 문제가 없어지기 때문에 누적분포함수로도 그려보려고 합니다. 실험 방법은 앞의 글과 동일합니다. 모집단은 네 가지 종류로 설정했습니다. 모집단1 : 1~10 의 자연수. 1:10으로 표기 모집단2 : 1~1000 의 자연수. 1:1000으로 표기 모집단3 : 표준정.. 2022. 6. 8. [손으로 푸는 통계 ver1.0] 89. 표본분산의 분포 시뮬레이션 (2) 뭔가 이상하다 아래는 지난시간에 그렸던 그래프입니다. 1~10의 자연수를 갖는 모집단에서 크기가 30인 표본을 뽑고, 표본분산의 분포를 그래프로 그린 것입니다. 더 정확히 말하면 아래 확률변수의 분포입니다. $\frac{n-1}{\sigma^{2}}s^{2}$ 오른쪽 그림은 29자유도의 카이제곱분포입니다. n이 커지면 표본분산의 그래프는 n-1 자유도 카이제곱분포를 따른다고 알려져 있습니다. 나란히 그려진 상태에서 보니 비슷해 보였는데요. 그래프를 겹쳐서 그려보니 이야기가 달라졌습니다. 많이 다릅니다. 겹쳐 그린 그래프로 다시 시뮬레이션을 해보려고 합니다. 모집단을 더 다양화했고 절차도 가다듬었습니다. 1. 배경 우리가 표본분산의 분포를 유도할 때 설정했던 두 가지 조건은 아래와 같습니다. 1) 표본평균의 분포가 정규.. 2022. 6. 6. [신뢰도와 신뢰구간의 이해] 4. 신뢰도가 높으면 좋은걸까? 신뢰도는 높을 수록 좋은걸까요? 의문을 해결하기 위해 수능 문제를 하나 가져왔습니다. 문제에서 표본의 크기는 100이고, 표본평균이 245, 표본표준편차가 20 입니다. 95% 신뢰도로 신뢰구간을 계산하면 아래와 같습니다. 모표준편차를 모르기 때문에 표본표준편차를 대신 사용합시다. 여기서 발생하는 오차에 대해서는 나중에 다루기로 합시다. $\bar{X}_{1} -1.96\cdot \frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar{X}_{1} +1.96\cdot \frac{\sigma}{\sqrt{n}}$ $245 -1.96\cdot \frac{20}{\sqrt{100}} \leq \mu \leq 245 +1.96\cdot \frac{20}{\sqrt{100}}$ $241.1 \.. 2022. 6. 3. 이전 1 ··· 7 8 9 10 11 12 13 ··· 43 다음 반응형