통계 강의95

기하분포의 두가지 정의와 각각의 분포함수, 평균, 분산 기하분포는 두가지 정의가 있습니다. 한가지씩 알아봅시다. 1. 확률변수가 시행횟수 베르누이 시행을 반복할 때, 처음 성공이 나오기까지 시행한 횟수를 확률변수 x로 할때의 확률분포입니다. 예를 들어 확률변수가 4일 때의 확률은 "실패-실패-실패-성공" 인 경우의 확률입니다. 확률분포, 기댓값, 분산은 아래와 같습니다.

P (x) = (1 - p)^{x - 1} p

$P(x)=(1-p)^{x-1}p$

E (X) = \frac{1}{p}

$E(X)=\frac{1}{p}$

V (X) = \frac{1 - p}{p^{2}}

$V(X)=\frac{1-p}{p^2}$ 2. 확률변수가 실패횟수 베르누이 시행을 반복할 때, 처음 성공이 나오기까지 실패한 횟수를 확률변수 x로 할때의 확률분포입니다. 이때는 확률변수 4의 확률이 "실패-실패-실패-실패-성공"의 확률이 됩니다.

P (x) = (1 - p)^{x} p

$P(x)=(1-p)^{x}p$

E (X) = \frac{1 - p}{p}

$E(X)=\frac{1-p}{p}$ $V(X.. 2021. 6. 6.

[신뢰도와 신뢰구간의 이해] 3. 예시 1 - 모집단과 표본추출 신뢰구간이 확률을 갖지 않는다는 것을 이해하기 위해 모집단에서 표본추출하는 예시를 하나 만들어봤습니다. 평균이 20이고, 표준편차가 10인 모집단이 있습니다. 여러분들은 모집단의 평균을 모르는 상황입니다. 모표준편차는 알려져 있습니다. 여러분들은 모평균을 모르기 때문에 표본을 뽑아서 모평균을 추정해야합니다. 크기가 100인 표본을 뽑았고, 표본평균을 구해보니 2가 나왔습니다. 95% 신뢰구간을 구해봅시다. 아래 식에 대입하면 됩니다.

{¯ X}_{1} - 1.96 \cdot \frac{σ}{\sqrt{n}} \leq μ \leq {¯ X}_{1} + 1.96 \cdot \frac{σ}{\sqrt{n}}

$\bar{X}_{1} -1.96\cdot \frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar{X}_{1} +1.96\cdot \frac{\sigma}{\sqrt{n}}$ 대입해서 계산하면 신뢰구간은 아래와 같습니다. $0.04 \leq \mu \l.. 2021. 5. 24.

[신뢰도와 신뢰구간의 이해] 2. 오해 풀기 신뢰구간에 대한 오해를 풀기 전에 신뢰구간이 어떻게 구해지는지 먼저 알아봅시다. 신뢰도를 정하고 신뢰구간을 구하는 이유는 모집단의 평균을 추정하기 위함입니다. 신뢰구간을 구하여 모집단의 평균을 추정하는 것을 구간추정이라고 합니다. 모집단에서 표본을 뽑아서 신뢰구간을 구하는 것이므로, 모집단에서 표본을 뽑는 상황을 가정합시다. 여기 모집단이 하나 있습니다. 모집단의 평균이 얼마인지는 모르고, 표준편차는 알고 있다고 가정합시다. 물론 이것은 아주 이상적인 가정입니다. 모집단의 평균은 모르는데 표준편차를 아는 경우는 실제로 없을겁니다. 일단 이상적인 가정에서 출발하고, 이후에 모집단의 표준편차도 모르는 경우 구간추정을 어떻게 하는지 다룰 것입니다. 모집단의 평균은

μ

$\mu$ , 표준편차는

σ

$\sigma$ 라고 .. 2021. 5. 20.

[신뢰도와 신뢰구간의 이해] 1. 흔히 하는 오해 신뢰도와 신뢰구간에 대한 내용은 고등학교 확률과 통계 과목에서 배웁니다. 자세한 내용은 뒤에서 다루기로 하고, 오늘은 신뢰도와 신뢰구간을 공부할 때 흔히 하는 오해에 대해 이야기해보려고 합니다. 평균이 얼마인지 모르는 모집단에서 크기가

n

$n$ 인 표본을 뽑았습니다. 표본 평균을 구하니

{¯ X}_{1}

$\bar{X}_{1}$ 였습니다. 모집단의 평균은

μ

$\mu$ , 모집단의 표준편차는

σ

$\sigma$ 라고 놓겠습니다. 놀랍게도, 모집단의 표준편차는 알려져 있는 상황입니다. 모평균을 구간추정할 때, 신뢰도 95%인 신뢰구간과 신뢰도 99%인 신뢰구간은 아래와 같습니다. $\bar{X}_{1} -1.96\cdot \frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar{X}_{1} +1.96\cdot \fr.. 2021. 5. 18.

비율검정 요약 z검정과 t검정은 모집단과 표본의 평균을 비교하거나, 두 표본의 평균을 비교할때 사용하는 검정입니다. 모집단과 표본 또는 두 표본의 비율을 비교하고 싶은 경우에 사용하는 방법은 비율검정입니다. 1. 단일표본 비율 검정 한가지 상황을 가정합시다. 모집단의 비율이

p_{0}

$p_{0}$ 로 알려져 있는 상황입니다. 정말 그러한지 확인하고 싶었고, 크기가 n인 표본을 뽑았습니다. 추출한 표본에서 구한 비율은

_{1}

$\hat{p_1}$ 라고 놓겠습니다. 표본비율을 나타내는 변수는

^p

$\hat{p}$ 라고 놓겠습니다. 이때 아래 등식이 성립합니다.

E (^p) = p_{0}

$E(\hat{p})=p_{0}$

V (^p) = \frac{n p_{0} q_{0}}{n^{2}}

$V(\hat{p})=\frac{np_{0}q_{0}}{n^2}$ 아래 조건이 만족하면

^p

$\hat{p}$ 의 분포는 정규분포를 따릅니다. $np_{0} .. 2021. 5. 14.

[손으로 푸는 통계 ver1.0] 57. 표본분산의 분포 유도 (22) 왈리스 공식 유도1 (Wallis product)

\frac{1}{2}!

$\frac{1}{2}!$ 이

\frac{\sqrt{π}}{2}

$\frac{\sqrt{\pi}}{2}$ 와 같음을 유도할 때 사용될 왈리스 공식은 아래와 같습니다. $\frac{\pi}{2}=\prod_{n=1}^{\infty}\frac{4n^{2}}{4n^{2}-1}=\prod_{n=1}^{\infty}\left ( \frac{2n}{2n-1}\cdot \frac{2n}{2n+1} \right )= \left ( \frac{2}{1} \cdot \frac{2}{3}\right ) \left ( \frac{4}{3} \cdot \frac{4}{5}\right ) \left ( \frac{6}{5} \cdot \frac{6}{7}\right ) \left ( \frac{8}{7} \cdot \frac{8}{9}\right ) \cdots.. 2021. 5. 11.

[손으로 푸는 통계 ver1.0] 55. 표본분산의 분포 유도 (20) 감마함수 무한곱형 유도과정 요약 우리는 지난시간까지 감마함수 무한곱형을 유도했습니다. 유도 결과는 아래와 같습니다.

Γ (z) = \frac{1}{z} \infty \prod m = 1 \frac{1}{(1 + \frac{z}{m})} \cdot {(1 + \frac{1}{m})}^{z}

$\Gamma (z)=\frac{1}{z}\prod_{m=1}^{\infty }\frac{1}{\left ( 1+\frac{z}{m} \right )}\cdot \left ( 1+\frac{1}{m} \right )^{z}$ 49~52강에 걸쳐 유도했는데요. 오늘은 그 과정을 간단히 요약해봅시다. 유도과정 요약 오일러는 아래 극한값을 발견합니다. $$ n!=\left [ \left ( \frac{2}{1} \right )^{n} \cdot \frac{1}{n+1} \right ] \left [ \left ( \frac{3}{2} \right )^{n} \cdot \frac{2}{n+2} \right ] \left [ .. 2021. 5. 10.

공분산이란 무엇인가 (정의와 의미) 역사적 정황을 정확히 알 수는 없지만 공분산은 분산에서 유래된 개념인 것 같습니다. 분산을 먼저 발견하고, 이후에 공분산을 떠올린 것입니다. 공분산은 공+분산인데, 여기서 공은 함께, 여럿을 뜻하는 공입니다. 공동체 할때 그 공입니다. 따라서 공분산은 여럿으로 구한 분산을 말합니다. 변수 하나로 구한 분산이 아니라 변수 여럿으로 구한 분산입니다. 결론부터 말하면 변수 '둘'로 구한 분산입니다. 분산의 정의 먼저 분산의 정의를 살펴봅시다. 어떤 변수 X의 분산은 아래와 같이 정의됩니다.

V (X) = E [{(X - E (X))}^{2}]

$V(X)=E\left [ \left ( X-E(X) \right )^2 \right ]$ X가 이산확률변수이고, 각 원소의 발생확률이 같은 경우 아래와 같이 구합니다. $V(X)=\frac{\sum_{i=1}^{n}(x_.. 2021. 4. 27.

[통계분석 언제 뭘 써야하나] 1. 큰그림 그려보기 통계를 처음 공부하기 시작했을 때, 언제 어떤 분석을 사용해야 할지 분류해 놓은 차트가 있으면 좋겠다고 생각했었습니다. 어느 정도 통계 지식이 쌓이면 만들어보겠다는 생각을 해왔는데, 이제 한번 도전해 보려고 합니다. 많은 분들이 다양한 방법으로 분류 해놓으시긴 했지만 자료는 많을 수록 좋으니까요. 통계분석 방법을 선택할 때 고려해야할 사항들이 많습니다. 정리해 보면 아래와 같습니다. - 분석의 목적 - 집단의 수 - 독립변수의 종류 - 종속변수의 종류 - 정규성 여부 - 등분산 여부 위 고려사항들에 따라 사용해야 하는 통계분석방법이 달라지게 됩니다. 오늘은 먼저 통계 분석의 목적에 따라 통계 분석방법들을 분류해보려고 합니다. 가장 큰 그림이 될 것입니다. 통계분석의 목적은 크게 네가지로 나뉩니다. - 비.. 2021. 3. 18.

모평균의 추정에서 흔히 하는 오해 신뢰구간 평균이

μ

$\mu$ 이고 표준편차가

σ

$\sigma$ 인 모집단에서 표본을 추출했습니다. 모평균과 모표준편차는 모르는 상태입니다. 표본평균을

{¯ X}_{1}

$\bar{X}_{1}$ 라고 합시다. 표본의 크기가충분히 크다면 중심극한정리에 의해 표본평균들은 정규분포를 따릅니다.

¯ X \sim N (μ, \frac{σ^{2}}{n})

$\bar{X} \sim N\left ( \mu,\frac{\sigma^2}{n} \right )$ 이때 모평균을 신뢰도 95%로 추정하면 신뢰구간은 아래와 같습니다.

{¯ X}_{1} - 1.96 \cdot \frac{σ}{n} \leq μ \leq {¯ X}_{1} + 1.96 \cdot \frac{σ}{n}

$\bar{X}_{1} -1.96\cdot \frac{\sigma}{n} \leq \mu \leq \bar{X}_{1} +1.96\cdot \frac{\sigma}{n}$ 흔한 오해 신뢰도 95%로 추정한 신뢰구간을 두고 흔히 하는 오해가 있습니다. 바로바로 아래와 같습니다. "모.. 2021. 3. 17.

상관계수가 0이라고 관계가 없는게 아니다 상관관계가 없다는 것은 '선형 관계'가 없다는 것입니다. 상관분석은 선형관계의 여부만을 고려하기 때문입니다. 예를들어 아래와 같은 관계는 포착할 수가 없는 것입니다. 위 그래프에서 X와 Y의 관계는 비선형관계입니다. 선형관계는 없지만 관계가 없다고 할 수는 없습니다. 2021. 3. 17.

[통계] 줄기-잎 그림 예시 줄기 잎 그림이 무엇인지 이해하고, 장점이 무엇인지를 알 수 있도록 준비한 예제입니다. 어떤 반 20명 학생들의 수학 점수가 아래와 같다고 합시다. 78, 72, 50, 95, 75, 51, 43, 80, 64, 83, 79, 32, 38, 55, 44, 86, 94, 30, 80, 44 이 점수를 줄기-잎 그림으로 나타내면 아래와 같습니다. 줄기 잎 도수 3 02 2 4 344 3 5 015 3 6 4 1 7 2589 4 8 0036 4 9 45 2 줄기-잎 그림을 이용하면 줄기의 변량을 한 눈에 파악할 수 있고, 도수도 한눈에 파악할 수 있습니다. 2021. 3. 16.

[수리통계학] #29. 누적분포함수 예시 한가지 실험을 가정하고 누적분포함수를 직접 만들어봅시다. 아래와 같은 실험입니다. 실험 : 동전을 3번 던짐 표본공간 : {HHH,HHT,HTH,THH,TTH,THT,HTT,TTT} 확률변수 : 앞면이 나온 횟수 확률변수표 X P(X) 0

\frac{1}{8}

$\frac{1}{8}$ 1

\frac{3}{8}

$\frac{3}{8}$ 2

\frac{3}{8}

$\frac{3}{8}$ 3

\frac{1}{8}

$\frac{1}{8}$ 누적분포함수를 그려봅시다. 누적분포함수의 정의는 아래와 같습니다.

F_{X} (x) = P (X \leq x) = \sum_{x_{i} \leq x} p (x)

$F_{X}(x)=P(X \leq x)=\sum_{x_{i}\leq x}^{}p(x)$ 따라서 누적분포함수는 아래와 같습니다. $F_{X}(x)=\left \{ \begin{matrix} 0 & (-\infty 2021. 3. 15.

[회귀분석] 2. 회귀분석의 종류 회귀분석은 여러 기준에 따라 여러 종류로 분류됩니다. (아래 도표 참고) 1) 예측변수의 종류 회귀분석 : 수치형 자료를 다룸 로지스틱 회귀분석 : 범주형 자료를 다룸 2) 예측변수의 개수 단순 회귀분석 : 독립변수 1개 다중 회귀분석 : 독립변수 2개 이상 3) 종속변수의 개수 단변량 회귀분석 : 반응변수 1개 다변량 회귀분석 : 반응변수 2개 이상 4) 모델의 차수 선형회귀분석 : 1차식 모델 사용 비선형회귀분석 : 2차식 이상의 모델 사용 도표로 정리하면 아래와 같습니다. (클릭해서 보세요) 단순 선형 단변량 회귀분석을 줄여서 '단순 선형 회귀분석'이라고 부릅니다. 다중 선형 단변량 회귀분석을 줄여서 다중 선형 회귀분석 이라고 부릅니다. 회귀분석에서는 단순 선형 회귀분석과 다중 선형 회귀분석이 주로.. 2021. 3. 12.

[회귀분석] 1. 회귀분석이란 무엇인가 회귀분석은 변수들 사이의 관계를 '모델링'하는 기법입니다. 여러 분야에서 가장 광범위하게 사용되는 통계기법중 하나입니다. 회귀분석의 목적은 우리가 관심이 있는 종속변수들에 영향을 주는 독립변수들을 찾고, 독립변수들과 종속변수들의 관계를 나타내는 모델을 만드는 것입니다. 보통 결과변수는 하나로 놓습니다. 독립변수들을

X_{1}, X_{2}, . . ., X_{n}

${X_{1},X_{2},...,X_{n}}$ 이라고 놓고 종속변수를 Y라고 놓았을 때, 둘의 관계를 잘 표현해주는 함수(혹은 모델)을 찾는 것입니다. 보통 회귀분석이라고 하면 '선형 회귀분석'을 의미합니다. 선형회귀분석의 모델은 아래와 같습니다.

$Y=\beta _{0}+\beta _{1}X_{1}+\beta _{2}X_{2}+...+\beta _{n}X_{n}+\varepsilon$ 회귀분.. 2021. 3. 12.

[수리통계학] #28. 누적분포함수 누적분포함수 누적분포함수는 아래와 같이 정의됩니다.

$F_{X}=P(X \leq x)$ 누적분포함수의 함수값은 확률을 나타냅니다. 확률변수 X가 누적분포함수의 입력값 x보다 같거나 작을 확률입니다. 이산확률변수의 누적분포함수 이산확률변수의 누적분포함수값은 아래와 같이 계산됩니다.

$p(x)$ 는 확률변수 X의 확률질량함수입니다.

$F_{X}(x)=P(X \leq x)=\sum_{x_{i}\leq x}^{}p(x)$ 변수가 x보다 작은 경우의 확률을 모두 더하면 됩니다. 연속확률변수의 누적분포함수 연속확률변수의 누적분포함수값은 아래와 같이 계산됩니다.

$f(x)$ 는 확률변수 X의 확률밀도함수입니다.

$F_{X}(x)=P(X \leq x)=\int_{-\infty }^{x}f(x)$ 2021. 3. 11.

[수리통계학] #27. 확률밀도함수 표본공간을 S라고 놓겠습니다. 어떤 실험을 했고, 발생한 사건들의 집합이 표본공간입니다. 이 실험에서 확률변수 X를 정의했고, X가 가질 수 있는 값은 아래와 같다고 합시다. X는 연속확률변수입니다.

$X=\left \{ a\leq x\leq b \right \}$ 확률변수와 확률변수가 발생할 확률을 연결하는 함수를 정의할 수 있습니다. 이를 확률함수라고 합니다. 확률변수 → (확률함수) → 확률 연속확률변수의 확률함수는 연속함수입니다. 이때는 함수 값이 확률이 아니라 함수의 면적이 확률이 됩니다. 따라서 확률함수

$f_{X}(x)$ 는 아래와 같이 정의됩니다. $P[(a,b)]=P[\left \{ c \in S:a 2021. 3. 10.

[손으로 푸는 확률분포] 지수분포 (4) 예시 : 카페 대기시간 (4) 예시 : 카페 대기시간 지수분포에는 아래와 같은 예시들이 있습니다. - 전자 제품의 5년간 고장횟수가 평균 1회일 때, 1년 안에 고장날 확률 - 평균 대기시간은 10분인 어느 카페에 갔을 때, 기다리는 시간이 10분~20분 사이일 확률 오늘은 두번째 예시입니다. 먼저 람다(λ) 를 구해야야합니다. 프아송분포에서 람다는 딘위시간동안의 평균 발생횟수였습니다. 첫번째 예시는 평균횟수가 드러나 있지만, 두번째 예시는 그렇지 않습니다. 위 정보를 이용하여 구할 있습니다. 대기시간이 10분이라는 것은 10분에 1명꼴로 주문을 한다고 할 수 있습니다. 10분간 평균 주문 횟수가 1회라는 것입니다. 단위시간을 1분으로 놓으면 평균 주문횟수는 0.1회가 됩니다. 따라서 람다는 0.1 입니다. 이때의 지수분포는 .. 2020. 11. 3.

[손으로 푸는 확률분포] 지수분포 (3) 예시 : 전자제품 고장확률 (3) 예시 : 전자제품 고장확률 지수분포에는 아래와 같은 예시들이 있습니다. - 전자 제품의 5년간 고장횟수가 평균 1회일 때, 1년 안에 고장날 확률 - 평균 대기시간은 10분인 어느 카페에 갔을 때, 기다리는 시간이 10분~20분 사이일 확률 우리는 위 예제에서 람다(λ) 를 구해야야합니다. 프아송분포에서 람다는 딘위시간동안의 평균 발생횟수였습니다. 위 상황에서 단위시간을 정하고 발생횟수를 구해야 합니다. 이번글에서는 첫번째 예제를 풀어보겠습니다. 단위시간은 우리가 원하는 대로 설정할 수 있습니다. 예를들어 단위시간을 1년으로 정해봅시다. 평균 5년에 1번 고장나는 것이므로, 1년에는 0.2번 고장난다고 할 수 있습니다. 따라서 람다(λ)는 0.2가 됩니다. 이때의 지수분포는 아래와 같습니다. 1년.. 2020. 10. 26.

[분할표와 ROC curve의 이해] 6. ROC curve 그려보기 우리가 풀고 있는 문제는 아래와 같습니다. 우리는 A라는 병을 진단하는 진단키트를 개발하는 연구원입니다. 혈액에서 채취한 어떤 수치 k가 병과 연관이 있었고, k를 이용해서 병을 진단하려고 시도하는 상황입니다. 정상인과 병에 걸린사람을 각각 5명식 모집하고, 수치 k를 측정하였습니다. 결과는 아래와 같습니다. (사람 수가 작은 이유는 손으로 풀기 위함입니다.) 정상 : 3.3, 3.6, 5.2, 4.6, 4.9 환자 : 5.3, 6.8, 7.7, 8.3, 4.7 진단 기준이 되는 k값 몇으로 해야할까요? k를 바꿔가면서 민감도와 특이도를 구했고, 결과는 아래와 같습니다. k 범위 환자 양성/정상 양성 환자 음성/정상 음성 민감도 특이도 k 2020. 9. 15.

[분할표와 ROC curve의 이해] 5. 민감도와 특이도의 trade-off 관계 지난시간에 k값을 바꿔가며 민감도와 특이도를 구했습니다. 민감도도 높고 특이도도 높은 k값을 선정해야하는데요. 민감도와 특이도는 서로 trade-off 관계가 있었습니다. 하나가 높아지면 다른 하나가 낮아집니다. 이런 경우에는 어떤 k값으로 정해야 할까요? 해결 방법은 아래와 같습니다. 민감도와 특이도가 동일하게 중요하다는 가정을 하고 둘의 합을 최대로 만드는 k값을 찾으면 됩니다. 아래 수식에서 response 를 최대로 하는 k값을 구하는 것입니다. sensitivity + specificity = response 또는 어느 한쪽이 더 중요하다고 판단되면, 가중치를 줄 수도 있습니다. 둘의 중요도를 6:4로 설정하였습니다. sensitivity*0.6 + specificity*0.4 = respons.. 2020. 9. 14.

[분할표와 ROC curve의 이해] 4. 최적의 진단기준은 어떻게 정할까? 우리는 지금까지 분할표, 민감도, 특이도에 대해서 배웠습니다. 이제 다시 첫시간의 문제로 돌아가서 k를 구하는 방법을 고민해봅시다. 우리는 A라는 병을 진단하는 진단키트를 개발하는 연구원입니다. 혈액에서 채취한 어떤 수치 k가 병과 연관이 있었고, k를 이용해서 병을 진단하려고 시도하는 상황입니다. 정상인과 병에 걸린사람을 각각 5명식 모집하고, 수치 k를 측정하였습니다. 결과는 아래와 같습니다. (사람 수가 작은 이유는 손으로 풀기 위함입니다.) 정상 : 3.3, 3.6, 5.2, 4.6, 4.9 환자 : 5.3, 6.8, 7.7, 8.3, 4.7 진단 기준이 되는 k값 몇으로 해야할까요? 최적의 k를 구하는 방법은 간단합니다. 먼저 환자와 정상인의 k수치를 크기 순서대로 배열합시다. 3.3(정상) 3.. 2020. 9. 8.

[분할표와 ROC curve의 이해] 3. 민감도와 특이도 지난시간에 만든 분할표는 아래와 같습니다. 환자 정상 합계 양성 TP FP TP+FP 음성 FN TN FN+TN 합계 TP+FN FP+TN TP+FP+FN+TN 이 분할표를 이용하여 아래와 같은 다양한 지표들을 계산할 수 있습니다. - Sensitivity(민감도) - Specificity(특이도) - Positive Predictive Value(양성예측도) - Negative Predictive Value(음성예측도) - Positive Likelihood Ratio(양의 가능도비) - Negative Likelihood Ratio(음의 가능도비) - Odds Ratio(오즈비) - Relative Risk(상대위험도) - Accuraycy(정확도) - Prevalence(유병률) - ROC curv.. 2020. 9. 8.

[ 분할표와 ROC curve의 이해] 2. 분할표 용어정리 지난시간에 만든 분할표는 아래와 같습니다. 환자 정상 합계 양성 환자를 환자로 진단 정상을 환자로 진단 음성 환자를 정상으로 진단 정상을 정상으로 진단 합계 오늘은 분할표의 용어를 정리해봅시다. 분할표 각 셀의 용어를 일반화시키는 것입니다. 환자를 환자로 진단하는 것을 TP 라고 합니다. True Positive 라는 뜻인데요. 양성으로 진단했고 그것이 참이라는 말입니다. 실제 양성인 사람을 양성으로 진단했다는 뜻입니다. 환자를 정상으로 진단하는 것은 무엇일까요? False Negative 입니다. 음성으로 진단했는데 그것이 거짓인 것입니다. FN 이라고 합니다. 정상인을 정상인으로 진단하는 것은 True Negative 입니다. TN 입니다. 정상인을 환자로 진단하는 것은 False Positive 입.. 2020. 9. 8.

[ 분할표와 ROC curve의 이해] 1. 진단키트와 분할표 한가지 실제 문제 상황을 가정하고, 이 문제를 해결하면서 분할표와 ROC curve를 이해해보겠습니다. 우리는 A라는 병을 진단하는 진단키트를 개발하는 연구원입니다. 혈액에서 채취한 어떤 수치 k가 병과 연관이 있었고, k를 이용해서 병을 진단하려고 시도하는 상황입니다. 정상인과 병에 걸린사람을 각각 5명식 모집하고, 수치 k를 측정하였습니다. 결과는 아래와 같습니다. (사람 수가 작은 이유는 손으로 풀기 위함입니다.) 정상 : 3.3, 3.6, 5.2, 4.6, 4.9 환자 : 5.3, 6.8, 7.7, 8.3, 4.7 병을 판정하는 기준을 k값 몇으로 해야할까요? 우리가 풀어야할 문제입니다. 먼저 아무 k값이나 하나 정해봅시다. 7로 정해보겠습니다. 7이라는 기준으로 진단을 해봅시다. k값이 7보다 .. 2020. 9. 7.

반복측정 분산분석에서의 표본수 선정 반복측정 분산분석에서의 표본수 선정 연구 대상의 표본수를 결정할 때, G Power라는 소프트웨어가 주로 사용됩니다. 독일의 뒤셀도르프 대학에서 개발하여 무료로 배포하였습니다. G Power 소프트웨어를 이용한 반복측정디자인의 표본수 산출에 대한 좋은 논문이 있어 공유합니다. 반복측정자료는 아래와 같은 자료를 말합니다. (논문 내용에서 발췌) 1) 동일한 개체를 대상으로 시간의 진행에 따라 여러번 측정하는 연구 2) 동일한 개체에서 각각 다른 치료를 받게 한 후 측정하는 연구 3) 동일한 개체에서 몸의 다른 부분에서 측정한 연구 4) 각각의 사례군(case)과 대조군(control)에서 개체를 개별적으로 짝짓기한 연구(individual matched study) 중앙대학교 마취통증의학과 강현님이 쓰신 .. 2020. 8. 26.

[손으로 푸는 통계 ver1.0] 47. 표본분산의 분포 유도 (12) 감마함수의 등장 지난시간까지 n자유도 카이제곱분포의 짝수형과 홀수형을 더블팩토리얼형태로 유도하고, 팩토리얼 형태로 변형했습니다. 결과는 아래와 같습니다. 짝수형은 팩토리얼 형태로 변형할 수 있었지만, 홀수형은 불가능했습니다. 홀수형의 대괄호안 인수들이 자연수가 아니라 유리수이기 때문입니다. 팩토리얼은 자연수에서만 정의됩니다. 우리는 팩토리얼 개념을 자연수에서 유리수로 확장해야하는 상황입니다. 우리가 알고 있는 팩토리얼의 정의는 아래와 같습니다. 함수 형태로 만들어봅시다. 팩토리얼 함수를 아래와 같이 정의하겠습니다. 왜 f(n)=n! 으로 정의하지 않았냐는 의문이 드는 분도 계실겁니다. n이 자연수이기 때문에 f(n)=n! 으로 정의할 경우 함수값이 1! 부터 시작됩니다. 하지만 팩토리얼은 0! 부터 정의되어 있기 떄문에.. 2020. 8. 26.

[손으로 푸는 통계 ver1.0] 45. 표본분산의 분포 유도 (10) 카이제곱분포 점화식 풀이 지난시간까지 유도해본 n자유도 카이제곱분포의 분포함수는 아래와 같습니다. 문제는 상수

$C_{n}$ 이었는데요. 규칙이 보이지 않았습니다. 점화식 형태로도 표현한 결과는 아래와 같습니다. ... 이번에는 우리가 유도한 분포함수를 점화식에 대입해보았습니다. 아래와 같이 소거합시다. 적분과 상관없는 항은 밖으로 꺼내겠습니다. 적분합시다. 정리하면 아래와 같습니다. 자유도가 n인 카이제곱분포의 상수

$C_{n}$ 은 아래와 같이 표현됩니다. 우리가 풀 수 있는 형태의 점화식이 되었습니다. 점화식을 풀어보겠습니다. n 이 짝수인 경우와 홀수인 경우로 나뉩니다. 1) n이 홀수인 경우 ... double factorial 이라는 기호가 있습니다. !! 인데요. factorial은 1씩 빼서 곱하는 반면, doub.. 2020. 6. 30.

[손으로 푸는 통계 ver1.0] 44. 표본분산의 분포 유도 (9) 1~5자유도 카이제곱분포에서 규칙찾기, 점화식 세우기 이제 1,2,3,4,5 자유도 카이제곱 분포를 살펴보면서 규칙을 찾아봅시다. 지수함수와 멱함수에서는 규칙이 보입니다. 지수함수는 같은 형태가 유지되고 있고, 멱함수의 지수부분은 1/2 씩 더해지고 있습니다. 이 규칙이 계속 유지될 것이라는 것도 쉽게 보일 수 있습니다. 예를들어 5자유도 분포를 구할 때, 우리는 2자유도와 3자유도를 결합합니다. 지수항수는 항상 같은 형태로 남겨지고, 멱함수는 2자유도 전의 멱함수가 적분됩니다. 따라서 2자유도 증가할 때마다 차수가 1 증가하는 것이므로, 1자유도 증가시 차수가 1/2 증가하게 됩니다. 따라서 n자유도 카이제곱 분포는 아래와 같은 모양일 것으로 생각됩니다. 확률변수를 X로 놓겠습니다. 문제는 상수

$C_{n}$ 입니다. 규칙이 보이지 않았습니다. 점화식 형.. 2020. 6. 30.

[손으로 푸는 통계 ver1.0] 42. 표본분산의 분포 유도 (7) 2자유도 카이제곱분포 유도 서로 독립인 두 확률변수 X와 Y가 있다고 합시다. 두 확률변수는 0부터 무한대 사이의 정수를 갖는다고 합시다. X가 발생할 확률은 P(X=x), Y가 발생할 확률은 P(Y=y)입니다. X와 Y를 합한 확률변수를 Z라고 놓겠습니다. 표기를 P(X), P(Y)로 하지 않는 이유는 혼동을 피하기 위함입니다. x가 1일 확률과 y가 1일 확률이 다를 수도 있는데 P(1), P(1) 로 똑같이 표기되기 때문입니다. P(X=1), P(Y=1)이라고 표기하면 오해가 생기지 않습니다. Z=X+Y 이때 Z가 발생할 확률은 어떻게 정의할 수 있을까요? Z가 발생하는 모든 X,Y 조합을 찾아봅시다. X 값에는 0부터 올 수 있으므로 아래와 같습니다. (0,z) (1,z-1) (2,z-2) ... (z,0) 각각의 확률은 .. 2020. 5. 16.

이전 1 2 3 4 다음

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

통계의 본질 (유튜브 : 통계의 본질)

통계 강의95

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역