Loading [MathJax]/extensions/TeX/mathchoice.js
본문 바로가기
반응형

전체 글648

카이제곱검정도 양측검정이 있을까? 이론적으로는 가능하나 쓸 일은 거의 없습니다. 카이제곱검정은 단측 검정만 사용합니다. 카이제곱검정은 관측빈도와 기대빈도가 다른지 여부를 판단할 때 사용하는 검정입니다. 예를 들어 20대와 30대의 핸드폰 선호 비율을 비교할 때 사용합니다. 우측 꼬리 검정이 사용됩니다. 카이제곱분포의 우측으로 갈 수록 기대빈도와 관측빈도가 달라지고, 좌측을 갈 수록 같아집니다. 기대빈도와 관측빈도가 완전히 같으면 확률변수가 0이 됩니다. 만약 좌측 꼬리검정을 한다면 의미가 이상해집니다. 관측빈도와 기대빈도가 너무 같아서 기각해버리는 상황이 됩니다. 이런 검정을 쓸 일은 없을 것으로 생각됩니다. 정규분포 그래프를 보면 양쪽 꼬리로 갈 수록 귀무가설의 모평균과 달라지게 됩니다. 따라서 단측 검정이 의미가 있습니다. 그러나 카.. 2022. 4. 1.
[손으로 푸는 통계 ver1.0] 87. 표본분산의 분포에서 모집단이 정규분포를 따라야 한다는 조건 제거하기 우리는 지금까지 표본분산의 분포를 유도했는데요. n1σ2s2χ2n1 한가지 잊고 있었던 사실이 있습니다. 우리가 표본분산의 분포를 유도할 때 두가지 조건을 설정했었다는 것입니다. (36강) 1) 표본평균의 분포가 정규분포를 따를 만큼 표본의 크기 n이 크다. 2) 모집단의 분포는 정규분포를 따른다. 첫번째 조건을 만족시키는 것은 어렵지 않습니다. 문제는 두번째 조건입니다. 표본분산에 어떤 상수를 곱한 분포가 카이제곱분포를 따른다는 명제를 유도하려면 모집단이 정규분포를 따른다는 조건이 필요합니다. '표본분산에 어떤 상수를 곱한 분포가 카이제곱분포를 따른다'는 조건은 t분포를 유도할 때도 사용됩니다. t분포를 사용할 때도 모집단이 정규분포.. 2022. 3. 28.
[손으로 푸는 통계 ver1.0] 86. R로 카이제곱분포 그래프 그려보기 지난시간까지 미분을 이용하여 카이제곱분포의 그래프 형태를 예측해보았습니다. 우리가 예측한 1,2,3 자유도 카이제곱분포 그래프는 아래와 같습니다. 4자유도 카이제곱분포 그래프는 아래와 같습니다. 5자유도 이상인 카이제곱분포 그래프는 아래와 같습니다. 2자유도의 c를 구해봅시다. f(x)=12n2Γ(n2)ex2xn21 위 식 계수에 2를 넣으면 되구요. 감마 1은 1이니까. 0.5가 나옵니다. R을 이용하여 우리가 예측한 그래프 형태가 맞는지 알아봅시다. R의 dchisq 라는 함수를 이용하면 카이제곱분포의 함수 값을 알 수 있습니다. 코드는 아래와 같습니다... 2022. 3. 25.
[손으로 푸는 통계 ver1.0] 85. 카이제곱분포 형태 예측 (자유도 4자유도 이상 ) 지난시간에 1,2,3 자유도 카이제곱분포의 개형을 예측했습니다. 우리가 예측한 형태는 아래와 같습니다. 왼쪽부터 1,2,3 자유도 입니다. 오늘은 4자유도 이상의 카이제곱분포의 개형을 예측해봅시다. n자유도 카이제곱분포의 분포함수 f(x)와 도함수 f(x)는 아래와 같습니다. f(x)=cex2xn21 f(x)=12cex2xn22(x(n2)) n=4 n이 4인 경우의 f(x)f(x) 는 아래와 같습니다. f(x)=cxex2 $f'(x)=-\fr.. 2022. 3. 23.
[손으로 푸는 통계 ver1.0] 84. 카이제곱분포 형태 예측 (자유도 1~3) 우리는 아래 수식을 유도했습니다. n1σ2s2χ2n1 카이제곱분포의 평균과 분산도 유도한 상태입니다. 이제 카이제곱분포의 분포함수를 그리고 넓이를 구해보면서 모분산 대신 표본분산을 사용하는 것이 가능한지 알아봐야 하는데요. 카이제곱분포를 손으로 정확히 것은 거의 불가능합니다. R이나 파이썬등의 소프트웨어를 이용해서 그려야 하는데요. 미분을 이용하면 어느정도의 형태는 예상해볼 수 있습니다. 오늘은 미분을 이용해서 카이제곱분포의 대략적인 형태를 알아봅시다. n자유도 카이제곱분포 함수는 아래와 같습니다. $f(x)=\frac{1}{2^{\frac{n}{2}}\Gamma\left( \frac{n}{2} \right)} \cdot e^{-\fr.. 2022. 3. 11.
[손으로 푸는 통계 ver1.0] 83. 카이제곱분포의 분산 유도 n자유도 카이제곱분포를 따르는 확률변수의 분산을 유도해봅시다. n자유도 카이제곱분포 함수는 아래와 같습니다. f(x)=12n2Γ(n2)ex2xn21 분산은 아래 수식을 이용해서 구하겠습니다. V[X]=E[X2]E[X]2 E[X] 는 n이라는 것을 지난시간에 유도했습니다. 우변의 첫항만 계산하면 됩니다. 우변의 첫항은 아래와 같이 계산됩니다. $E[X^{2}]=\int_{0}^{\infty}x^{2}f(x)dx=\int_{0}^{\infty}x^{2}\frac{1}{2^{\frac{n}{2}} \Gamma \left ( \frac{n}{2} \.. 2022. 3. 7.
[손으로 푸는 통계 ver1.0] 82. 카이제곱분포의 평균 쉬운 유도 지난 시간에 n자유도 카이제곱분포를 따르는 확률변수 X의 평균이 n 이라는 것을 유도했습니다. 오늘은 카이제곱분포의 평균을 더 쉽게 유도해봅시다. 아래 식에서 출발합니다. n1σ2s2χ2n1 좌변은 n-1 자유도인 카이제곱분포를 따르는 확률변수입니다. 기댓값을 구해봅시다. E[n1σ2s2] 괄호와 무관한 문자들은 밖으로 꺼냅시다. n1σ2E[s2] 표본분산의 평균은 모분산입니다. 4강에서 유도했습니다. n1σ2σ2 약분하면 n-1만 남습니다. n-1자유.. 2022. 3. 7.
[손으로 푸는 통계 ver1.0] 81. 카이제곱분포의 평균 유도 우리는 아래 수식을 유도했습니다. n1σ2s2χ2n1 표본분산에 상수가 곱해진 확률변수가 n-1 자유도인 카이제곱분포를 따른다는 의미입니다. n-1 자유도의 카이제곱분포 함수는 아래와 같습니다. f(x)=12n12Γ(n12)ex2xn121 오늘은 카이제곱분포의 평균을 유도해보겠습니다. 유도해놓으면 분명 뒤에서 써먹을 일이 있을것 같아요. 수식을 편하게 다루기 위해 n자유도의 카이제곱분포에서 평균을 유도하겠습니다. $f(x)=\frac{1}{2^{\frac{n}{2}} \Gamma \l.. 2022. 3. 5.
균등분포로 동전 던지기 확률, 주사위 던지기 확률 생성하기 균등분포를 이용하면 동전이나 주사위 확률 생성기를 만들 수 있습니다. 듣고 보면 간단하고 당연한 이야기 이긴 한데, 기억해 놓으면 어딘가 유용하게 써먹을 수 있을겁니다. 먼저 동전 확률을 만들어봅시다. 확률변수 X가 0~1 사이 값을 갖는 표준균등분포를 따른다고 할 때, 0~0.5 사이의 값이 나오면 앞면, 0.5~1 사이의 값이 나오면 뒷면이라고 놓으면 됩니다. $X = \begin{Bmatrix} head & 0 2021. 12. 31.
[가설검정의 이해] #1. 통계적 가설검정을 이해하는데 좋은 아주 쉬운 예시 통계적 가설검정이 무엇인지 쉽게 감을 잡을 수 있는 아주아주 쉬운 예시입니다. 여기 동전이 하나 있습니다. 이 동전은 앞면과 뒷면이 나올 확률이 동일한 동전이라고 알려져 있습니다. 여러분에게 내기를 하나 제안하겠습니다. 이 동전을 던져서 앞면이 나오면 제가 여러분에게 10만원을 드리고, 뒷면가 나오면 여러분이 저에게 10만원을 주시는 겁니다. 여러분 입장에서는 뒷면이 나오면 -10만원이 되는겁니다. 동전 던지기를 20번 했고, 뒷면이 19번 나왔습니다. 여러분은 180만원을 잃으셨어요. 화가난 여러분은 집으로 돌아가서 컴퓨터를 켭니다. 동전을 20번 던져서 앞면이 19번 나올 확률을 계산합니다. \binom{20}{19}\left ( \frac{1}{2} \right )^{20} 계산해보니 0.000.. 2021. 12. 30.
로버스트 통계 방법이란 무엇인가 로버스트(Robust)의 의미는 '강건한'입니다. Robust 통계 방법이란 강건한 통계방법입니다. 통계에서 강건하다는게 어떤 의미일까요? 통계에서 강건하다는 것은 '이상치'의 영향을 적게 받는다는 말입니다. 따라서 로버스트 통계방법은 이상치 영향을 적게 받는 통계방법입니다. 이상치 영향을 어떻게 하면 적게 받을 수 있을까요? 평균 대신 중앙값을, 표준편차 대신 중앙값 절대편차를 사용하면 됩니다. 우리가 가장 흔히 사용하는 통계량인 평균은 이상치(outlier)에 영향을 많이 받습니다. 반면 중앙값은 이상치의 영향을 덜 받습니다. 아래 데이터를 봅시다. > Sal=c(3000,3000,3000,3000,3000,3000,3000,3000,3000,100000) 어떤 회사 직원들의 연봉입니다. 9명은 연봉.. 2021. 12. 30.
상자수염그림에서 이상점(outlier)이란? 상자수염그림은 사분위수와 최댓값,최솟값으로 만든 그래프입니다. 아래 왼쪽 그림을 봅시다. 맨 위 가로선이 최댓값, 맨 아래 가로선이 최솟값입니다. 가운데 박스에 세개의 세로선이 있습니다. 자료를 크기 순으로 정렬했을 때 25%, 50%, 75% 에 해당되는 값입니다. 각각 Q1,Q2,Q3 라고 부릅니다. 50%에 해당되는 값을 중앙값이라고 합니다. Q는 Qurtile 이고 분위수라는 말입니다. Q1은 일사분위수 입니다. 오른쪽 그림을 보면 점이 하나 찍혀있습니다. 이 점을 이상치(outlier) 라고 합니다. 혼자서 아주 크거나, 아주 작은 값을 이상치로 분류합니다. 이상치는 '실수'로 입력된 값일 수도 있고 실제 값일 수도 있습니다. 예를들어 사람의 키 데이터라면 이상치는 실수일 가능성이 높습니다. 상.. 2021. 12. 30.
통계 분석 언제 뭘써야 하나 표 하나로 정리하기 다양한 통계 분석을 어떤 상황에 사용해아 하는지 표로 정리해봤습니다. 목적 독립변수 종속변수 모수적 방법 비모수적 방법 서로 독립인 두 그룹의 평균 비교 범주형 연속형 독립표본 t검정 맨-휘트니 검정 (윌콕슨 순위합 검정) 서로 종속인 두 그룹의 평균 비교 범주형 연속형 대응표본 t검정 윌콕슨 부호 순위 검정 셋 이상 그룹의 평균 비교 범주형 연속형 분산분석 크루스칼-왈리스 검정 동일 대상의 반복측정 결과 평균 비교 범주형 연속형 반복측정 분산분석 프라이드만 검정 두 범주형 변수 사이의 관계 범주형 범주형 카이제곱검정 두 연속형 변수 사이의 관계 연속형 연속형 선형 회귀분석 연속형 독립변수와 범주형 종속변수 사이의 관계 연속형, 범주형 범주형 로지스틱 회귀분석 2021. 12. 25.
통계 그래프 언제 뭘써야 하나 표 하나로 정리하기 1 다양한 통계 그래프를 어떤 상황에 사용해아 하는지 표로 정리해봤습니다. 독립변수와 종속변수의 데이터 종류에 따라 분류하였습니다. 데이터는 범주형 데이터와 연속형 데이터로 나뉩니다. 독립 범주 연속 종속 범주 분할표 산점도 상자수염그림(가로) 연속 상자수염그림 히스토그램 막대그래프 산점도 각 데이터의 예를 들면 아래와 같습니다. 독립 범주 연속 종속 범주 성별에 따른 흡연자와 비흡연자 수 - 연속 남자와 여자 키 비교 키와 몸무게의 관계 2021. 12. 25.
[손으로 푸는 통계 ver1.0] 80. aX가 카이제곱분포를 따를 때, X도 그럴까 정규 분포에서는 아래 성질이 성립했습니다. 변수 aX가 평균이 \mu이고, 분산이 \sigma^{2}인 정규분포를 따를 경우, 확률변수 X는 평균이 \frac{\mu}{a}이고, 표준편차가 \left| \frac{\sigma}{a} \right| 인 정규분포를 따릅니다. 카이제곱분포에서는 어떨까요? 변수 aX가 자유도가 n-1인 카이제곱분포를 따른다고 합시다. 기호로는 아래와 같이 나타냅니다. aX \sim \chi^{2}_{n-1} aX의 확률밀도함수를 f(ax), 누적분포함수를 F(ax)라고 놓겠습니다. F(ax) 는 아래와 같이 정의됩니다. P\left[ aX \leq ax \right] 우리가 궁금한 것은 X의 분포입니다. X의 확률밀도함수를 g(x), 누적분포함수를 G(x).. 2021. 12. 17.
반응형