본문 바로가기
반응형

쉬운 통계19

[손으로 푸는 통계 ver1.0] 59. 표본분산의 분포 유도 (24) 왈리스 공식 유도3 (Wallis product) 지난 시간까지 유도한 재료들은 아래와 같습니다. $I(n)= \frac{n-1}{n}I(n-2) \quad ......(1)$ $\frac{I(2n-1)}{I(2n+1)}= \frac{2n+1}{2n} \quad ......(2)$ $I(0)= \int_{0}^{\pi}\sin^{0}x \ dx =\int_{0}^{\pi}1dx =x \vert_0^\pi =\pi$ $I(1)= \int_{0}^{\pi}\sin x \ dx =-\cos x \vert_0^\pi =2$ $I(2n)= \pi \prod_{k=1}^{n}\frac{2k-1}{2k} \quad ......(3)$ $I(2n+1)=2\prod_{k=1}^{n}\frac{2k}{2k+1} \quad ......(4)$ 계속해서 왈리스공식을 유도해봅.. 2021. 6. 19.
[손으로 푸는 통계 ver1.0] 40. 표본분산의 분포 유도 (5) 크기가 2인 표본분산의 분포 표본분산의 분포를 구하기 위해 아래 정의에서 출발했습니다. 위 정의를 이용해서 아래 수식을 유도했습니다. 우변은 자유도가 n-1인 카이제곱 분포를 따르는데요. 우리는 아직 자유도가 1인 카이제곱분포만 유도한 상태입니다. 자유도가 1인 카이제곱분포는 n이 2일 때를 의미합니다. n이 2라는 것은 표본의 크기가 2라는 말입니다. 위 식에서 n에 2를 넣으면 아래와 같은 식이 됩니다. 우변이 자유도가 1인 카이제곱분포입니다. 위 식을 Y라고 놓고 분포함수를 유도했었습니다. 우리가 유도한 Y의 분포함수는 아래와 같습니다. 그래프를 그려봅시다. 손으로 그리기 어렵기 때문에 R을 이용하여 그렸습니다. 0에 가까울 수록 발생확률이 높고, 0보다 커질수록 발생확률이 작아지는 형태의 분포입니다. x=seq(0,4,0.0.. 2020. 5. 1.
[손으로 푸는 통계 ver1.0] 39. 표본분산의 분포 유도 (4) 자유도가 1인 카이제곱분포의 평균과 분산 36~38강에서 표본분산의 분포는 표준정규분포를 따르는 확률변수의 제곱을 n-1개 더한 분포라는 것을 유도했습니다. 표준정규분포의 제곱의 합의 분포를 단계적으로 유도하기 위해 표준정규분포 1개의 제곱의 분포를 유도했습니다. 이는 자유도 1인 카이제곱분포였습니다. 자유도가 1인 카이제곱분포를 표본분산의 분포로 이용하는 방법을 알아보기 전에 자유도가 1인 카이제곱분포의 평균과 분산을 구해보겠습니다. 먼저 평균을 유도해봅시다. 평균 평균은 아래와 같이 정의됩니다. 아래와 같이 계산할 수 있습니다. 부분적분을 합시다. e^(y/2)을 적분할 것입니다. 빨간항은 0이 됩니다. 2를 약분해줍시다. 적분기호 안은 자유도가 1인 카이제곱분포의 확률밀도함수입니다. 전체구간으로 적분하면 값은 1입니다. 따라서 평균은 1이.. 2020. 4. 27.
[손으로 푸는 통계 ver1.0] 38. 표본분산의 분포 유도 (3) 자유도가 1인 카이제곱분포 유도 36강과 37강에서 아래 수식을 유도했습니다. 우변의 각 항은 표준정규분포를 따르는 변수의 제곱입니다. 따라서 아래와 같이 바꿔쓸 수 있습니다. 2020. 4. 4.
정규성검정 KS test (2) Nikolai Smirnov KS 테스트를 개발한 분의 이야기를 이어서 하겠습니다. 지난시간에는 Andrey Kolmogorov 이야기를 했었는데요. 오늘은 Nikolai Smirnov에 대해 말씀드리겠습니다. 이분에 대한 자료는 많이 없어서 내용이 짧습니다. 스미르노프는 1900년에 러시아 모스크바에서 태어났습니다. 콜모고로프처럼 러시아 사람입니다. 1938년에 박사학위를 땄습니다. 당시 했던 연구가 앞으로 이어질 비모수 검정 연구의 기초가 됐다고 합니다. 1938년에 Steklov Institute of Mathematics 의 연구원이 됩니다. 수학에 특화된 국가연구소라고 합니다. 우리나라의 고등과학원 정도가 될겁니다. 1957년에 수리통계학 분야 책임자가 됩니다. 스미르노프는 수리통계학 분야 비모수 기법의 창시자중 한명입니다.. 2018. 11. 26.
정규성검정 KS test (1) Andrey Kolmogorov 드디어 정규성검정에 대한 공부가 시작되었습니다. Q-Q plot도 정규성 검정으로 사용되기는 하지만 정성적인 방법이므로, 정량적인 방법은 이번 강의부터 설명하는 것입니다. 제가 앞으로 설명드릴 정량적인 방법은 아래의 다섯가지입니다. 1. Kolmogorov-Smirnov test (KS test) 2. Lilliefors test (LF test) 3. Cramer-von Mises test (CVM test) 4. Anderson-Darling test (AD test) 5. Shapiro-Wilk test (SW test) 앞으로는 약어(abbreviation)를 사용하도록 하겠습니다. KS 검정을 먼저 공부할 것인데요. 검정의 원리를 설명하기 전에 검정 방법을 만든 사람들에 대한 소개를 하려고 합니.. 2018. 11. 24.
Q-Q plot 그리는 법 (5) 정규분포와의 비교 이번 시간에는 데이터를 정규분포와 비교할 수 있는 Q-Q plot을 그려보겠습니다. '정규성 검정'의 기능을 하는 Q-Q plot입니다. 먼저 데이터를 하나 생성합시다. Data1 : 24, 28, 37, 43, 46 이제 Data1의 확률 분위수 그래프를 그리고, 같은 확률의 분위수를 정규분포에서 찾아주시면 됩니다. 원리는 앞의 방법과 동일한데 주의할 점이 하나 있습니다. Type7를 예를들어봅시다. Data1의 Type7 그래프를 그리면 아래와 같습니다. 오른쪽에는 표준정규분포의 역누적분포함수를 그리겠습니다. data1의 각 값들을 분위수로 하는 확률은 0, 0.25, 0.5, 0.75, 1입니다. 문제가 뭔지 아시겠죠? 표준정규분포 누적분포함수의 역함수에서는 확률이 0과 1인 곳에서 그 값이 존재하.. 2018. 11. 18.
Q-Q plot 그리는 법 (4) 크기가 다른 두 데이터의 Q-Q plot 이번 시간에는 크기가 다른 두 데이터의 Q-Q plot을 그려봅시다. 먼저 두 데이터를 생성합시다. Data1 : 24, 28, 37, 43, 46 Data2 : 15, 18, 23, 33, 45, 48, 50 두 데이터 각각의 확률-분위수 그래프를 먼저 그리겠습니다. 몇 번 type으로 그릴지를 정해야합니다. 어떤 타입도 선택할 수 있는데 type7로 하겠습니다(R의 디폴트입니다). 그래프를 그리면 아래와 같습니다. 개수가 적은 쪽에 맞춰서 대응시킵니다. Data1의 데이터에 대응되는 확률은 0, 0.25, 0.5, 0.75, 1입니다. 이 확률에서의 분위수 값을 Data2그래프에서 찾으면 됩니다. 계산하면 아래와 같습니다. 15, 20.5, 33, 46.5, 50 Data1과 2의 분위수를 이용하여 .. 2018. 11. 14.
Q-Q plot 그리는 법 (3) 크기가 같은 두 데이터의 Q-Q plot 지난 강의에서 Q-Q plot의 원리에 대해서 알아보았습니다. 오늘은 실제 예시를 통해 직접 그려보도록 하겠습니다. 아래와 같이 크기가 같은 두 데이터를 예로 들겠습니다. Data 1 : 24,28,37,43,46 Data 2 : 14,17,23,44,57 각각을 순위 또는 순서를 이용해서 표현해봅시다. Data 1 : x1, x2, x3, x4, x5 Data 2 : x1, x2, x3, x4, x5 만약 이 순서로 확률-분위수 그래프를 그린다면, 두 데이터에서 동일한 그래프가 그려질 것입니다. type에 상관없이 같아집니다. 따라서 x1에 해당되는 24와 14에 해당되는 확률이 같습니다. 24와 14가 같은 분위수라는 것입니다. 이와 동일한 이유로 28과 17, 37과 23, 43과 44, 46과 5.. 2018. 11. 13.
Q-Q plot 그리는 법 (2) 원리 Q-Q plot의 원리 지난시간에 '역누적분포함수'가 확률-분위수함수와 동일하다는 것을 배웠습니다. 오늘은 '역누적분포함수'를 이용해서 Q-Q plot의 원리를 설명하겠습니다. 두 집단이 있다고 해봅시다. 집단 A와 집단 B입니다. 집단 A의 역누적분포함수를 A(x), 집단 B의 역누적분포함수를 B(x)라고 합시다. 변수 x는 확률입니다. 두 집단의 분포가 같다면 아래 등식이 성립합니다. 두 집단이 같은 분포를 따른다는 것은 한 집단의 선형변환을 통해 다른 집단을 만들 수 있다는 것입니다. 여러분이 알고 계신 여러 분포들(정규분포, 지수분포, 카이제곱분포 등)을 선형 변환해보시면 이해가 되실 겁니다. 이 원리를 이용하면 분위수 끼리도 선형관계를 갖는다는 것을 알 수 있습니다. 그래프로 그리면 아래와 같습.. 2018. 11. 12.
Q-Q plot 그리는 법 (1) 역누적분포함수 Q-Q plot의 목적 Q-Q plot은 Quantile-Quantile plot의 줄임말입니다. 분위수-분위수 그래프라는 뜻이구요. 두 데이터의 분위수를 그래프로 그리는 것입니다. 두 데이터의 분위수를 그려서 뭘 하고싶은 걸까요? Q-Q plot의 목적은 '분포 비교'입니다. 어떤 원리로 비교하는 것일까요? 역누적분포함수 Q-Q plot의 원리를 이해하려면 먼저 '역누적분포함수'를 알아야 합니다. 우리가 이미 알고 있는 정규분포함수로 시작해서 접근해 봅시다. 정규분포함수는 '확률밀도함수'입니다. x축이 변수(키,몸무게 등), y축이 확률밀도값입니다. 정규분포함수를 f(x)라고 했을 때, 누적분포함수 F(x)를 아래와 같이 정의할 수 있습니다. 이때 F(x) 값은, x 이하인 데이터의 비율(또는 x보다 .. 2018. 11. 8.
분위수 구하는 9가지 방법을 공부한 이유 11강에 걸쳐서 분위수에 대해 공부했습니다. 분위수 설명에 많은 강의를 사용했기 때문에, 흐름을 놓친 분을 위해 분위수를 공부한 이유에 대해 되짚어보려고 합니다. 정규성검정의 한 방법으로 Q-Q plot을 소개할 때 분위수가 등장했습니다. Q-Q plot의 full name은 quantile-quantile plot으로 이름 자체에 분위수를 담고 있습니다. QQ plot을 그릴 때, 두 데이터의 분위수를 각각 x축 y축에 나타내고 좌표평면에 점을 찍습니다. QQ plot을 손으로 그려보기 위해 분위수를 공부하게 되었고 분위수를 구하는 방법이 9가지나 된다는 것을 알게 되었습니다. 위키피디아에 quantile을 검색하면 나옵니다. (https://en.wikipedia.org/wiki/Quantile) 분.. 2018. 11. 6.
분위수(Quantile)를 구하는 9가지 방법(#11. Type9 방법) 통계패키지(R,점유율1위)에서 사용하는 분위수 계산방법에는 9종류가 있습니다. 이전 강의에서 언급했듯이 Type 1~3은 불연속 변수를 대상으로 하고, Type4~9는 연속 변수를 대상으로 합니다. 오늘은 불연속변수의 분위수 계산 방법인 Type 1~3을 가지고 분위수 계산을 해봅시다. 불연속 변수의 경우 '보간'을 사용하지 않고 샘플 중에서 분위수를 선정합니다. Type8 계산 방법 분위수라는 것은 결국 어떤 확률 p 위치에 있는 수가 무엇인지를 구하는 것입니다. 예를들어 4분위수는 확률 0.25,0.5,0.75 위치의 수를 구하는 것입니다. 따라서 아래와 같이 확률을 변수로 하는 분위수 값의 그래프를 그릴 수 있다면 어떤 분위수든 바로 계산이 가능해집니다. Q9(p)를 타입9의 방법으로 구한 분위수라.. 2018. 11. 6.
분위수(Quantile)를 구하는 9가지 방법(#10. Type8 방법) 통계패키지(R,점유율1위)에서 사용하는 분위수 계산방법에는 9종류가 있습니다. 이전 강의에서 언급했듯이 Type 1~3은 불연속 변수를 대상으로 하고, Type4~9는 연속 변수를 대상으로 합니다. 오늘은 불연속변수의 분위수 계산 방법인 Type 1~3을 가지고 분위수 계산을 해봅시다. 불연속 변수의 경우 '보간'을 사용하지 않고 샘플 중에서 분위수를 선정합니다. Type8 계산 방법 분위수라는 것은 결국 어떤 확률 p 위치에 있는 수가 무엇인지를 구하는 것입니다. 예를들어 4분위수는 확률 0.25,0.5,0.75 위치의 수를 구하는 것입니다. 따라서 아래와 같이 확률을 변수로 하는 분위수 값의 그래프를 그릴 수 있다면 어떤 분위수든 바로 계산이 가능해집니다. Q8(p)를 타입8의 방법으로 구한 분위수라.. 2018. 11. 1.
분위수(Quantile)를 구하는 9가지 방법(#9. Type7 방법) 통계패키지(R,점유율1위)에서 사용하는 분위수 계산방법에는 9종류가 있습니다. 이전 강의에서 언급했듯이 Type 1~3은 불연속 변수를 대상으로 하고, Type4~9는 연속 변수를 대상으로 합니다. 오늘은 불연속변수의 분위수 계산 방법인 Type 1~3을 가지고 분위수 계산을 해봅시다. 불연속 변수의 경우 '보간'을 사용하지 않고 샘플 중에서 분위수를 선정합니다. Type7 계산 방법 분위수라는 것은 결국 어떤 확률 p 위치에 있는 수가 무엇인지를 구하는 것입니다. 예를들어 4분위수는 확률 0.25,0.5,0.75 위치의 수를 구하는 것입니다. 따라서 아래와 같이 확률을 변수로 하는 분위수 값의 그래프를 그릴 수 있다면 어떤 분위수든 바로 계산이 가능해집니다. Q7(p)를 타입7의 방법으로 구한 분위수라.. 2018. 10. 29.
분위수(Quantile)를 구하는 9가지 방법(#8. Type6 방법) 통계패키지(R,점유율1위)에서 사용하는 분위수 계산방법에는 9종류가 있습니다. 이전 강의에서 언급했듯이 Type 1~3은 불연속 변수를 대상으로 하고, Type4~9는 연속 변수를 대상으로 합니다. 오늘은 불연속변수의 분위수 계산 방법인 Type 1~3을 가지고 분위수 계산을 해봅시다. 불연속 변수의 경우 '보간'을 사용하지 않고 샘플 중에서 분위수를 선정합니다. Type6 계산 방법 분위수라는 것은 결국 어떤 확률 p 위치에 있는 수가 무엇인지를 구하는 것입니다. 예를들어 4분위수는 확률 0.25,0.5,0.75 위치의 수를 구하는 것입니다. 따라서 아래와 같이 확률을 변수로 하는 분위수 값의 그래프를 그릴 수 있다면 어떤 분위수든 바로 계산이 가능해집니다. Q6(p)를 타입6의 방법으로 구한 분위수라.. 2018. 10. 25.
분위수(Quantile)를 구하는 9가지 방법(#7. Type5 방법) 통계패키지(R,점유율1위)에서 사용하는 분위수 계산방법에는 9종류가 있습니다. 이전 강의에서 언급했듯이 Type 1~3은 불연속 변수를 대상으로 하고, Type4~9는 연속 변수를 대상으로 합니다. 오늘은 불연속변수의 분위수 계산 방법인 Type 1~3을 가지고 분위수 계산을 해봅시다. 불연속 변수의 경우 '보간'을 사용하지 않고 샘플 중에서 분위수를 선정합니다. Type5 계산 방법 분위수라는 것은 결국 어떤 확률 p 위치에 있는 수가 무엇인지를 구하는 것입니다. 예를들어 4분위수는 확률 0.25,0.5,0.75 위치의 수를 구하는 것입니다. 따라서 아래와 같이 확률을 변수로 하는 분위수 값의 그래프를 그릴 수 있다면 어떤 분위수든 바로 계산이 가능해집니다. Q5(p)를 타입5의 방법으로 구한 분위수라.. 2018. 10. 23.
분위수(Quantile)를 구하는 9가지 방법(#6. Type4 방법) 통계패키지(R,점유율1위)에서 사용하는 분위수 계산방법에는 9종류가 있습니다. 이전 강의에서 언급했듯이 Type 1~3은 불연속 변수를 대상으로 하고, Type4~9는 연속 변수를 대상으로 합니다. 오늘은 불연속변수의 분위수 계산 방법인 Type 1~3을 가지고 분위수 계산을 해봅시다. 불연속 변수의 경우 '보간'을 사용하지 않고 샘플 중에서 분위수를 선정합니다. Type4 계산 방법 분위수라는 것은 결국 어떤 확률 p 위치에 있는 수가 무엇인지를 구하는 것입니다. 예를들어 4분위수는 확률 0.25,0.5,0.75 위치의 수를 구하는 것입니다. 따라서 아래와 같이 확률을 변수로 하는 분위수 값의 그래프를 그릴 수 있다면 어떤 분위수든 바로 계산이 가능해집니다. Q4(p)를 타입4의 방법으로 구한 분위수라.. 2018. 10. 22.
분위수(Quantile)를 구하는 9가지 방법(#2~5. Type1~3 방법) 통계패키지(R,점유율1위)에서 사용하는 분위수 계산방법에는 9종류가 있습니다. 이전 강의에서 언급했듯이 Type 1~3은 불연속 변수를 대상으로 하고, Type4~9는 연속 변수를 대상으로 합니다. 오늘은 불연속변수의 분위수 계산 방법인 Type 1~3을 가지고 분위수 계산을 해봅시다. 불연속 변수의 경우 '보간'을 사용하지 않고 샘플 중에서 분위수를 선정합니다. Type1 계산 방법 (올림 round up) 분위수라는 것은 결국 어떤 확률 p 위치에 있는 수가 무엇인지를 구하는 것입니다. 예를들어 4분위수는 확률 0.25,0.5,0.75 위치의 수를 구하는 것입니다. 따라서 아래와 같이 확률을 변수로 하는 분위수 값의 그래프를 그릴 수 있다면 어떤 분위수든 바로 계산이 가능해집니다. Q1(p)를 타입1.. 2018. 9. 26.
반응형