본문 바로가기
반응형

@선택과목2/삭제강의(정규성검정 관련)19

정규성검정 KS test (2) Nikolai Smirnov KS 테스트를 개발한 분의 이야기를 이어서 하겠습니다. 지난시간에는 Andrey Kolmogorov 이야기를 했었는데요. 오늘은 Nikolai Smirnov에 대해 말씀드리겠습니다. 이분에 대한 자료는 많이 없어서 내용이 짧습니다. 스미르노프는 1900년에 러시아 모스크바에서 태어났습니다. 콜모고로프처럼 러시아 사람입니다. 1938년에 박사학위를 땄습니다. 당시 했던 연구가 앞으로 이어질 비모수 검정 연구의 기초가 됐다고 합니다. 1938년에 Steklov Institute of Mathematics 의 연구원이 됩니다. 수학에 특화된 국가연구소라고 합니다. 우리나라의 고등과학원 정도가 될겁니다. 1957년에 수리통계학 분야 책임자가 됩니다. 스미르노프는 수리통계학 분야 비모수 기법의 창시자중 한명입니다.. 2018. 11. 26.
정규성검정 KS test (1) Andrey Kolmogorov 드디어 정규성검정에 대한 공부가 시작되었습니다. Q-Q plot도 정규성 검정으로 사용되기는 하지만 정성적인 방법이므로, 정량적인 방법은 이번 강의부터 설명하는 것입니다. 제가 앞으로 설명드릴 정량적인 방법은 아래의 다섯가지입니다. 1. Kolmogorov-Smirnov test (KS test) 2. Lilliefors test (LF test) 3. Cramer-von Mises test (CVM test) 4. Anderson-Darling test (AD test) 5. Shapiro-Wilk test (SW test) 앞으로는 약어(abbreviation)를 사용하도록 하겠습니다. KS 검정을 먼저 공부할 것인데요. 검정의 원리를 설명하기 전에 검정 방법을 만든 사람들에 대한 소개를 하려고 합니.. 2018. 11. 24.
Q-Q plot 그리는 법 (5) 정규분포와의 비교 이번 시간에는 데이터를 정규분포와 비교할 수 있는 Q-Q plot을 그려보겠습니다. '정규성 검정'의 기능을 하는 Q-Q plot입니다. 먼저 데이터를 하나 생성합시다. Data1 : 24, 28, 37, 43, 46 이제 Data1의 확률 분위수 그래프를 그리고, 같은 확률의 분위수를 정규분포에서 찾아주시면 됩니다. 원리는 앞의 방법과 동일한데 주의할 점이 하나 있습니다. Type7를 예를들어봅시다. Data1의 Type7 그래프를 그리면 아래와 같습니다. 오른쪽에는 표준정규분포의 역누적분포함수를 그리겠습니다. data1의 각 값들을 분위수로 하는 확률은 0, 0.25, 0.5, 0.75, 1입니다. 문제가 뭔지 아시겠죠? 표준정규분포 누적분포함수의 역함수에서는 확률이 0과 1인 곳에서 그 값이 존재하.. 2018. 11. 18.
Q-Q plot 그리는 법 (4) 크기가 다른 두 데이터의 Q-Q plot 이번 시간에는 크기가 다른 두 데이터의 Q-Q plot을 그려봅시다. 먼저 두 데이터를 생성합시다. Data1 : 24, 28, 37, 43, 46 Data2 : 15, 18, 23, 33, 45, 48, 50 두 데이터 각각의 확률-분위수 그래프를 먼저 그리겠습니다. 몇 번 type으로 그릴지를 정해야합니다. 어떤 타입도 선택할 수 있는데 type7로 하겠습니다(R의 디폴트입니다). 그래프를 그리면 아래와 같습니다. 개수가 적은 쪽에 맞춰서 대응시킵니다. Data1의 데이터에 대응되는 확률은 0, 0.25, 0.5, 0.75, 1입니다. 이 확률에서의 분위수 값을 Data2그래프에서 찾으면 됩니다. 계산하면 아래와 같습니다. 15, 20.5, 33, 46.5, 50 Data1과 2의 분위수를 이용하여 .. 2018. 11. 14.
Q-Q plot 그리는 법 (3) 크기가 같은 두 데이터의 Q-Q plot 지난 강의에서 Q-Q plot의 원리에 대해서 알아보았습니다. 오늘은 실제 예시를 통해 직접 그려보도록 하겠습니다. 아래와 같이 크기가 같은 두 데이터를 예로 들겠습니다. Data 1 : 24,28,37,43,46 Data 2 : 14,17,23,44,57 각각을 순위 또는 순서를 이용해서 표현해봅시다. Data 1 : x1, x2, x3, x4, x5 Data 2 : x1, x2, x3, x4, x5 만약 이 순서로 확률-분위수 그래프를 그린다면, 두 데이터에서 동일한 그래프가 그려질 것입니다. type에 상관없이 같아집니다. 따라서 x1에 해당되는 24와 14에 해당되는 확률이 같습니다. 24와 14가 같은 분위수라는 것입니다. 이와 동일한 이유로 28과 17, 37과 23, 43과 44, 46과 5.. 2018. 11. 13.
Q-Q plot 그리는 법 (2) 원리 Q-Q plot의 원리 지난시간에 '역누적분포함수'가 확률-분위수함수와 동일하다는 것을 배웠습니다. 오늘은 '역누적분포함수'를 이용해서 Q-Q plot의 원리를 설명하겠습니다. 두 집단이 있다고 해봅시다. 집단 A와 집단 B입니다. 집단 A의 역누적분포함수를 A(x), 집단 B의 역누적분포함수를 B(x)라고 합시다. 변수 x는 확률입니다. 두 집단의 분포가 같다면 아래 등식이 성립합니다. 두 집단이 같은 분포를 따른다는 것은 한 집단의 선형변환을 통해 다른 집단을 만들 수 있다는 것입니다. 여러분이 알고 계신 여러 분포들(정규분포, 지수분포, 카이제곱분포 등)을 선형 변환해보시면 이해가 되실 겁니다. 이 원리를 이용하면 분위수 끼리도 선형관계를 갖는다는 것을 알 수 있습니다. 그래프로 그리면 아래와 같습.. 2018. 11. 12.
Q-Q plot 그리는 법 (1) 역누적분포함수 Q-Q plot의 목적 Q-Q plot은 Quantile-Quantile plot의 줄임말입니다. 분위수-분위수 그래프라는 뜻이구요. 두 데이터의 분위수를 그래프로 그리는 것입니다. 두 데이터의 분위수를 그려서 뭘 하고싶은 걸까요? Q-Q plot의 목적은 '분포 비교'입니다. 어떤 원리로 비교하는 것일까요? 역누적분포함수 Q-Q plot의 원리를 이해하려면 먼저 '역누적분포함수'를 알아야 합니다. 우리가 이미 알고 있는 정규분포함수로 시작해서 접근해 봅시다. 정규분포함수는 '확률밀도함수'입니다. x축이 변수(키,몸무게 등), y축이 확률밀도값입니다. 정규분포함수를 f(x)라고 했을 때, 누적분포함수 F(x)를 아래와 같이 정의할 수 있습니다. 이때 F(x) 값은, x 이하인 데이터의 비율(또는 x보다 .. 2018. 11. 8.
분위수 구하는 9가지 방법을 공부한 이유 11강에 걸쳐서 분위수에 대해 공부했습니다. 분위수 설명에 많은 강의를 사용했기 때문에, 흐름을 놓친 분을 위해 분위수를 공부한 이유에 대해 되짚어보려고 합니다. 정규성검정의 한 방법으로 Q-Q plot을 소개할 때 분위수가 등장했습니다. Q-Q plot의 full name은 quantile-quantile plot으로 이름 자체에 분위수를 담고 있습니다. QQ plot을 그릴 때, 두 데이터의 분위수를 각각 x축 y축에 나타내고 좌표평면에 점을 찍습니다. QQ plot을 손으로 그려보기 위해 분위수를 공부하게 되었고 분위수를 구하는 방법이 9가지나 된다는 것을 알게 되었습니다. 위키피디아에 quantile을 검색하면 나옵니다. (https://en.wikipedia.org/wiki/Quantile) 분.. 2018. 11. 6.
분위수(Quantile)를 구하는 9가지 방법(#11. Type9 방법) 통계패키지(R,점유율1위)에서 사용하는 분위수 계산방법에는 9종류가 있습니다. 이전 강의에서 언급했듯이 Type 1~3은 불연속 변수를 대상으로 하고, Type4~9는 연속 변수를 대상으로 합니다. 오늘은 불연속변수의 분위수 계산 방법인 Type 1~3을 가지고 분위수 계산을 해봅시다. 불연속 변수의 경우 '보간'을 사용하지 않고 샘플 중에서 분위수를 선정합니다. Type8 계산 방법 분위수라는 것은 결국 어떤 확률 p 위치에 있는 수가 무엇인지를 구하는 것입니다. 예를들어 4분위수는 확률 0.25,0.5,0.75 위치의 수를 구하는 것입니다. 따라서 아래와 같이 확률을 변수로 하는 분위수 값의 그래프를 그릴 수 있다면 어떤 분위수든 바로 계산이 가능해집니다. Q9(p)를 타입9의 방법으로 구한 분위수라.. 2018. 11. 6.
분위수(Quantile)를 구하는 9가지 방법(#10. Type8 방법) 통계패키지(R,점유율1위)에서 사용하는 분위수 계산방법에는 9종류가 있습니다. 이전 강의에서 언급했듯이 Type 1~3은 불연속 변수를 대상으로 하고, Type4~9는 연속 변수를 대상으로 합니다. 오늘은 불연속변수의 분위수 계산 방법인 Type 1~3을 가지고 분위수 계산을 해봅시다. 불연속 변수의 경우 '보간'을 사용하지 않고 샘플 중에서 분위수를 선정합니다. Type8 계산 방법 분위수라는 것은 결국 어떤 확률 p 위치에 있는 수가 무엇인지를 구하는 것입니다. 예를들어 4분위수는 확률 0.25,0.5,0.75 위치의 수를 구하는 것입니다. 따라서 아래와 같이 확률을 변수로 하는 분위수 값의 그래프를 그릴 수 있다면 어떤 분위수든 바로 계산이 가능해집니다. Q8(p)를 타입8의 방법으로 구한 분위수라.. 2018. 11. 1.
분위수(Quantile)를 구하는 9가지 방법(#9. Type7 방법) 통계패키지(R,점유율1위)에서 사용하는 분위수 계산방법에는 9종류가 있습니다. 이전 강의에서 언급했듯이 Type 1~3은 불연속 변수를 대상으로 하고, Type4~9는 연속 변수를 대상으로 합니다. 오늘은 불연속변수의 분위수 계산 방법인 Type 1~3을 가지고 분위수 계산을 해봅시다. 불연속 변수의 경우 '보간'을 사용하지 않고 샘플 중에서 분위수를 선정합니다. Type7 계산 방법 분위수라는 것은 결국 어떤 확률 p 위치에 있는 수가 무엇인지를 구하는 것입니다. 예를들어 4분위수는 확률 0.25,0.5,0.75 위치의 수를 구하는 것입니다. 따라서 아래와 같이 확률을 변수로 하는 분위수 값의 그래프를 그릴 수 있다면 어떤 분위수든 바로 계산이 가능해집니다. Q7(p)를 타입7의 방법으로 구한 분위수라.. 2018. 10. 29.
분위수(Quantile)를 구하는 9가지 방법(#8. Type6 방법) 통계패키지(R,점유율1위)에서 사용하는 분위수 계산방법에는 9종류가 있습니다. 이전 강의에서 언급했듯이 Type 1~3은 불연속 변수를 대상으로 하고, Type4~9는 연속 변수를 대상으로 합니다. 오늘은 불연속변수의 분위수 계산 방법인 Type 1~3을 가지고 분위수 계산을 해봅시다. 불연속 변수의 경우 '보간'을 사용하지 않고 샘플 중에서 분위수를 선정합니다. Type6 계산 방법 분위수라는 것은 결국 어떤 확률 p 위치에 있는 수가 무엇인지를 구하는 것입니다. 예를들어 4분위수는 확률 0.25,0.5,0.75 위치의 수를 구하는 것입니다. 따라서 아래와 같이 확률을 변수로 하는 분위수 값의 그래프를 그릴 수 있다면 어떤 분위수든 바로 계산이 가능해집니다. Q6(p)를 타입6의 방법으로 구한 분위수라.. 2018. 10. 25.
분위수(Quantile)를 구하는 9가지 방법(#7. Type5 방법) 통계패키지(R,점유율1위)에서 사용하는 분위수 계산방법에는 9종류가 있습니다. 이전 강의에서 언급했듯이 Type 1~3은 불연속 변수를 대상으로 하고, Type4~9는 연속 변수를 대상으로 합니다. 오늘은 불연속변수의 분위수 계산 방법인 Type 1~3을 가지고 분위수 계산을 해봅시다. 불연속 변수의 경우 '보간'을 사용하지 않고 샘플 중에서 분위수를 선정합니다. Type5 계산 방법 분위수라는 것은 결국 어떤 확률 p 위치에 있는 수가 무엇인지를 구하는 것입니다. 예를들어 4분위수는 확률 0.25,0.5,0.75 위치의 수를 구하는 것입니다. 따라서 아래와 같이 확률을 변수로 하는 분위수 값의 그래프를 그릴 수 있다면 어떤 분위수든 바로 계산이 가능해집니다. Q5(p)를 타입5의 방법으로 구한 분위수라.. 2018. 10. 23.
분위수(Quantile)를 구하는 9가지 방법(#6. Type4 방법) 통계패키지(R,점유율1위)에서 사용하는 분위수 계산방법에는 9종류가 있습니다. 이전 강의에서 언급했듯이 Type 1~3은 불연속 변수를 대상으로 하고, Type4~9는 연속 변수를 대상으로 합니다. 오늘은 불연속변수의 분위수 계산 방법인 Type 1~3을 가지고 분위수 계산을 해봅시다. 불연속 변수의 경우 '보간'을 사용하지 않고 샘플 중에서 분위수를 선정합니다. Type4 계산 방법 분위수라는 것은 결국 어떤 확률 p 위치에 있는 수가 무엇인지를 구하는 것입니다. 예를들어 4분위수는 확률 0.25,0.5,0.75 위치의 수를 구하는 것입니다. 따라서 아래와 같이 확률을 변수로 하는 분위수 값의 그래프를 그릴 수 있다면 어떤 분위수든 바로 계산이 가능해집니다. Q4(p)를 타입4의 방법으로 구한 분위수라.. 2018. 10. 22.
5. 분위수(Quantile)를 구하는 9가지 방법(#5. 순서통계 보충설명) 5. 분위수(Quantile)를 구하는 9가지 방법(#5. 순서통계 보충설명) 지난시간까지 불연속변수의 분위수 계산 방법인 Type 1~3을 가지고 분위수 계산을 해봤습니다. 순서통계에 대한 설명이 부족한 것 같아서 오늘은 그 원리를 설명드리겠습니다. 분위수 중 하나를 예를들어볼게요. 무수히 많은 분위수를 정의할 수 있지만, 가장 자주 쓰는 사분위수를 예로 들겠습니다. 나머지 분위수들도 동일한 원리로 계산됩니다. 10개의 수를 생성했습니다. 24,28,37,43,46,47,59,67,75,77 사분위수 계산에서 얻어야 하는 결과는 아래와 같습니다. 0% : 0사분위수 25% : 1사분위수 50% : 2사분위수 75% : 3사분위수 100% : 4사분위수 일반적 정의에서 사분위수는 1,2,3사분위수 3개입.. 2018. 10. 18.
분위수(Quantile)를 구하는 9가지 방법(#2~5. Type1~3 방법) 통계패키지(R,점유율1위)에서 사용하는 분위수 계산방법에는 9종류가 있습니다. 이전 강의에서 언급했듯이 Type 1~3은 불연속 변수를 대상으로 하고, Type4~9는 연속 변수를 대상으로 합니다. 오늘은 불연속변수의 분위수 계산 방법인 Type 1~3을 가지고 분위수 계산을 해봅시다. 불연속 변수의 경우 '보간'을 사용하지 않고 샘플 중에서 분위수를 선정합니다. Type1 계산 방법 (올림 round up) 분위수라는 것은 결국 어떤 확률 p 위치에 있는 수가 무엇인지를 구하는 것입니다. 예를들어 4분위수는 확률 0.25,0.5,0.75 위치의 수를 구하는 것입니다. 따라서 아래와 같이 확률을 변수로 하는 분위수 값의 그래프를 그릴 수 있다면 어떤 분위수든 바로 계산이 가능해집니다. Q1(p)를 타입1.. 2018. 9. 26.
분위수(Quantile)를 구하는 9가지 방법 (#1. 분위수 이해하기) Q-Q plot 을 이해하려면 먼저 분위수에 대해 알아야 합니다. 세 강의에 걸쳐서 분위수를 설명드리겠습니다. 분위수는 영어로 quantile입니다. 분위수(quantile)는 오름차순(혹은 내림차순)정렬 되어 있는 전체 자료를 특정 개수로 나눌 때 그 기준이 되는 수입니다. 따라서 분위수 앞에는 자료를 몇 개로 나눌지 결정하는 숫자가 붙어있습니다. 예를들어 이분위수는 자료 전체를 2등분 하는 수들이라는 의미입니다. 우리가 잘 아는 사분위수는 자료 전체를 4등분하는 수들이라는 의미입니다. 따라서 우리는 무수히 많은 종류의 분위수를 정의할 수 있습니다. 이를 일반화시켜서 q분위수(q-quantiles)이라고 부릅니다. q분위수의 대표적인 이름들을 알아봅시다. - 2분위수(2-quantiles)는 media.. 2018. 9. 3.
대표적인 정규성검정 방법 소개 (6가지) 대표적인 정규성 검정 방법에는 여섯가지가 있습니다. 1. Quantile-Quantile plot (QQ-plot) 2. Kolmogorov-Smirnov test (KS test) 3. Lilliefors test (LF test) 4. Cramer-von Mises test (CVM test) 5. Anderson-Darling test (AD test) 6. Shapiro-Wilk test (SW test) 앞으로 진행되는 강의에서 위 검정들을 하나씩 유도하며 원리를 이해할 계획입니다. 이번 강의에서는 몇가지 특징만 간단히 설명하고 넘어가겠습니다. QQ plot의 경우 p-value 를 계산해주지는 않기 때문에 정량적인 판단은 불가능하고, 육안으로 정성적인 확인만 가능합니다. 나머지 검정방법들은 p.. 2018. 8. 6.
Z검정의 한계(정규성,t,비모수검정의 출현+디시전트리) 지금까지 우리는 Z검정에대해 공부했습니다. Z검정은 아무때나 사용할 수 있는 검정방법은 아닙니다. Z검정을 하기 위해서는 두 가지 조건이 필요합니다. 1) 모집단의 분산을 알고 있음 2) 중심극한정리를 적용할 수 있을 만큼 표본의 크기가 충분히 큼(or 모집단이 정규분포를 따름) 2)번은 표본평균의 분포를 정규분포로 가정하기 위한 조건입니다. 이제 이런 질문이 생깁니다. 표본의 크기가 충분히 크다는게 어느정도지? 모집단의 분산을 모를 때는? 표본의 크기가 충분히 크기 않을 때는? 일단 첫번째 질문에 먼저 답하겠습니다. 일반적으로, 경험적으로 표본의 크기가 30개 이상이면 중심극한정리를 만족한다고 가정합니다. 나머지 세 질문이 매우 중요한데요. 이런 질문들이 여러 검정 방법들을 탄생시켰습니다. 오늘은 그 .. 2018. 6. 2.
반응형