반응형 분류 전체보기648 [손으로 푸는 확률분포] 확률분포의 종류 (연속확률분포, 이산확률분포) 통계학에서 사용되는 다양한 확률분포들을 설명하는 강의입니다. 각 확률분포의 간단한 예시, 유도, 통계량 계산, 그래프 등의 내용을 다룰 것입니다. 확률분포는 크게 '이산확률분포'와 '연속확률분포'로 나뉩니다. 이산확률분포는 확률변수의 개수를 셀 수 있는 경우를 말합니다. 개수가 유한개로 한정되지는 않습니다. 자연수는 무한개이지만 이산확률변수에 속합니다. 순서대로 셀 수 있기 때문입니다. 연속확률분포는 확률변수가 셀 수 없는 경우의 분포를 말합니다. 이산확률분포 : 확률변수 개수를 셀 수 있음 연속확류분포 : 확률변수 개수를 셀 수 없음 1. 이산확률분포 종류 강의에서 다룰 이산확률분포는 아래와 같습니다. - 베르누이분포 - 이항분포 - 기하분포 - 음이항분포 - 포아송분포 - 초기하분포 - 다항분포 2... 2018. 12. 24. 회귀분석에 '회귀'라는 말이 왜 붙어있나? 회귀분석은 통계학에서 매우 중요하면서 기본이 되는 과목입니다. 통계학의 꽃이라고도 불립니다. 회귀분석을 사용하는 방법에 익숙해진 뒤에는 '회귀'라는 용어에 더이상 의문을 갖지 않습니다. 이 용어의 의미를 이해했다기 보다는 각자가 접한 예제들을 이해하고 이를 '회귀분석'이라는 이름과 단순히 연결시켰을 것입니다. 회귀분석이라는 이름에 대한 의문이 사라지기 전에 이름에 담긴 의미를 알아봅시다. 회귀라는 말의 한자 뜻은 돌아올 회, 돌아갈 귀 입니다. 어딘가로 '되돌아간다'는 뜻입니다. 회귀분석은 되돌아가는 분석이라는 말인데, 무슨 의미인지 전혀 감이 오지 않습니다. 회귀분석의 목적은 우리가 관심이 있는 종속변수들에 영향을 주는 독립변수들을 찾고, 독립변수들과 종속변수들의 관계를 나타내는 모델을 만드는 것입니다.. 2018. 12. 17. 정규성검정 KS test (2) Nikolai Smirnov KS 테스트를 개발한 분의 이야기를 이어서 하겠습니다. 지난시간에는 Andrey Kolmogorov 이야기를 했었는데요. 오늘은 Nikolai Smirnov에 대해 말씀드리겠습니다. 이분에 대한 자료는 많이 없어서 내용이 짧습니다. 스미르노프는 1900년에 러시아 모스크바에서 태어났습니다. 콜모고로프처럼 러시아 사람입니다. 1938년에 박사학위를 땄습니다. 당시 했던 연구가 앞으로 이어질 비모수 검정 연구의 기초가 됐다고 합니다. 1938년에 Steklov Institute of Mathematics 의 연구원이 됩니다. 수학에 특화된 국가연구소라고 합니다. 우리나라의 고등과학원 정도가 될겁니다. 1957년에 수리통계학 분야 책임자가 됩니다. 스미르노프는 수리통계학 분야 비모수 기법의 창시자중 한명입니다.. 2018. 11. 26. 서울대 통계학과 대학원 필답/구술고사 과목 및 도서명 1. 필답고사 : 수리통계, 회귀분석 + 해석개론, 선형대수 - 수리통계학수리통계학(김우철)Casella, G. and Berger, R. L. (2001). Statistical Inference - 회귀분석Introduction to Linear Regression Analysis-Montgomery - 해석개론Elementary Classical Analysis second edition-J.E. Marsden & M.J. Hoffman-W.H. Freeman and Company New York-1993해석개론(김성기) - 선형대수선형대수와 군(이인석)Linear Algebra-Friedberg 2. 석사 구술고사 : 필답과 동일 3. 박사 구술고사 : 통계이론1, 확률론1, 응용통계 - 통계이론.. 2018. 11. 24. 정규성검정 KS test (1) Andrey Kolmogorov 드디어 정규성검정에 대한 공부가 시작되었습니다. Q-Q plot도 정규성 검정으로 사용되기는 하지만 정성적인 방법이므로, 정량적인 방법은 이번 강의부터 설명하는 것입니다. 제가 앞으로 설명드릴 정량적인 방법은 아래의 다섯가지입니다. 1. Kolmogorov-Smirnov test (KS test) 2. Lilliefors test (LF test) 3. Cramer-von Mises test (CVM test) 4. Anderson-Darling test (AD test) 5. Shapiro-Wilk test (SW test) 앞으로는 약어(abbreviation)를 사용하도록 하겠습니다. KS 검정을 먼저 공부할 것인데요. 검정의 원리를 설명하기 전에 검정 방법을 만든 사람들에 대한 소개를 하려고 합니.. 2018. 11. 24. Q-Q plot 그리는 법 (5) 정규분포와의 비교 이번 시간에는 데이터를 정규분포와 비교할 수 있는 Q-Q plot을 그려보겠습니다. '정규성 검정'의 기능을 하는 Q-Q plot입니다. 먼저 데이터를 하나 생성합시다. Data1 : 24, 28, 37, 43, 46 이제 Data1의 확률 분위수 그래프를 그리고, 같은 확률의 분위수를 정규분포에서 찾아주시면 됩니다. 원리는 앞의 방법과 동일한데 주의할 점이 하나 있습니다. Type7를 예를들어봅시다. Data1의 Type7 그래프를 그리면 아래와 같습니다. 오른쪽에는 표준정규분포의 역누적분포함수를 그리겠습니다. data1의 각 값들을 분위수로 하는 확률은 0, 0.25, 0.5, 0.75, 1입니다. 문제가 뭔지 아시겠죠? 표준정규분포 누적분포함수의 역함수에서는 확률이 0과 1인 곳에서 그 값이 존재하.. 2018. 11. 18. Q-Q plot 그리는 법 (4) 크기가 다른 두 데이터의 Q-Q plot 이번 시간에는 크기가 다른 두 데이터의 Q-Q plot을 그려봅시다. 먼저 두 데이터를 생성합시다. Data1 : 24, 28, 37, 43, 46 Data2 : 15, 18, 23, 33, 45, 48, 50 두 데이터 각각의 확률-분위수 그래프를 먼저 그리겠습니다. 몇 번 type으로 그릴지를 정해야합니다. 어떤 타입도 선택할 수 있는데 type7로 하겠습니다(R의 디폴트입니다). 그래프를 그리면 아래와 같습니다. 개수가 적은 쪽에 맞춰서 대응시킵니다. Data1의 데이터에 대응되는 확률은 0, 0.25, 0.5, 0.75, 1입니다. 이 확률에서의 분위수 값을 Data2그래프에서 찾으면 됩니다. 계산하면 아래와 같습니다. 15, 20.5, 33, 46.5, 50 Data1과 2의 분위수를 이용하여 .. 2018. 11. 14. Q-Q plot 그리는 법 (3) 크기가 같은 두 데이터의 Q-Q plot 지난 강의에서 Q-Q plot의 원리에 대해서 알아보았습니다. 오늘은 실제 예시를 통해 직접 그려보도록 하겠습니다. 아래와 같이 크기가 같은 두 데이터를 예로 들겠습니다. Data 1 : 24,28,37,43,46 Data 2 : 14,17,23,44,57 각각을 순위 또는 순서를 이용해서 표현해봅시다. Data 1 : x1, x2, x3, x4, x5 Data 2 : x1, x2, x3, x4, x5 만약 이 순서로 확률-분위수 그래프를 그린다면, 두 데이터에서 동일한 그래프가 그려질 것입니다. type에 상관없이 같아집니다. 따라서 x1에 해당되는 24와 14에 해당되는 확률이 같습니다. 24와 14가 같은 분위수라는 것입니다. 이와 동일한 이유로 28과 17, 37과 23, 43과 44, 46과 5.. 2018. 11. 13. Q-Q plot 그리는 법 (2) 원리 Q-Q plot의 원리 지난시간에 '역누적분포함수'가 확률-분위수함수와 동일하다는 것을 배웠습니다. 오늘은 '역누적분포함수'를 이용해서 Q-Q plot의 원리를 설명하겠습니다. 두 집단이 있다고 해봅시다. 집단 A와 집단 B입니다. 집단 A의 역누적분포함수를 A(x), 집단 B의 역누적분포함수를 B(x)라고 합시다. 변수 x는 확률입니다. 두 집단의 분포가 같다면 아래 등식이 성립합니다. 두 집단이 같은 분포를 따른다는 것은 한 집단의 선형변환을 통해 다른 집단을 만들 수 있다는 것입니다. 여러분이 알고 계신 여러 분포들(정규분포, 지수분포, 카이제곱분포 등)을 선형 변환해보시면 이해가 되실 겁니다. 이 원리를 이용하면 분위수 끼리도 선형관계를 갖는다는 것을 알 수 있습니다. 그래프로 그리면 아래와 같습.. 2018. 11. 12. Q-Q plot 그리는 법 (1) 역누적분포함수 Q-Q plot의 목적 Q-Q plot은 Quantile-Quantile plot의 줄임말입니다. 분위수-분위수 그래프라는 뜻이구요. 두 데이터의 분위수를 그래프로 그리는 것입니다. 두 데이터의 분위수를 그려서 뭘 하고싶은 걸까요? Q-Q plot의 목적은 '분포 비교'입니다. 어떤 원리로 비교하는 것일까요? 역누적분포함수 Q-Q plot의 원리를 이해하려면 먼저 '역누적분포함수'를 알아야 합니다. 우리가 이미 알고 있는 정규분포함수로 시작해서 접근해 봅시다. 정규분포함수는 '확률밀도함수'입니다. x축이 변수(키,몸무게 등), y축이 확률밀도값입니다. 정규분포함수를 f(x)라고 했을 때, 누적분포함수 F(x)를 아래와 같이 정의할 수 있습니다. 이때 F(x) 값은, x 이하인 데이터의 비율(또는 x보다 .. 2018. 11. 8. 분위수 구하는 9가지 방법을 공부한 이유 11강에 걸쳐서 분위수에 대해 공부했습니다. 분위수 설명에 많은 강의를 사용했기 때문에, 흐름을 놓친 분을 위해 분위수를 공부한 이유에 대해 되짚어보려고 합니다. 정규성검정의 한 방법으로 Q-Q plot을 소개할 때 분위수가 등장했습니다. Q-Q plot의 full name은 quantile-quantile plot으로 이름 자체에 분위수를 담고 있습니다. QQ plot을 그릴 때, 두 데이터의 분위수를 각각 x축 y축에 나타내고 좌표평면에 점을 찍습니다. QQ plot을 손으로 그려보기 위해 분위수를 공부하게 되었고 분위수를 구하는 방법이 9가지나 된다는 것을 알게 되었습니다. 위키피디아에 quantile을 검색하면 나옵니다. (https://en.wikipedia.org/wiki/Quantile) 분.. 2018. 11. 6. 분위수(Quantile)를 구하는 9가지 방법(#11. Type9 방법) 통계패키지(R,점유율1위)에서 사용하는 분위수 계산방법에는 9종류가 있습니다. 이전 강의에서 언급했듯이 Type 1~3은 불연속 변수를 대상으로 하고, Type4~9는 연속 변수를 대상으로 합니다. 오늘은 불연속변수의 분위수 계산 방법인 Type 1~3을 가지고 분위수 계산을 해봅시다. 불연속 변수의 경우 '보간'을 사용하지 않고 샘플 중에서 분위수를 선정합니다. Type8 계산 방법 분위수라는 것은 결국 어떤 확률 p 위치에 있는 수가 무엇인지를 구하는 것입니다. 예를들어 4분위수는 확률 0.25,0.5,0.75 위치의 수를 구하는 것입니다. 따라서 아래와 같이 확률을 변수로 하는 분위수 값의 그래프를 그릴 수 있다면 어떤 분위수든 바로 계산이 가능해집니다. Q9(p)를 타입9의 방법으로 구한 분위수라.. 2018. 11. 6. 분위수(Quantile)를 구하는 9가지 방법(#10. Type8 방법) 통계패키지(R,점유율1위)에서 사용하는 분위수 계산방법에는 9종류가 있습니다. 이전 강의에서 언급했듯이 Type 1~3은 불연속 변수를 대상으로 하고, Type4~9는 연속 변수를 대상으로 합니다. 오늘은 불연속변수의 분위수 계산 방법인 Type 1~3을 가지고 분위수 계산을 해봅시다. 불연속 변수의 경우 '보간'을 사용하지 않고 샘플 중에서 분위수를 선정합니다. Type8 계산 방법 분위수라는 것은 결국 어떤 확률 p 위치에 있는 수가 무엇인지를 구하는 것입니다. 예를들어 4분위수는 확률 0.25,0.5,0.75 위치의 수를 구하는 것입니다. 따라서 아래와 같이 확률을 변수로 하는 분위수 값의 그래프를 그릴 수 있다면 어떤 분위수든 바로 계산이 가능해집니다. Q8(p)를 타입8의 방법으로 구한 분위수라.. 2018. 11. 1. 분위수(Quantile)를 구하는 9가지 방법(#9. Type7 방법) 통계패키지(R,점유율1위)에서 사용하는 분위수 계산방법에는 9종류가 있습니다. 이전 강의에서 언급했듯이 Type 1~3은 불연속 변수를 대상으로 하고, Type4~9는 연속 변수를 대상으로 합니다. 오늘은 불연속변수의 분위수 계산 방법인 Type 1~3을 가지고 분위수 계산을 해봅시다. 불연속 변수의 경우 '보간'을 사용하지 않고 샘플 중에서 분위수를 선정합니다. Type7 계산 방법 분위수라는 것은 결국 어떤 확률 p 위치에 있는 수가 무엇인지를 구하는 것입니다. 예를들어 4분위수는 확률 0.25,0.5,0.75 위치의 수를 구하는 것입니다. 따라서 아래와 같이 확률을 변수로 하는 분위수 값의 그래프를 그릴 수 있다면 어떤 분위수든 바로 계산이 가능해집니다. Q7(p)를 타입7의 방법으로 구한 분위수라.. 2018. 10. 29. 분위수(Quantile)를 구하는 9가지 방법(#8. Type6 방법) 통계패키지(R,점유율1위)에서 사용하는 분위수 계산방법에는 9종류가 있습니다. 이전 강의에서 언급했듯이 Type 1~3은 불연속 변수를 대상으로 하고, Type4~9는 연속 변수를 대상으로 합니다. 오늘은 불연속변수의 분위수 계산 방법인 Type 1~3을 가지고 분위수 계산을 해봅시다. 불연속 변수의 경우 '보간'을 사용하지 않고 샘플 중에서 분위수를 선정합니다. Type6 계산 방법 분위수라는 것은 결국 어떤 확률 p 위치에 있는 수가 무엇인지를 구하는 것입니다. 예를들어 4분위수는 확률 0.25,0.5,0.75 위치의 수를 구하는 것입니다. 따라서 아래와 같이 확률을 변수로 하는 분위수 값의 그래프를 그릴 수 있다면 어떤 분위수든 바로 계산이 가능해집니다. Q6(p)를 타입6의 방법으로 구한 분위수라.. 2018. 10. 25. 분위수(Quantile)를 구하는 9가지 방법(#7. Type5 방법) 통계패키지(R,점유율1위)에서 사용하는 분위수 계산방법에는 9종류가 있습니다. 이전 강의에서 언급했듯이 Type 1~3은 불연속 변수를 대상으로 하고, Type4~9는 연속 변수를 대상으로 합니다. 오늘은 불연속변수의 분위수 계산 방법인 Type 1~3을 가지고 분위수 계산을 해봅시다. 불연속 변수의 경우 '보간'을 사용하지 않고 샘플 중에서 분위수를 선정합니다. Type5 계산 방법 분위수라는 것은 결국 어떤 확률 p 위치에 있는 수가 무엇인지를 구하는 것입니다. 예를들어 4분위수는 확률 0.25,0.5,0.75 위치의 수를 구하는 것입니다. 따라서 아래와 같이 확률을 변수로 하는 분위수 값의 그래프를 그릴 수 있다면 어떤 분위수든 바로 계산이 가능해집니다. Q5(p)를 타입5의 방법으로 구한 분위수라.. 2018. 10. 23. 분위수(Quantile)를 구하는 9가지 방법(#6. Type4 방법) 통계패키지(R,점유율1위)에서 사용하는 분위수 계산방법에는 9종류가 있습니다. 이전 강의에서 언급했듯이 Type 1~3은 불연속 변수를 대상으로 하고, Type4~9는 연속 변수를 대상으로 합니다. 오늘은 불연속변수의 분위수 계산 방법인 Type 1~3을 가지고 분위수 계산을 해봅시다. 불연속 변수의 경우 '보간'을 사용하지 않고 샘플 중에서 분위수를 선정합니다. Type4 계산 방법 분위수라는 것은 결국 어떤 확률 p 위치에 있는 수가 무엇인지를 구하는 것입니다. 예를들어 4분위수는 확률 0.25,0.5,0.75 위치의 수를 구하는 것입니다. 따라서 아래와 같이 확률을 변수로 하는 분위수 값의 그래프를 그릴 수 있다면 어떤 분위수든 바로 계산이 가능해집니다. Q4(p)를 타입4의 방법으로 구한 분위수라.. 2018. 10. 22. 5. 분위수(Quantile)를 구하는 9가지 방법(#5. 순서통계 보충설명) 5. 분위수(Quantile)를 구하는 9가지 방법(#5. 순서통계 보충설명) 지난시간까지 불연속변수의 분위수 계산 방법인 Type 1~3을 가지고 분위수 계산을 해봤습니다. 순서통계에 대한 설명이 부족한 것 같아서 오늘은 그 원리를 설명드리겠습니다. 분위수 중 하나를 예를들어볼게요. 무수히 많은 분위수를 정의할 수 있지만, 가장 자주 쓰는 사분위수를 예로 들겠습니다. 나머지 분위수들도 동일한 원리로 계산됩니다. 10개의 수를 생성했습니다. 24,28,37,43,46,47,59,67,75,77 사분위수 계산에서 얻어야 하는 결과는 아래와 같습니다. 0% : 0사분위수 25% : 1사분위수 50% : 2사분위수 75% : 3사분위수 100% : 4사분위수 일반적 정의에서 사분위수는 1,2,3사분위수 3개입.. 2018. 10. 18. 분위수(Quantile)를 구하는 9가지 방법(#2~5. Type1~3 방법) 통계패키지(R,점유율1위)에서 사용하는 분위수 계산방법에는 9종류가 있습니다. 이전 강의에서 언급했듯이 Type 1~3은 불연속 변수를 대상으로 하고, Type4~9는 연속 변수를 대상으로 합니다. 오늘은 불연속변수의 분위수 계산 방법인 Type 1~3을 가지고 분위수 계산을 해봅시다. 불연속 변수의 경우 '보간'을 사용하지 않고 샘플 중에서 분위수를 선정합니다. Type1 계산 방법 (올림 round up) 분위수라는 것은 결국 어떤 확률 p 위치에 있는 수가 무엇인지를 구하는 것입니다. 예를들어 4분위수는 확률 0.25,0.5,0.75 위치의 수를 구하는 것입니다. 따라서 아래와 같이 확률을 변수로 하는 분위수 값의 그래프를 그릴 수 있다면 어떤 분위수든 바로 계산이 가능해집니다. Q1(p)를 타입1.. 2018. 9. 26. 분위수(Quantile)를 구하는 9가지 방법 (#1. 분위수 이해하기) Q-Q plot 을 이해하려면 먼저 분위수에 대해 알아야 합니다. 세 강의에 걸쳐서 분위수를 설명드리겠습니다. 분위수는 영어로 quantile입니다. 분위수(quantile)는 오름차순(혹은 내림차순)정렬 되어 있는 전체 자료를 특정 개수로 나눌 때 그 기준이 되는 수입니다. 따라서 분위수 앞에는 자료를 몇 개로 나눌지 결정하는 숫자가 붙어있습니다. 예를들어 이분위수는 자료 전체를 2등분 하는 수들이라는 의미입니다. 우리가 잘 아는 사분위수는 자료 전체를 4등분하는 수들이라는 의미입니다. 따라서 우리는 무수히 많은 종류의 분위수를 정의할 수 있습니다. 이를 일반화시켜서 q분위수(q-quantiles)이라고 부릅니다. q분위수의 대표적인 이름들을 알아봅시다. - 2분위수(2-quantiles)는 media.. 2018. 9. 3. 대표적인 정규성검정 방법 소개 (6가지) 대표적인 정규성 검정 방법에는 여섯가지가 있습니다. 1. Quantile-Quantile plot (QQ-plot) 2. Kolmogorov-Smirnov test (KS test) 3. Lilliefors test (LF test) 4. Cramer-von Mises test (CVM test) 5. Anderson-Darling test (AD test) 6. Shapiro-Wilk test (SW test) 앞으로 진행되는 강의에서 위 검정들을 하나씩 유도하며 원리를 이해할 계획입니다. 이번 강의에서는 몇가지 특징만 간단히 설명하고 넘어가겠습니다. QQ plot의 경우 p-value 를 계산해주지는 않기 때문에 정량적인 판단은 불가능하고, 육안으로 정성적인 확인만 가능합니다. 나머지 검정방법들은 p.. 2018. 8. 6. Z검정의 한계(정규성,t,비모수검정의 출현+디시전트리) 지금까지 우리는 Z검정에대해 공부했습니다. Z검정은 아무때나 사용할 수 있는 검정방법은 아닙니다. Z검정을 하기 위해서는 두 가지 조건이 필요합니다. 1) 모집단의 분산을 알고 있음 2) 중심극한정리를 적용할 수 있을 만큼 표본의 크기가 충분히 큼(or 모집단이 정규분포를 따름) 2)번은 표본평균의 분포를 정규분포로 가정하기 위한 조건입니다. 이제 이런 질문이 생깁니다. 표본의 크기가 충분히 크다는게 어느정도지? 모집단의 분산을 모를 때는? 표본의 크기가 충분히 크기 않을 때는? 일단 첫번째 질문에 먼저 답하겠습니다. 일반적으로, 경험적으로 표본의 크기가 30개 이상이면 중심극한정리를 만족한다고 가정합니다. 나머지 세 질문이 매우 중요한데요. 이런 질문들이 여러 검정 방법들을 탄생시켰습니다. 오늘은 그 .. 2018. 6. 2. [손으로 푸는 통계] 26. 1표본 Z검정 예제 1표본 Z검정 예제를 하나 풀어봅시다. A회사 K젤리라는 예제입니다. A제과회사에서는 K젤리라는 인기상품을 팔고 있습니다. A회사는 K젤리 무게의 평균과 표준편차를 아래와 같다고 주장하고 있습니다. 75g±5g A회사의 경쟁사인 B사에서는 A사가 K젤리의 무게를 부풀렸다고 생각합니다. B회사에서는 이를 통계적으로 입증하기 위해 K젤리 100개를 구매했습니다. 모집단에서 크기가 100인 표본을 뽑은 것입니다. 포장을 뜯어 100개의 K젤리 무게의 표본평균과 표본표준편차를 계산했더니 아래와 같았습니다. ˉX1=68.5 σ1=2 귀무가설과 대립가설을 세워봅시다. 귀무가설은 K젤리의 무게 평균이 70g 이라는 것입니다. 대립가설은 우리의 주장이 담긴 것으로 '70g보.. 2018. 5. 31. [손으로 푸는 통계] 25. 통계적 가설검정 감잡기 5 (1종오류 vs 2종오류) 통계적 가설검정은 귀무가설과 대립가설을 세우고 p값에 따라 기각 여부를 결정하는 것을 말합니다. 통계적 가설검정에는 아래와 같은 네 가지 상황이 발생할 수 있습니다. 1. 귀무가설이 참 → 채택 2. 귀무가설이 참 → 기각 (1종 오류, α 오류) 3. 귀무가설이 거짓 → 채택 (2종 오류, β 오류) 4. 귀무가설이 거짓 → 기각 쉽게 이해하기 위해 아래와 같은 표를 만들어 봅시다. 통계적 가설검정은 확률이 개입되기 때문에 항상 옳은 결정을 내릴 수 없습니다. 실제로 귀무가설이 참인데 기각할 수도 있고, 귀무가설이 거짓인데 채택할 수도 있습니다. 이러한 잘못된 선택을 오류라고 합니다. 귀무가설이 참인데도 기각하는 오류를 1종오류 또는 α 오류라고 합니다. 귀무가설이 거짓인데도 기각을 하지 않는 오류를 .. 2018. 5. 21. [손으로 푸는 통계] 24. 통계적 가설 검정 감잡기 4 (양측검정 vs 단측검정) 우리는 지난시간까지 아래 내용을 배운 상태입니다. - 귀무가설, 대립가설 - 가설검정 원리 - 유의수준 (α) - 유의확률 (p-value) 이번시간에는 기각역, 양측검정, 단측검정을 배워봅시다. 지난시간에 사용한 예시를 가져옵시다. 모집단이 하나 있는데, 평균이 μ라고 알려져 있습니다. 우리는 이 주장에 반대하는 상황입니다. Z검정을 하기 위해 귀무가설과 대립가설을 아래와 같이 세웠습니다. 귀무가설 : E[ˉX]=μ (기존의 주장) 대립가설 : E[ˉX]≠μ (기존의 주장에 반대하는 우리의 주장) 이 모집단에서 표본을 하나 뽑아서 평균을 구했습니다. 우리가 뽑은 표본의 평균을 ˉX1 라고 합시다. ˉX1 보.. 2018. 5. 19. [손으로 푸는 통계] 23. 통계적 가설 검정 감잡기 3 (유의수준 α, 유의확률 p-value) 오늘은 가설검정에서 사용되는 중요한 개념인 유의수준과 유의확률에 대해 배워볼 것입니다. 그 전에 지난 시간에 배운 내용을 간단히 복습하고 오늘 내용을 배워봅시다. 어떤 사람이 모집단의 평균이 μ 라고 주장하고 있습니다. 우리는 아니라고 생각합니다. 이를 밝혀내기 위해 두 가지 가설을 세웠습니다. 귀무가설 : E[ˉX]=μ (기존의 주장) 대립가설 : E[ˉX]≠μ (기존의 주장에 반대하는 우리의 주장) 기존의 주장이 맞다고 가정하고 진행하겠습니다. 평균이 μ인 모집단에서 크기가 n인 표본평균 분포함수를 정의했습니다. 표본을 뽑지 않아도 분포함수를 정의할 수 있다는 것을 이미 배웠습니다. 아래와 같습니다. $\bar{X} \sim N \left ( \.. 2018. 5. 16. [손으로 푸는 통계] 22. 통계적 가설 검정 감잡기 2 (1표본 Z검정) 지난글에서 통계적 가설검정이 무엇인지 간단히 살펴봤습니다. 오늘은 통계적 가설검정의 절차를 자세히 공부할 것입니다. 통계적 가설검정은 귀무가설과 대립가설을 세우고 해당 가설이 참인지를 확률적으로 판단하는 방법입니다. 모집단의 평균이 μ라고 알려진 상황이고 우리는 이러한 사실을 반박하고 싶습니다. 이때 귀무가설과 대립가설은 아래와 같이 세웁니다. 귀무가설 : E[ˉX]=μ (기존의 주장) 대립가설 : E[ˉX]≠μ (기존의 주장에 반대하는 우리의 주장) 표본평균의 평균은 모평균과 같으므로 위 가설의 E[ˉX] 는 '모집단의 평균' 을 다른 기호로 나타낸 것 뿐입니다. 우리는 귀무가설이 참인지 여부를 통계적으로 판단해야 합니다. 판단 방법의 핵심은.. 2018. 5. 12. [손으로 푸는 통계] 21. 통계적 가설 검정 감잡기 1 (귀무가설, 대립가설) 지난시간까지 배운 내용은 아래와 같습니다. - 통계량 (평균,분산,표준편차) - 모집단의 통계량과 표본의 통계량 사이의 관계 - 중심극한정리 - 정규분포 유도 기본 내용에 대한 정리가 어느정도 끝났습니다. 이번시간부터는 통계적 가설검정에 대해 배워봅시다. t검정, 분산분석, 회귀분석 등 대부분의 통계분석 방법의 기본 원리는 '통계적 가설검정'입니다. 통계적 가설검정 가설검정은 어떤 가설을 세우고 그 가설이 맞는지 틀린지를 시험하는 것입니다. 통계적 가설검정에서는 통계 이론과 확률을 이용하여 가설을 검정합니다. 가설검정은 영어로 hypothesis test 입니다. 어떤 가설을 세울까 통계적 가설검정에서는 주로 어떤 가설을 세울까요? 통계량을 이용하여 가설을 세웁니다. 우리가 배운 통계량은 평균, 분산이 .. 2018. 5. 10. [손으로 푸는 통계] 20. 정규분포를 유도하며 알게 된 것들 고등학교에서 정규분포를 처음 배울 때 함수의 수식부터 배웠떤 기억이 있습니다. 이어서 정규분포의 성질들을 배웠습니다. 정규분포의 모양ㅇ느 종을 엎어놓은 모양이고, 표준편차가 작아질 수록 얇고 높아진다 등을 배웠습니다. 그 당시 정규분포의 유도과정이 궁금했었는데 왜 선생님에게 질문을 하지 않았었는지는 기억이 안납니다. 나름대로 내렸던 결론은 유도과정이 없고 여러 현상에서 발견되는 분포들을 수학적으로 fitting 하여 찾아냈을 것이라 생각했었습니다. 졸업 후 한참이 지난 20대 후반에 취미로 통계공부를 시작했고, 정규분포의 유도과정이 있다는 것을 알았습니다. 제가 찾은 방법은 두 가지였고 지난시간까지 두 방법 모두 다뤘습니다. 두 방법은 아래와 같습니다. 방법1. 과녁 맞추기를 이용한 유도 방법2. 이항분.. 2018. 4. 14. [손으로 푸는 통계] 19. 정규분포함수 유도하기 (방법2. 이항분포 이용 2/2) 이항분포를 이용하여 정규분포를 유도하고 있습니다. 지난시간에 유도한 내용을 간단히 요약합시다. 이항분포를 f(r)에서 g(r)=lnf(r) 로 놓고 g(r)을 구하였습니다. 이를 1번 식이라고 하였습니다. g(r)=nlnn−rlnr−(n−r)ln(n−r)+12ln(n)−12ln(r)−12ln(2π)−12ln((n−r))+rlnp+(n−r)lnq (1번식) g(r)의 미분을 구했습니다. 2번 식이라고 하였습니다. $\begin{align} g'(r)&=-\ln r+\ln (n-r) \\ &-\frac{1}{2r} -\f.. 2018. 4. 12. 이전 1 ··· 18 19 20 21 22 다음 반응형