본문 바로가기
반응형

손으로 푸는 통계34

[손으로 푸는 통계 ver1.0] 100. 전체내용 요약 손으로 푸는 통계라는 강의를 한마디로 요약하면 '통계검정에 필요한 기초 이론들과 Z검정의 수학적이해' 라고 할 수 있습니다. 지금까지 다뤘던 전체 내용을 표로 정리해보았습니다. Z검정을 이해하는 과정에서 기초적이면서 중요한 내용들이 자연스럽게 등장했는데요. 1강에서는 평균, 편차, 분산 표준편차를 다뤘구요. 표본의 분산을 구하는 과정에서 자연스럽게 불편추정량이 등장합니다. 그래서 2강에서는 불편추정량이 무엇인지를 다뤘습니다. 3강부터 7강까지는 표본통계량과 모수의 관계를 다뤘습니다. 우리가 가설검정을 하려면 표본평균의 분포를 가정해야하기 때문에 표본평균의 분포를 정규분포로 가정하게 해주는 중심극한 정리를 9강 부터 14강까지 다뤘습니다. 이어서 정규분포를 15강 부터 20강에 걸쳐서 유도를 했습니다. 2.. 2022. 7. 22.
[손으로 푸는 통계 ver1.0] 89. 표본분산의 분포 시뮬레이션 (2) 뭔가 이상하다 아래는 지난시간에 그렸던 그래프입니다. 1~10의 자연수를 갖는 모집단에서 크기가 30인 표본을 뽑고, 표본분산의 분포를 그래프로 그린 것입니다. 더 정확히 말하면 아래 확률변수의 분포입니다. $\frac{n-1}{\sigma^{2}}s^{2}$ 오른쪽 그림은 29자유도의 카이제곱분포입니다. n이 커지면 표본분산의 그래프는 n-1 자유도 카이제곱분포를 따른다고 알려져 있습니다. 나란히 그려진 상태에서 보니 비슷해 보였는데요. 그래프를 겹쳐서 그려보니 이야기가 달라졌습니다. 많이 다릅니다. 겹쳐 그린 그래프로 다시 시뮬레이션을 해보려고 합니다. 모집단을 더 다양화했고 절차도 가다듬었습니다. 1. 배경 우리가 표본분산의 분포를 유도할 때 설정했던 두 가지 조건은 아래와 같습니다. 1) 표본평균의 분포가 정규.. 2022. 6. 6.
[손으로 푸는 통계 ver1.0] 84. 카이제곱분포 형태 예측 (자유도 1~3) 우리는 아래 수식을 유도했습니다. $\frac{n-1}{\sigma^{2}}s^{2} \sim \chi^{2}_{n-1}$ 카이제곱분포의 평균과 분산도 유도한 상태입니다. 이제 카이제곱분포의 분포함수를 그리고 넓이를 구해보면서 모분산 대신 표본분산을 사용하는 것이 가능한지 알아봐야 하는데요. 카이제곱분포를 손으로 정확히 것은 거의 불가능합니다. R이나 파이썬등의 소프트웨어를 이용해서 그려야 하는데요. 미분을 이용하면 어느정도의 형태는 예상해볼 수 있습니다. 오늘은 미분을 이용해서 카이제곱분포의 대략적인 형태를 알아봅시다. n자유도 카이제곱분포 함수는 아래와 같습니다. $f(x)=\frac{1}{2^{\frac{n}{2}}\Gamma\left( \frac{n}{2} \right)} \cdot e^{-\fr.. 2022. 3. 11.
[손으로 푸는 통계 ver1.0] 83. 카이제곱분포의 분산 유도 n자유도 카이제곱분포를 따르는 확률변수의 분산을 유도해봅시다. n자유도 카이제곱분포 함수는 아래와 같습니다. $f(x)=\frac{1}{2^{\frac{n}{2}} \Gamma \left ( \frac{n}{2} \right ) } e^{-\frac{x}{2}} x^{\frac{n}{2}-1}$ 분산은 아래 수식을 이용해서 구하겠습니다. $V[X]=E[X^{2}]-E[X]^{2}$ E[X] 는 n이라는 것을 지난시간에 유도했습니다. 우변의 첫항만 계산하면 됩니다. 우변의 첫항은 아래와 같이 계산됩니다. $E[X^{2}]=\int_{0}^{\infty}x^{2}f(x)dx=\int_{0}^{\infty}x^{2}\frac{1}{2^{\frac{n}{2}} \Gamma \left ( \frac{n}{2} \.. 2022. 3. 7.
[손으로 푸는 통계 ver1.0] 41. 표본분산의 분포 유도 (6) 2자유도 카이제곱분포를 특성함수나 적률생섬함수로 유도할 수 없는 이유 우리는 자유도가 n인 카이제곱분포를 유도하고 있는데요. 제가 생각한 과정은 자유도가 1인 카이제곱분포를 유도하고, 자유도가 1인 카이제곱분포의 적률생성함수 또는 특성함수를 이용하여 자유도가 2인 카이제곱분포를 유도하는 것이었습니다. 그리고 이 과정에서 찾은 관계를 이용하여 자유도 n으로 확장하려고 했는데요. 이 방법으로는 안되더라구요. 지금은 다른 방법을 찾았고 시도하는 중입니다. 이 경우에 왜 적률생성함수나 특성함수로는 불가능한지 공유하는 것 자체가 의미가 있을 것 같아서 공유드리려고 합니다. 먼저 자유도가 1인 카이제곱분포의 적률생성함수를 유도해보겠습니다. 특성함수 유도가 훨씬 복잡해서 적률생성함수로 설명하겠습니다. 자유도가 1인 카이제곱분포를 따르는 확률변수를 Y라고 놓겠습니다. Y의 적률생성함수는.. 2020. 5. 6.
[손으로 푸는 통계 ver1.0] 37. 표본분산의 분포 유도 (2) 표준화 표본분산의 분포를 계속해서 유도해봅시다. 아래는 표본분산의 계산식입니다. 지난시간에 우리는 위 수식을 아래와 같이 변형하였습니다. 우변은 정규분포를 따르는 모집단의 확률변수의 제곱 n개 에서, 정규분포를 따르는 표본평균의 제곱 n개를 뺀 형태입니다. 정규분포보다 표준정규분포가 다루기 쉬우므로, 변형해주겠습니다. 표준화를 할 것입니다. 모집단의 확률변수들은 평균이 모평균 μ 이고 분산이 모분산 σ² 입니다. 표본평균의 평균은 모평균 μ이고, 분산은 모분산을 n으로 나눈 값입니다. 아래와 같이 완전제곱식을 만들게해주는 항을 더하고 빼줍시다. 아래와 같이 꺼내줍시다. 완전제곱식으로 만들어줍시다. 위 식의 파란식들도 완전제곱식으로 만들기 위해 아래와 같이 더하고 뻅시다. 완전제곱식으로 묶고, 소거할 수 있는 항.. 2020. 4. 4.
[손으로 푸는 통계 ver1.0] 36. 표본분산의 분포 유도 (1) 표본분산 수식 변형하기 표본분산의 분포를 유도해봅시다. 일단 시도해보면서 어떤 내용들이 더 필요할지 알아볼 것입니다. 만만치 않은 과정이 될 것 같네요. 평균이 μ 이고 분산이 σ² 인 모집단이 있습니다. 이 모집단에서 뽑을 수 있는 크기가 n인 표본의 표본분산은 아래와 같이 정의됩니다. s² 는 표본분산의 확률변수입니다. 모집단에서 뽑은 수많은 표본분산을 원소로 갖는 집합입니다. 우리가 실제로 표본을뽑는다면, 그 표본을 이 함수에 대입하여 표본분산을 구할 수 있습니다. 확률변수로 놓는 것은 3강에서도 설명한 개념인데요. 이 부분이 이해 안되시는 분들은 댓글을 달아주세요. 많은 분들이 이해를 어려워하시면 더 와닿는 설명을 생각해 보겠습니다. 이제 위 식을 전개해봅시다. 앙변에 n-1을 곱합시다. 시그마와 무관한 식들은 시그마 .. 2020. 4. 1.
[손으로 푸는 통계 ver1.0] 35. z검정의 한계 (우리는 이유도 모른채 모분산 대신 표본분산을 사용했었다) 오늘은 z검정의 한계에 대한 이야기를 해볼것입니다. 우리는 지금까지 z검정을 열심히 배웠지만, 실제로 z검정을 사용할 수 있는 상황은 거의 없습니다. 왜그럴까요? z검정을 하기 위해서 우리는 모집단의 분산을 알아야 합니다. z검정에서 표본평균의 분포를 정의하는데, 이때 표본평균의 분산이 모분산/n이기 때문입니다. 모평균도 몰라서 추정하고 있는데 모분산을 아는 경우가 얼마나 될까요? 없을겁니다. z검정이라는 아주 유용한 검정을 발견했지만, 모분산을 알 수 없는 상황에서는 z검정을 사용할 수가 없습니다. 이 문제를 어떻게 해결할 수 있을까요. 가장 쉽게 떠오르는 방법은 아래와 같을 것입니다. "표본의 분산을 모분산 대신 사용하자" 아래와 같이 대체하는 것입니다. (σ는 모표준편차, s는 표본표분편차입니다.).. 2020. 3. 30.
[손으로 푸는 통계] 28. 2표본 z검정 (1) 소개, 두 모집단과 표본 지금까지 우리는 1표본 Z검정을 배웠습니다. 1표본 Z검정은 모집단에서 표본을 하나 추출하여, 모집단의 평균을 검정하는 것입니다. 예를 들면 모집단의 평균이 30으로 알려진 상황에서 '정말 30이 맞아?'라는 의문을 해결하기 위해 검정을 하는 것입니다. 오늘 부터 배워볼 검정은 2표본 Z검정입니다. 2표본이니까 표본을 2개 뽑는다는 뜻인데요. 하나의 모집단에서 표본을 2개 뽑는 것은 아닙니다. 2표본 Z검정에서 모집단은 2개입니다. 2표본 Z검정은 두 모집단의 평균을 비교하는 검정입니다. 각 모집단에서 표본을 하나씩 뽑기 때문에 표본의 개수는 총 2개가 됩니다. 예를 들어 봅시다. 두 모집단 A와 B가 있습니다. 두 모집단의 분산만 알려져 있고 평균은 모르는 상황이라고 합시다. 그림으로 나타내면 아래와 .. 2020. 1. 3.
[손으로 푸는 통계] 27. 일부 영상을 내린 이유 & 변경된 계획 안녕하세요. 손으로 푸는 통계입니다. 제가 기존에 있던 27~48강 영상를 삭제하였습니다. 27~48강은 아래와 같은 내용입니다. - 분위수 - qq plot - 정규성검정 종류 - KS검정 도입부 이 내용을 없애고, 28강부터 다른 내용으로 이어가려고 합니다. 기존의 계획은 1표본 z검정 이후에 정규성검정을 설명하고, t검정에 대한 설명으로 이어가려고 했습니다. 그래서 분위수부터 시작해서 코로고로브-스미르노브 검정(KS 검정)의 도입부까지 영상을 올려놓은 상태였는데요. KS검정을 공부하다보니 내용이 상당히 어렵고 많았습니다. KS분포를 이해하려면 brownian bridge를 알아야 하고, brownian bridge를 알아야 하면 wiener process(위너 과정)를 알아야 하고, 이 내용들은 확.. 2020. 1. 2.
[손으로 푸는 확률분포] 초기하분포 (5) 그래프 (5) 그래프 초기하분포의 그래프를 그려봅시다. 초기하분포의 확률질량함수는 아래와 같습니다. $p(x)=\frac{_{k}C_{x}\cdot _{M-k}C_{n-x}}{_{M}C_{n}}$ 용어의 의미는 아래와 같습니다. 모집단의 크기 : M 모집단 중 원하는 원소 개수 : k 표본의 크기 : n 표본 중 원하는 원소 개수 : x 그래프 내에서는 표본의 크기 n을 바꾸고, 그래프 간에는 모집단 중 원하는 원소 수인 k를 바꿨습니다. 아래는 확률질량함수입니다. n이 커질 수록 그래프가 오른 쪽으로 이동하고, k가 커져도 그래프가 오른 쪽으로 이동합니다. 아래는 누적분포함수입니다. 사용한 코드는 아래와 같습니다. #####################################################.. 2019. 12. 24.
정규성검정 KS test (1) Andrey Kolmogorov 드디어 정규성검정에 대한 공부가 시작되었습니다. Q-Q plot도 정규성 검정으로 사용되기는 하지만 정성적인 방법이므로, 정량적인 방법은 이번 강의부터 설명하는 것입니다. 제가 앞으로 설명드릴 정량적인 방법은 아래의 다섯가지입니다. 1. Kolmogorov-Smirnov test (KS test) 2. Lilliefors test (LF test) 3. Cramer-von Mises test (CVM test) 4. Anderson-Darling test (AD test) 5. Shapiro-Wilk test (SW test) 앞으로는 약어(abbreviation)를 사용하도록 하겠습니다. KS 검정을 먼저 공부할 것인데요. 검정의 원리를 설명하기 전에 검정 방법을 만든 사람들에 대한 소개를 하려고 합니.. 2018. 11. 24.
Q-Q plot 그리는 법 (5) 정규분포와의 비교 이번 시간에는 데이터를 정규분포와 비교할 수 있는 Q-Q plot을 그려보겠습니다. '정규성 검정'의 기능을 하는 Q-Q plot입니다. 먼저 데이터를 하나 생성합시다. Data1 : 24, 28, 37, 43, 46 이제 Data1의 확률 분위수 그래프를 그리고, 같은 확률의 분위수를 정규분포에서 찾아주시면 됩니다. 원리는 앞의 방법과 동일한데 주의할 점이 하나 있습니다. Type7를 예를들어봅시다. Data1의 Type7 그래프를 그리면 아래와 같습니다. 오른쪽에는 표준정규분포의 역누적분포함수를 그리겠습니다. data1의 각 값들을 분위수로 하는 확률은 0, 0.25, 0.5, 0.75, 1입니다. 문제가 뭔지 아시겠죠? 표준정규분포 누적분포함수의 역함수에서는 확률이 0과 1인 곳에서 그 값이 존재하.. 2018. 11. 18.
Q-Q plot 그리는 법 (4) 크기가 다른 두 데이터의 Q-Q plot 이번 시간에는 크기가 다른 두 데이터의 Q-Q plot을 그려봅시다. 먼저 두 데이터를 생성합시다. Data1 : 24, 28, 37, 43, 46 Data2 : 15, 18, 23, 33, 45, 48, 50 두 데이터 각각의 확률-분위수 그래프를 먼저 그리겠습니다. 몇 번 type으로 그릴지를 정해야합니다. 어떤 타입도 선택할 수 있는데 type7로 하겠습니다(R의 디폴트입니다). 그래프를 그리면 아래와 같습니다. 개수가 적은 쪽에 맞춰서 대응시킵니다. Data1의 데이터에 대응되는 확률은 0, 0.25, 0.5, 0.75, 1입니다. 이 확률에서의 분위수 값을 Data2그래프에서 찾으면 됩니다. 계산하면 아래와 같습니다. 15, 20.5, 33, 46.5, 50 Data1과 2의 분위수를 이용하여 .. 2018. 11. 14.
Q-Q plot 그리는 법 (3) 크기가 같은 두 데이터의 Q-Q plot 지난 강의에서 Q-Q plot의 원리에 대해서 알아보았습니다. 오늘은 실제 예시를 통해 직접 그려보도록 하겠습니다. 아래와 같이 크기가 같은 두 데이터를 예로 들겠습니다. Data 1 : 24,28,37,43,46 Data 2 : 14,17,23,44,57 각각을 순위 또는 순서를 이용해서 표현해봅시다. Data 1 : x1, x2, x3, x4, x5 Data 2 : x1, x2, x3, x4, x5 만약 이 순서로 확률-분위수 그래프를 그린다면, 두 데이터에서 동일한 그래프가 그려질 것입니다. type에 상관없이 같아집니다. 따라서 x1에 해당되는 24와 14에 해당되는 확률이 같습니다. 24와 14가 같은 분위수라는 것입니다. 이와 동일한 이유로 28과 17, 37과 23, 43과 44, 46과 5.. 2018. 11. 13.
Q-Q plot 그리는 법 (2) 원리 Q-Q plot의 원리 지난시간에 '역누적분포함수'가 확률-분위수함수와 동일하다는 것을 배웠습니다. 오늘은 '역누적분포함수'를 이용해서 Q-Q plot의 원리를 설명하겠습니다. 두 집단이 있다고 해봅시다. 집단 A와 집단 B입니다. 집단 A의 역누적분포함수를 A(x), 집단 B의 역누적분포함수를 B(x)라고 합시다. 변수 x는 확률입니다. 두 집단의 분포가 같다면 아래 등식이 성립합니다. 두 집단이 같은 분포를 따른다는 것은 한 집단의 선형변환을 통해 다른 집단을 만들 수 있다는 것입니다. 여러분이 알고 계신 여러 분포들(정규분포, 지수분포, 카이제곱분포 등)을 선형 변환해보시면 이해가 되실 겁니다. 이 원리를 이용하면 분위수 끼리도 선형관계를 갖는다는 것을 알 수 있습니다. 그래프로 그리면 아래와 같습.. 2018. 11. 12.
Q-Q plot 그리는 법 (1) 역누적분포함수 Q-Q plot의 목적 Q-Q plot은 Quantile-Quantile plot의 줄임말입니다. 분위수-분위수 그래프라는 뜻이구요. 두 데이터의 분위수를 그래프로 그리는 것입니다. 두 데이터의 분위수를 그려서 뭘 하고싶은 걸까요? Q-Q plot의 목적은 '분포 비교'입니다. 어떤 원리로 비교하는 것일까요? 역누적분포함수 Q-Q plot의 원리를 이해하려면 먼저 '역누적분포함수'를 알아야 합니다. 우리가 이미 알고 있는 정규분포함수로 시작해서 접근해 봅시다. 정규분포함수는 '확률밀도함수'입니다. x축이 변수(키,몸무게 등), y축이 확률밀도값입니다. 정규분포함수를 f(x)라고 했을 때, 누적분포함수 F(x)를 아래와 같이 정의할 수 있습니다. 이때 F(x) 값은, x 이하인 데이터의 비율(또는 x보다 .. 2018. 11. 8.
분위수(Quantile)를 구하는 9가지 방법(#11. Type9 방법) 통계패키지(R,점유율1위)에서 사용하는 분위수 계산방법에는 9종류가 있습니다. 이전 강의에서 언급했듯이 Type 1~3은 불연속 변수를 대상으로 하고, Type4~9는 연속 변수를 대상으로 합니다. 오늘은 불연속변수의 분위수 계산 방법인 Type 1~3을 가지고 분위수 계산을 해봅시다. 불연속 변수의 경우 '보간'을 사용하지 않고 샘플 중에서 분위수를 선정합니다. Type8 계산 방법 분위수라는 것은 결국 어떤 확률 p 위치에 있는 수가 무엇인지를 구하는 것입니다. 예를들어 4분위수는 확률 0.25,0.5,0.75 위치의 수를 구하는 것입니다. 따라서 아래와 같이 확률을 변수로 하는 분위수 값의 그래프를 그릴 수 있다면 어떤 분위수든 바로 계산이 가능해집니다. Q9(p)를 타입9의 방법으로 구한 분위수라.. 2018. 11. 6.
분위수(Quantile)를 구하는 9가지 방법(#10. Type8 방법) 통계패키지(R,점유율1위)에서 사용하는 분위수 계산방법에는 9종류가 있습니다. 이전 강의에서 언급했듯이 Type 1~3은 불연속 변수를 대상으로 하고, Type4~9는 연속 변수를 대상으로 합니다. 오늘은 불연속변수의 분위수 계산 방법인 Type 1~3을 가지고 분위수 계산을 해봅시다. 불연속 변수의 경우 '보간'을 사용하지 않고 샘플 중에서 분위수를 선정합니다. Type8 계산 방법 분위수라는 것은 결국 어떤 확률 p 위치에 있는 수가 무엇인지를 구하는 것입니다. 예를들어 4분위수는 확률 0.25,0.5,0.75 위치의 수를 구하는 것입니다. 따라서 아래와 같이 확률을 변수로 하는 분위수 값의 그래프를 그릴 수 있다면 어떤 분위수든 바로 계산이 가능해집니다. Q8(p)를 타입8의 방법으로 구한 분위수라.. 2018. 11. 1.
분위수(Quantile)를 구하는 9가지 방법(#9. Type7 방법) 통계패키지(R,점유율1위)에서 사용하는 분위수 계산방법에는 9종류가 있습니다. 이전 강의에서 언급했듯이 Type 1~3은 불연속 변수를 대상으로 하고, Type4~9는 연속 변수를 대상으로 합니다. 오늘은 불연속변수의 분위수 계산 방법인 Type 1~3을 가지고 분위수 계산을 해봅시다. 불연속 변수의 경우 '보간'을 사용하지 않고 샘플 중에서 분위수를 선정합니다. Type7 계산 방법 분위수라는 것은 결국 어떤 확률 p 위치에 있는 수가 무엇인지를 구하는 것입니다. 예를들어 4분위수는 확률 0.25,0.5,0.75 위치의 수를 구하는 것입니다. 따라서 아래와 같이 확률을 변수로 하는 분위수 값의 그래프를 그릴 수 있다면 어떤 분위수든 바로 계산이 가능해집니다. Q7(p)를 타입7의 방법으로 구한 분위수라.. 2018. 10. 29.
분위수(Quantile)를 구하는 9가지 방법(#8. Type6 방법) 통계패키지(R,점유율1위)에서 사용하는 분위수 계산방법에는 9종류가 있습니다. 이전 강의에서 언급했듯이 Type 1~3은 불연속 변수를 대상으로 하고, Type4~9는 연속 변수를 대상으로 합니다. 오늘은 불연속변수의 분위수 계산 방법인 Type 1~3을 가지고 분위수 계산을 해봅시다. 불연속 변수의 경우 '보간'을 사용하지 않고 샘플 중에서 분위수를 선정합니다. Type6 계산 방법 분위수라는 것은 결국 어떤 확률 p 위치에 있는 수가 무엇인지를 구하는 것입니다. 예를들어 4분위수는 확률 0.25,0.5,0.75 위치의 수를 구하는 것입니다. 따라서 아래와 같이 확률을 변수로 하는 분위수 값의 그래프를 그릴 수 있다면 어떤 분위수든 바로 계산이 가능해집니다. Q6(p)를 타입6의 방법으로 구한 분위수라.. 2018. 10. 25.
분위수(Quantile)를 구하는 9가지 방법(#7. Type5 방법) 통계패키지(R,점유율1위)에서 사용하는 분위수 계산방법에는 9종류가 있습니다. 이전 강의에서 언급했듯이 Type 1~3은 불연속 변수를 대상으로 하고, Type4~9는 연속 변수를 대상으로 합니다. 오늘은 불연속변수의 분위수 계산 방법인 Type 1~3을 가지고 분위수 계산을 해봅시다. 불연속 변수의 경우 '보간'을 사용하지 않고 샘플 중에서 분위수를 선정합니다. Type5 계산 방법 분위수라는 것은 결국 어떤 확률 p 위치에 있는 수가 무엇인지를 구하는 것입니다. 예를들어 4분위수는 확률 0.25,0.5,0.75 위치의 수를 구하는 것입니다. 따라서 아래와 같이 확률을 변수로 하는 분위수 값의 그래프를 그릴 수 있다면 어떤 분위수든 바로 계산이 가능해집니다. Q5(p)를 타입5의 방법으로 구한 분위수라.. 2018. 10. 23.
분위수(Quantile)를 구하는 9가지 방법(#6. Type4 방법) 통계패키지(R,점유율1위)에서 사용하는 분위수 계산방법에는 9종류가 있습니다. 이전 강의에서 언급했듯이 Type 1~3은 불연속 변수를 대상으로 하고, Type4~9는 연속 변수를 대상으로 합니다. 오늘은 불연속변수의 분위수 계산 방법인 Type 1~3을 가지고 분위수 계산을 해봅시다. 불연속 변수의 경우 '보간'을 사용하지 않고 샘플 중에서 분위수를 선정합니다. Type4 계산 방법 분위수라는 것은 결국 어떤 확률 p 위치에 있는 수가 무엇인지를 구하는 것입니다. 예를들어 4분위수는 확률 0.25,0.5,0.75 위치의 수를 구하는 것입니다. 따라서 아래와 같이 확률을 변수로 하는 분위수 값의 그래프를 그릴 수 있다면 어떤 분위수든 바로 계산이 가능해집니다. Q4(p)를 타입4의 방법으로 구한 분위수라.. 2018. 10. 22.
5. 분위수(Quantile)를 구하는 9가지 방법(#5. 순서통계 보충설명) 5. 분위수(Quantile)를 구하는 9가지 방법(#5. 순서통계 보충설명) 지난시간까지 불연속변수의 분위수 계산 방법인 Type 1~3을 가지고 분위수 계산을 해봤습니다. 순서통계에 대한 설명이 부족한 것 같아서 오늘은 그 원리를 설명드리겠습니다. 분위수 중 하나를 예를들어볼게요. 무수히 많은 분위수를 정의할 수 있지만, 가장 자주 쓰는 사분위수를 예로 들겠습니다. 나머지 분위수들도 동일한 원리로 계산됩니다. 10개의 수를 생성했습니다. 24,28,37,43,46,47,59,67,75,77 사분위수 계산에서 얻어야 하는 결과는 아래와 같습니다. 0% : 0사분위수 25% : 1사분위수 50% : 2사분위수 75% : 3사분위수 100% : 4사분위수 일반적 정의에서 사분위수는 1,2,3사분위수 3개입.. 2018. 10. 18.
분위수(Quantile)를 구하는 9가지 방법(#2~5. Type1~3 방법) 통계패키지(R,점유율1위)에서 사용하는 분위수 계산방법에는 9종류가 있습니다. 이전 강의에서 언급했듯이 Type 1~3은 불연속 변수를 대상으로 하고, Type4~9는 연속 변수를 대상으로 합니다. 오늘은 불연속변수의 분위수 계산 방법인 Type 1~3을 가지고 분위수 계산을 해봅시다. 불연속 변수의 경우 '보간'을 사용하지 않고 샘플 중에서 분위수를 선정합니다. Type1 계산 방법 (올림 round up) 분위수라는 것은 결국 어떤 확률 p 위치에 있는 수가 무엇인지를 구하는 것입니다. 예를들어 4분위수는 확률 0.25,0.5,0.75 위치의 수를 구하는 것입니다. 따라서 아래와 같이 확률을 변수로 하는 분위수 값의 그래프를 그릴 수 있다면 어떤 분위수든 바로 계산이 가능해집니다. Q1(p)를 타입1.. 2018. 9. 26.
분위수(Quantile)를 구하는 9가지 방법 (#1. 분위수 이해하기) Q-Q plot 을 이해하려면 먼저 분위수에 대해 알아야 합니다. 세 강의에 걸쳐서 분위수를 설명드리겠습니다. 분위수는 영어로 quantile입니다. 분위수(quantile)는 오름차순(혹은 내림차순)정렬 되어 있는 전체 자료를 특정 개수로 나눌 때 그 기준이 되는 수입니다. 따라서 분위수 앞에는 자료를 몇 개로 나눌지 결정하는 숫자가 붙어있습니다. 예를들어 이분위수는 자료 전체를 2등분 하는 수들이라는 의미입니다. 우리가 잘 아는 사분위수는 자료 전체를 4등분하는 수들이라는 의미입니다. 따라서 우리는 무수히 많은 종류의 분위수를 정의할 수 있습니다. 이를 일반화시켜서 q분위수(q-quantiles)이라고 부릅니다. q분위수의 대표적인 이름들을 알아봅시다. - 2분위수(2-quantiles)는 media.. 2018. 9. 3.
[손으로 푸는 통계] 26. 1표본 Z검정 예제 1표본 Z검정 예제를 하나 풀어봅시다. A회사 K젤리라는 예제입니다. A제과회사에서는 K젤리라는 인기상품을 팔고 있습니다. A회사는 K젤리 무게의 평균과 표준편차를 아래와 같다고 주장하고 있습니다. $75g \pm 5g$ A회사의 경쟁사인 B사에서는 A사가 K젤리의 무게를 부풀렸다고 생각합니다. B회사에서는 이를 통계적으로 입증하기 위해 K젤리 100개를 구매했습니다. 모집단에서 크기가 100인 표본을 뽑은 것입니다. 포장을 뜯어 100개의 K젤리 무게의 표본평균과 표본표준편차를 계산했더니 아래와 같았습니다. $\bar{X}_{1}=68.5$ $\sigma{1}=2$ 귀무가설과 대립가설을 세워봅시다. 귀무가설은 K젤리의 무게 평균이 70g 이라는 것입니다. 대립가설은 우리의 주장이 담긴 것으로 '70g보.. 2018. 5. 31.
[손으로 푸는 통계] 24. 통계적 가설 검정 감잡기 4 (양측검정 vs 단측검정) 우리는 지난시간까지 아래 내용을 배운 상태입니다. - 귀무가설, 대립가설 - 가설검정 원리 - 유의수준 ($\alpha$) - 유의확률 (p-value) 이번시간에는 기각역, 양측검정, 단측검정을 배워봅시다. 지난시간에 사용한 예시를 가져옵시다. 모집단이 하나 있는데, 평균이 $\mu$라고 알려져 있습니다. 우리는 이 주장에 반대하는 상황입니다. Z검정을 하기 위해 귀무가설과 대립가설을 아래와 같이 세웠습니다. 귀무가설 : $E[\bar{X}]=\mu$ (기존의 주장) 대립가설 : $E[\bar{X}] \neq \mu$ (기존의 주장에 반대하는 우리의 주장) 이 모집단에서 표본을 하나 뽑아서 평균을 구했습니다. 우리가 뽑은 표본의 평균을 $\bar{X}_{1}$ 라고 합시다. $\bar{X}_{1}$ 보.. 2018. 5. 19.
[손으로 푸는 통계] 22. 통계적 가설 검정 감잡기 2 (1표본 Z검정) 지난글에서 통계적 가설검정이 무엇인지 간단히 살펴봤습니다. 오늘은 통계적 가설검정의 절차를 자세히 공부할 것입니다. 통계적 가설검정은 귀무가설과 대립가설을 세우고 해당 가설이 참인지를 확률적으로 판단하는 방법입니다. 모집단의 평균이 $\mu$라고 알려진 상황이고 우리는 이러한 사실을 반박하고 싶습니다. 이때 귀무가설과 대립가설은 아래와 같이 세웁니다. 귀무가설 : $E[\bar{X}]=\mu$ (기존의 주장) 대립가설 : $E[\bar{X}] \neq \mu$ (기존의 주장에 반대하는 우리의 주장) 표본평균의 평균은 모평균과 같으므로 위 가설의 $E[\bar{X}]$ 는 '모집단의 평균' 을 다른 기호로 나타낸 것 뿐입니다. 우리는 귀무가설이 참인지 여부를 통계적으로 판단해야 합니다. 판단 방법의 핵심은.. 2018. 5. 12.
[손으로 푸는 통계] 16. 정규분포 함수 유도 (방법1. 과녁맞추기를 이용한 유도 2/2) 정규분포 함수 유도 (방법1. 과녁맞추기를 이용한 유도 2/2) 정규분포 함수 유도 두번째 시간입니다. 지난 시간에 정규분포 함수의 형태를 찾았고 아래와 같습니다. $f(x)=Ae^{\frac{C}{2}x^2}$ A의 부호 판별 오늘은 계수를 구해보겠습니다. 먼저 A의 부호를 판별해봅시다. $f(x)$는 확률밀도함수이기 때문에 음수값을 가질 수 없습니다. 따라서 항상 양수여야 합니다. $e^{\frac{C}{2}x^2}$ 는 항상 양수이므로, A도 항상 양수입니다. $A>0$ C의 부호 판별 $f(x)=Ae^{\frac{C}{2}x^2}$에서 만약 C가 양수라면 x가 커질 수록 $f(x)$는 한없이 커집니다. x가 커질 수록 전체 값은 작아지는 것이 초기에 설정한 조건이었습니다. x가 커질 수록 전체 값.. 2018. 3. 25.
반응형