본문 바로가기
반응형

@ 통계 교양155

자른평균이 뭐죠? 왜 사용하나요?? (trimmed mean) 모집단의 분포가 심하게 치우쳐 있는 경우에는 표본평균들의 값의 차이가 커집니다. 따라서 모집단을 추정할 때 표본에 따라 추정값이 매우 달라집니다. 이러한 문제를 보완하기 위해 등장한 평균이 '자른평균'입니다. 양쪽의 극단적인 10%를 또는 20%를 제거하고 평균을 구하는 것입니다. 영어로는 trimmed mean 이라고 합니다. 통계 소프트웨어 R을 이용하여 예시를 하나 만들어 봤습니다. {1,11,12,15,16,17,18,21,25,121} 이라는 표본이 뽑혔다고 해봅시다. 데이터는 총 10개입니다. R을 이용하여 평균을 구하면 아래와 같습니다. > my_data=c(1,11,12,15,16,17,18,21,25,121) > mean(my_data) [1] 25.7 양쪽 10%를 자르고 평균을 구하면.. 2022. 7. 10.
F test (F검정) 은 도데체 언제 쓰는걸까?? 데이터의 통계분석을 할 때 아래의 검정들을 주로 사용합니다. 독립표본 t검정 : 독립된 두 그룹의 평균비교(정규분포 가정이 가능할 때) 대응표본 t검정 : 쌍을 이룬 두 그룹의 평균비교(정규분포 가정이 가능할 때) 분산분석 : 세 그룹의 평균 비교 (정규분포 가정이 가능할 때) 상관분석 : 두 수치형 변수 사이의 상관관계 유무와 강도 계산 회귀분석 : 종속변수와 독립변수의 관계를 모델링 F검정은 많이 들어보긴 했는데 쓰는 경우를 자주 못보셨을 겁니다. 물론 엑셀에서 t검정을 하기 전에 등분산/이분산 여부를 알기 위해 쓰지만 F검정의 결과를 데이터 분석의 결과로 이용하는 것은 아닙니다. 또 분산분석에서 F검정을 사용하지만 이때도 평균을 비교하기 위한 수단으로 사용하는 것이지 F검정 결과를 직접 이용하지는 .. 2022. 7. 9.
적률생성함수 vs 특성함수 적률생성함수 (Moment Generating Function) 적률생성함수는 그 이름에서도 알 수 있듯 적률을 생성해주는 함수입니다. 적률이 무엇인지 먼저 알아야 겠죠. 적률은 아래와 같이 정의됩니다. $E\left [ X^n \right ]$ X 는 확률변수입니다. 확률변수 $X^n$ 의 기댓값을 적률이라고 합니다. 적률에는 차수가 있습니다. $E\left [ X^n \right ]$ 은 n차적률입니다. $E\left [ X \right ]$ 은 1차적률이고, $E\left [ X^2 \right ]$ 은 2차 적률입니다. 적률은 통계량과 관련있습니다. 1차적률은 평균이고 2차적률은 분산을 구할때 사용됩니다. 3차적률은 왜도, 4차적률은 첨도와 관련있습니다. 적률을 생성하는 함수인 적률생성함수는 아래.. 2022. 7. 9.
기댓값이 무한대인 확률변수 어떤 확률변수의 기댓값이 무한대일 수 있을까요? 직관적으로 상상은 잘 되지 않지만 존재합니다. 아래 확률분포를 봅시다. $f(x)=\left\{\begin{matrix} \frac{1}{x^2} & 1 2022. 7. 6.
[확률과통계] 독립사건의 두 가지 맥락 독립사건을 처음 배우는 시기는 고등학교 수학시간입니다. 두 사건 A와 B가 있을 때, 아래 등식을 만족하면 서로 독립입니다. $P(X\cap Y)=P(X)P(Y)$ 주사위를 한 번 던질 때, 아래 두 사건이 독립인지 판단하시오. 라는 문제를 풀었던 기억이 있습니다. $A=\left \{ 1,2,3 \right \}$ $B=\left \{ 4,5,6 \right \}$ 확률을 계산해봅시다. $P(A)=0.5$ $P(B)=0.5$ $P(A\cap B)=0$ 등식이 성립하지 않으므로 독립이 아닙니다. A와 B는 배반사건인데요. 배반사건은 종속이라는걸 기억하시는 분들도 계실겁니다. 위 문제를 아래와 같이 바꿔봅시다. 아래 두 사건이 독립인지 판단하시오. $A=\left \{ 1,2,3 \right \}$ $B=.. 2022. 5. 18.
[확률과통계] 짝수눈 vs 홀수눈 배반사건일까? 짝수눈과 홀수눈이 나오는 사건은 배반사건일까요? 그럴 수도 있고 아닐 수도 있습니다. 주사위를 한번 던질 때, 홀수눈이 나오는 사건과 짝수눈이 나오는 사건은 배반사건입니다. 홀수눈이 나오면 짝수눈은 나올 수 없기 때문입니다. 주사위를 두 개로 늘려봅시다. 주사위 A와 주사위 B가 있습니다. 두 주사위를 던질 때 주사위 A에서 홀수 눈이 나오는 사건과, 주사위 B에서 짝수 눈이 나오는 사건은 배반사건이 아닙니다. 서로 전혀 영향을 주지 않습니다. 둘은 서로 독립관계입니다. 배반사건으로 보이는데 알고 보면 독립사건이라 헷갈릴 때가 있는데요. 위와 같이 구분을 해놓으면 덜 헷갈립니다. 2022. 5. 18.
자유도란 무엇이며, 표본과 모집단의 평균과 분산의 자유도는 무엇인가 통계학에서 자유도가 어떻게 정의됐는지 알기 위해 위키피디아의 정의를 가져왔습니다. In statistics, the number of degrees of freedom is the number of values in the final calculation of a statistic that are free to vary. "통계량의 최종 계산에서 자유롭게 바뀔 수 있는 값의 개수" 모집단에서 표본을 뽑아 평균을 구할 때 표본의 원소는 자유롭게 바뀔 수 있습니다. 반드시 얼마여야 한다는 조건이 없습니다. 표본을 뽑을 때마다 달라집니다. n개를 뽑는다면 n개 모두 표본을 뽑을 때마다 자유롭게 바뀔 수 있습니다. 따라서 표본평균의 자유도는 n입니다. 표본분산의 자유도는 얼마일까요? 표본분산은 표본평균을 알아야.. 2022. 5. 12.
z분포 vs t분포 표본의 크기에 따른 z분포와 t분포의 차이입니다. n이 3일 때는 t분포가 z분포보다 두터운 꼬리를 갖고 있습니다. n이 커질 수록 t 분포가 z분포에 가까워져 갑니다. 꼬리가 두텁다는 말은 같은 통계량에서 p값이 더 크다는 말입니다. p값이 커서 기각을 덜하게 되므로 보수적이라 할 수 있습니다. n이 커지면서 t분포는 z분포에 가까워져 갑니다. 얼마나 더 보수적인지 수치로 알아봅시다. 표본크기 z값 (p값) t값 (p값) 3 1.644854 (0.05) 1.644854 (0.099) 10 1.644854 (0.05) 1.644854 (0.065) 30 1.644854 (0.05) 1.644854 (0.055) 50 1.644854 (0.05) 1.644854 (0.053) 표본 크기가 30 정도여도 차.. 2022. 5. 9.
히스토그램 간격 설정 원리 엑셀이나 R에서 히스토그램을 그리면 알아서 간격을 설정해주는데요. 오늘은 그 원리를 알아봅시다. 히스토그램의 간격을 설정할 때는 일반적으로 Sturge's Rule 을 사용합니다. 데이터의 크기를 n이라고 할 때 간격의 개수는 아래와 같이 계산됩니다. 막대의 개수라고 생각하시면 됩니다. bin 이라고도 부릅니다. $number \ of \ bins=\left \lceil \log_{2}n+1 \right \rceil$ 괄호 기호는 '올림' 의 의미입니다. 2022. 5. 2.
분산 구하는 두 가지 방법 (제곱의평균-평균의제곱 유도) 평균 아래와 같은 자료가 있다고 합시다. $x_{1},x_{2},...,x_{n}$ 이 자료를 변수 X로 나타낸다고 합시다. $X=\left \{ x_{1},x_{2},...,x_{n} \right \}$ X의 평균은 아래와 같이 정의됩니다. $E[X]=\frac{x_{1}+x_{2}+\dots+x_{n}}{n}$ 시그마 기호로 나타내면 아래와 같습니다. $E[X]=\frac{x_{1}+x_{2}+\cdots+x_{n}}{n}=\frac{\sum_{i=1}^{n}x_{i}}{n}$ 편의상 변수 X의 평균을 $\mu$ 라고 놓겠습니다. $E[X]=\mu$ 분산 변수 X의 분산은 아래와 같이 정의됩니다. 편차의 제곱의 평균입니다. $V[X]=E\left [ \left ( X-\mu \right )^2 \ri.. 2022. 4. 27.
[책 증정 이벤트] 데이터 요약과 시각화 with R (임경덕) 루비페이퍼 라는 출판사에서 책을 한권 보내왔습니다. 읽어보고 괜찮으면 채널에 이 책을 소개하면서 증정 이벤트를 하자고 제안하셨습니다. 책을 처음부터 끝까지 전부 읽어봤습니다. 잘 쓰여진 책인 것 같아서 소개를 드리려고 합니다. 10분을 추첨해서 책을 보내드릴 거구요. 이벤트 참여 방법은 더보기 란에 있습니다. 제가 돈을 받은게 아니라서 유료광고는 아니지 않나 생각했는데요. 알아보니 상품 무료제공도 유료광고라고 합니다. 그래서 영상 제목에 광고라고 표시한겁니다. 자 그럼 책 소개를 시작하겠습니다. 책 제목은 데이터 요약과 시각화 with R 입니다. R은 무료 통계 프로그램이구요. 오픈소스라서 참여자들이 계속해서 발전시켜 나가고 있는 프로그램입니다. 저도 R을 사용하고 있습니다. 통계를 처음 접한 시기에는.. 2022. 4. 16.
회귀분석 한번에 감잡기 (F값, t값) 아래는 예시 종속변수 : 성적(Y) 독립변수 : IQ, EQ, SQ 아래와 같은 모델을 가정함 $Y=a \times IQ+b \times EQ+c \times SQ+d$ F검정과 t검정 두가지를 수행함. 1) F검정은 아래 두 모델을 비교함 $Y=d$ $Y=a \times IQ+b \times EQ+c \times SQ+d$ overall 한 비교라고 할 수 있음. 둘의 차이가 있으면 우리가 가정한 모델이 의미가 있는 것임. 2) t검정은 a,b,c,d 가 0인지 아닌지 비교함. 만약 F검정에서 모델이 의미가 있었어도, t검정에서 b=0이 나오면 EQ는 무의미한 값임. + $R^{2}$은 (회귀선에 의해 설명되는 변동)/(전체변동) 을 의미함. 회귀 모델이 Y를 몇%정도 설명하는가를 알려줌. 2022. 4. 14.
카이제곱검정도 양측검정이 있을까? 이론적으로는 가능하나 쓸 일은 거의 없습니다. 카이제곱검정은 단측 검정만 사용합니다. 카이제곱검정은 관측빈도와 기대빈도가 다른지 여부를 판단할 때 사용하는 검정입니다. 예를 들어 20대와 30대의 핸드폰 선호 비율을 비교할 때 사용합니다. 우측 꼬리 검정이 사용됩니다. 카이제곱분포의 우측으로 갈 수록 기대빈도와 관측빈도가 달라지고, 좌측을 갈 수록 같아집니다. 기대빈도와 관측빈도가 완전히 같으면 확률변수가 0이 됩니다. 만약 좌측 꼬리검정을 한다면 의미가 이상해집니다. 관측빈도와 기대빈도가 너무 같아서 기각해버리는 상황이 됩니다. 이런 검정을 쓸 일은 없을 것으로 생각됩니다. 정규분포 그래프를 보면 양쪽 꼬리로 갈 수록 귀무가설의 모평균과 달라지게 됩니다. 따라서 단측 검정이 의미가 있습니다. 그러나 카.. 2022. 4. 1.
균등분포로 동전 던지기 확률, 주사위 던지기 확률 생성하기 균등분포를 이용하면 동전이나 주사위 확률 생성기를 만들 수 있습니다. 듣고 보면 간단하고 당연한 이야기 이긴 한데, 기억해 놓으면 어딘가 유용하게 써먹을 수 있을겁니다. 먼저 동전 확률을 만들어봅시다. 확률변수 X가 0~1 사이 값을 갖는 표준균등분포를 따른다고 할 때, 0~0.5 사이의 값이 나오면 앞면, 0.5~1 사이의 값이 나오면 뒷면이라고 놓으면 됩니다. $X = \begin{Bmatrix} head & 0 2021. 12. 31.
로버스트 통계 방법이란 무엇인가 로버스트(Robust)의 의미는 '강건한'입니다. Robust 통계 방법이란 강건한 통계방법입니다. 통계에서 강건하다는게 어떤 의미일까요? 통계에서 강건하다는 것은 '이상치'의 영향을 적게 받는다는 말입니다. 따라서 로버스트 통계방법은 이상치 영향을 적게 받는 통계방법입니다. 이상치 영향을 어떻게 하면 적게 받을 수 있을까요? 평균 대신 중앙값을, 표준편차 대신 중앙값 절대편차를 사용하면 됩니다. 우리가 가장 흔히 사용하는 통계량인 평균은 이상치(outlier)에 영향을 많이 받습니다. 반면 중앙값은 이상치의 영향을 덜 받습니다. 아래 데이터를 봅시다. > Sal=c(3000,3000,3000,3000,3000,3000,3000,3000,3000,100000) 어떤 회사 직원들의 연봉입니다. 9명은 연봉.. 2021. 12. 30.
상자수염그림에서 이상점(outlier)이란? 상자수염그림은 사분위수와 최댓값,최솟값으로 만든 그래프입니다. 아래 왼쪽 그림을 봅시다. 맨 위 가로선이 최댓값, 맨 아래 가로선이 최솟값입니다. 가운데 박스에 세개의 세로선이 있습니다. 자료를 크기 순으로 정렬했을 때 25%, 50%, 75% 에 해당되는 값입니다. 각각 Q1,Q2,Q3 라고 부릅니다. 50%에 해당되는 값을 중앙값이라고 합니다. Q는 Qurtile 이고 분위수라는 말입니다. Q1은 일사분위수 입니다. 오른쪽 그림을 보면 점이 하나 찍혀있습니다. 이 점을 이상치(outlier) 라고 합니다. 혼자서 아주 크거나, 아주 작은 값을 이상치로 분류합니다. 이상치는 '실수'로 입력된 값일 수도 있고 실제 값일 수도 있습니다. 예를들어 사람의 키 데이터라면 이상치는 실수일 가능성이 높습니다. 상.. 2021. 12. 30.
통계 영문자료를 이해하기 위한 통계 용어와 해석 모음(지속적 업데이트) sample space : 표본공간, 전체집합 sample outcome : 표본공간의 원소 realization : 표본공간의 원소 element : 표본공간의 원소 complement A : A의 여집합 disjoint : 교집합이 없음, 배반임 mutually exclusive : 교집합이 없음, 배반임 monotone increasing : A1, A2, A3, .... 에서 A1 ⊂ A2 ⊂ A3... 관계가 성립 monotone decreasing : monotone increasing 의 반대 bivariate distrituion : 이변량 분포 2021. 12. 2.
이항분포, 정규분포, 푸아송분포의 관계 이항분포를 정규분포로 근사할 때도 n을 무한대로 보내고, 푸아송분포로 보낼 때도 n을 무한대로 보내니 혼란이 오시는 분들이 계실겁니다. 오늘은 이 문제를 해결해봅시다. 이항분포, 푸아송분포, 정규분포 함수는 아래와 같습니다. 이항분포 : $f(x)=\binom{n}{x} p^{x}(1-p)^{n-x}$ 푸아송분포 : $f(x)=\frac{\lambda^{x}e^{-\lambda}}{x!}$ 정규분포 : $f(x)=\frac{1}{\sigma \sqrt{2\pi}}e^{-\frac{1}{2}\left ( \frac{x-\mu}{\sigma} \right )^{2}}$ 이항분포를 정규분포로 근사할 때는 p를 고정한 상태로 n을 무한대로 보냅니다. 예를 들면 앞면이 나오는 확률(p)는 고정되고, 동전을 던지는.. 2021. 11. 19.
양측검정과 단측검정의 검정력은 같을까 다를까 가설검정에는 두가지 오류가 있습니다. 1종오류인 α와 2종오류인 β 입니다. 1종오류는 신뢰도와 관련 있고, 2종오류는 검정력과 관련이 있습니다. 관계는 아래와 같습니다. 1종오류(α) = 1-신뢰도 2종오류(β) = 1-검정력 양측검정에서 단측검정으로 바뀐다고 해서 1종오류가 바뀌지는 않습니다. 한쪽에 0.05를 몰아주던 것이 양쪽에 0.025씩 나뉘주는 것으로 바뀔 뿐입니다. 전체 오류는 0.05로 동일합니다. 하지만 2종오류 입장에서는 다릅니다. 단측검정이 양측검정으로 바뀌게 되면 위에 보이시는 세로 선이 우측으로 이동하게 되고, 2종오류는 커지는 결과를 낳습니다. 따라서 단측검정이 양측검정으로 바뀌면 검정력은 줄어들게 됩니다. 2021. 11. 12.
레버리지 ETF가 위험한 이유 정말 알고 계신가요? (TQQQ,3LTS...) 레버리지 ETF는 어떤 주식 또는 ETF 수익률의 2배 혹은 3배가 되도록 설계된 펀드입니다. 예를들어 TQQQ는 QQQ라는 ETF 수익률의 세배, 3LTS는 테슬라 주식 수익률의 3배가 되도록 설계되어 있습니다. 3배 레버리지 ETF가 위험하다는 것은 다들 알고계실텐데요. 단순히 많이 오르는 만큼, 많이 떨어질 수도 있으니 위험하다고 생각하시는 분들도 계실겁니다. 하지만 그게 다가 아닙니다. 레버리지 ETF가 위험한 이유는 본주가 올랐다가 제자리로 돌아와도, 손해를 보게되기 때문입니다. 예를 들어봅시다. 본주의 가격이 a원이라고 합시다. 10%가 올라서, 1.1a원이 되었고, 다시 덜어져서 a원이 됐다고 합시다. 몇 %가 하락한 것일까요? 아래 등식을 이용하면 됩니다. 1.1a x (1-하락률)=a 하.. 2021. 10. 30.
X가 U(0,1)인 균등분포를 따르면 1-X 도 그럴까 오늘 증명해볼 내용은 아래와 같습니다. X가 U(0,1)인 균등분포를 따르면 1-X 도 그럴까 직관적으로 당연하지만 수식으로 증명해보겠습니다. 두 확률분포의 적률생성함수가 같다면 두 확률변수는 같다는 성질을 이용하여 증명하겠습니다. 먼저 U(0,1)을 따르는 확률변수 X의 적률생성함수를 유도하겠습니다. X의 적률생성함수는 아래와 같습니다. $M_{X}(t)=E\left [ e^{tX} \right ]=\int_{-\infty}^{\infty}e^{tx}f(x)dx$ x는 0과 1 사이에서만 1이라는 값을 가지므로 아래와 같이 변형됩니다. $E\left [ e^{tX} \right ]=\int_{0}^{1}e^{tx}dx$ 적분합시다. $M_{X}(t)=E\left [ e^{tX} \right ]=\lef.. 2021. 10. 21.
p값의 분포는 왜 균등분포일까 (distribution of p-value) 우측꼬리 t검정을 예로 들어봅시다. 우리가 뽑은 표본의 통계량을 t라고 놓는다면 아래와 같은 그림을 그릴 수 있습니다. F(t)는 누적분포함수입니다. 아래 등식이 만족합니다. $p=1-F(T=t)$ 시행에 따라 T값이 바뀌고, T값이 바뀌면 p값도 바뀝니다. 따라서 p도 확률변수라고 할 수 있습니다. F(T)의 분포를 구하면 p의 분포를 구할 수 있습니다. F(T)가 이미 누적분포함수인데, 분포함수의 분포함수를 구한다고? 네 맞습니다. 이 분포함수 F(T)를 새로운 확률변수 Y 라고 놓겠습니다. Y의 누적분포함수를 G라고 놓겠습니다. G는 아래와 같이 정의됩니다. Pr은 확률을 의미합니다. $G(y)=Pr(Y\leq y)$ Y=F(T) 이므로 아래와 같이 변형합시다. $G(y)=Pr(F(T)\leq y).. 2021. 10. 21.
p값에 대한 미국통계협회의 입장발표 (이거 계속 써도 되는겨?) p값에 대한 논란은 꾸준히 제기되어 왔는데요. 미국통계협회에서 공식적으로 발표한 글이 있어서 가져왔습니다. 아래 제목의 글입니다. ASA Statement on Statistical Significance and P-Values 구글에 치시면 전문을 보실 수 있습니다. 여기서는 간단히 요약하도록 하겠습니다. 2014년 2월에 미국 매사추세스주에 있는 마운트 홀리오크 대학의 통계학과 교수인 George Cobb은 아래와 같은 대화형식의 글을 통해 문제를 제기했습니다. 질문자 : 왜 수많은 대학에서 p값이 0.05라고 가르치는거죠? 답변자 : 왜냐하면 과학 커뮤니티들과 논문 에디터들이 여전히 p값을 0.05로 사용하기 때문입니다. 질문자 : 그럼 왜 많은 사람들이 여전히 p값을 0.05로 사용하는 걸까요? .. 2021. 10. 20.
평균과 중앙값의 비교와 그래프의 치우침 대칭인 분포의 경우 평균과 중앙값이 같습니다. 반면 분포가 한쪽으로 치우친 경우 평균과 중앙값이 달라집니다. 아래 데이터를 봅시다. 100 100 100 150 150 150 150 150 200 200 200 이 데이터는 평균이 150 이고, 중앙값도 150입니다. 이 데이터를 오른쪽 꼬리를 가진 데이터로 바꿔보겠습니다. 오른쪽 꼬리를 가진 데이터는 right-tailed 또는 skewed to right 또는 poistive skewed 라고 부릅니다. 100 100 100 150 150 150 150 150 200 200 2000 이렇게 바꾸었을 때 왜 오른쪽 꼬리를 갖는 것인지 이해가 되지 않는 분들은 히스토그램을 떠올리시면 됩니다. 오른쪽으로 아주 먼 곳인 2000에 막대가 하나 올라와 있게 된.. 2021. 10. 19.
표준편차 vs 평균절대편차 vs 중앙값절대편차 (극단값 민감성 비교) 표준편차, 평균절대편차, 중앙값절대편차는 아래와 같이 정의됩니다. $SD=\sqrt{\frac{\sum_{i=1}^{n}\left ( X_{i}-mean \right )^{2}}{n}}$ $AAD=\frac{ \sum_{i=1}^{n}\left |X_{i}-mean \right |}{n}$ $MAD=MAD=median(X_{i}-median)$ SD : Standard deviation (표준편차) AAD : Average Absolute deviation (평균 절대편차) MAD : Median Absolute deviation (중앙값 절대편차) 극단값에 대한 민감도를 알아보기 위해 두개의 데이터를 정의했습니다. 프로그램은 R을 사용했습니다. > dt1=c(1,2,3,4,5,6,7,8,9,10) > .. 2021. 10. 19.
분산 구하는 변형공식을 표본에도 적용할 수 있을까 분산을 구하는 변형공식을 유도하는 과정은 아래와 같습니다. $V(X)=E\left ( (X-\mu)^{2} \right )=\frac{\sum_{i=1}^{n}(X_{i}-\mu)^{2}}{n}$ $V(X)=E\left ( (X-\mu)^{2} \right )=\frac{\sum_{i=1}^{n}X_{i}^{2}-2X_{i}\mu+\mu^{2}}{n}$ $V(X)=E\left ( (X-\mu)^{2} \right )=\frac{ \sum_{i=1}^{n}X_{i}^{2} -2\mu\sum_{i=1}^{n}X_{i}+ \sum_{i=1}^{n}\mu^{2} }{n}$ $V(X)=E\left ( (X-\mu)^{2} \right )=\frac{ \sum_{i=1}^{n}X_{i}^{2} }{n} + \fra.. 2021. 10. 18.
물가가 2%씩 오르면 10년 뒤 돈의 가치는 얼마나 줄어들까 물가가 두배 오르면 돈의 가치는 반으로 줄어듭니다. 이정도는 계산기를 사용하지 않아도 이해가 가능합니다. 물건의 가격이 A배 올랐을 때의 돈의 가치는, 현재 돈의 액수를 A로 나눠주면 됩니다. 물건 가격이 두배 오르면 2로 나누고, 세배 오르면 3으로 나눠주면 됩니다. 여기까진 이해가 되실겁니다. 물건의 가격이 50% 올랐다고 합시다. 물건 가격이 몇배 오른 것일까요? 1.5배 오른 것입니다. 물건 가격이 5% 오르면 물건 가격은 몇 배 오른 것일까요? 1.05배 오른 겁니다. 돈의 가치는요? 1.05로 나눠주면 됩니다. 물가가 2%씩 10년 올랐다는 것은 물건 가격에 1.02가 10번 곱해졌다는 것을 말합니다. $1.02^{10}$ 배가 된 것입니다. 만원의 가치는 얼마가 되어 있을까요? 만원을 $1... 2021. 10. 12.
카이제곱검정의 대응표본버전 (맥니마, 맥니마 보우커,코크란 Q) t검정에 '독립표본 t검정'과 '대응표본 t검정'이 있듯 카이제곱검정에도 대응표본에 사용되는 검정이 있습니다. 아래의 세 검정입니다. - 맥니마 검정 (2그룹비교, 종속변수도 2level) - 맥니바 보우커 검정 (2그룹비교, 종속변수가 3level 이상) - 코크란 Q검정 (3그룹 이상 비교 가능) 맥니마검정 먼저 맥니마 검정이 사용되는 경우를 살펴봅시다. 피험자 100명을 모집하여 무서운 영화 선호 여부를 조사했습니다. 100명 중 10명이 무서운영화를 선호했습니다. 100명에게 A라는 약을 먹인 뒤 다시 조사해보니 50명이 무서운 영화를 선호했습니다. 표로 나타내면 아래와 같을 것 같지만 아닙니다. 아래 표에는 누가 어떻게 바뀌었는지가 반영되어 있지 않습니다. 약먹기 전 약 먹은 후 합계 무서운영화.. 2021. 10. 12.
로그스케일 그래프는 언제 쓰는걸까? (로그-로그 그래프) 책이나 논문을 읽다 보면 로그스케일 그래프가 나올 때가 있습니다. 로그-로그 그래프라고도 부르는데요. 제가 가장 최근에 본 로그 그래프는 아래 그래프입니다. 「벤 버냉키, 연방준비제도와 금융위기를 말하다」라는 책의 207페이지에 나오는 그래프입니다. 실질 GDP가 매년 3% 정도의 성장률을 보이고 있다는 내용입니다. 기준 년의 GDP를 a, 매년 3%의 성장을 한다면 n년 뒤의 실질 GDP는 아래와 같은 함수로 정의할 수 있습니다. $f(n)=a(1.03)^{n}$ 지수함수입니다. 그래프로 그리려면 세로로 아주아주 긴 그래프가 될 것입니다. 값이 너무 빠르게 커지기 때문입니다. 이런 경우에 양변에 로그를 취하면 선형 그래프로 만들 수 있습니다. $\ln f(n)=n\ln a(1.03)$ 로그 그래프로 그.. 2021. 9. 24.
중심극한정리 유도하기 (요약버전) 중심극한정리 유도의 Full 버전은 아래 링크를 참고하세요. 9강~14강에 자세히 유도해 놓았습니다. https://hsm-edu.tistory.com/1193 [통계 기초 강의] 9. 중심극한정리란 무엇인가 이번 강의에서는 중심극한정리가 무엇인지 설명드리도록 하겠습니다. 수학적인 증명은 이후에 할거구요. 오늘은 개념만 설명드리는 것입니다. 모집단에서 크기가 n인 표본을 뽑았습니다. hsm-edu.tistory.com 이 글은 중심극한정리의 유도과정을 간단히 요약한 것입니다. 중심극한정리는 모집단의 분포와 상관없이 표본의 크기가 충분히 크다면 표본평균들의 분포가 정규분포를 따른다는 정리입니다. 여기서 주의할 점은 표본의 개수가 아니라 표본의 '크기'라는 것입니다. 표본의 개수는 무한하다고 가정합니다. 크.. 2021. 9. 15.
반응형