본문 바로가기
반응형

@ 통계 교양/통계 Tips108

민감도와 특이도, 무엇이 높은게 좋은가 민감도와 특이도는 병을 진단하는 도구의 성능을 판단할 때 사용하는 용어입니다. 민감도는 Sensitivity, 특이도는 Specificity 입니다. 아래와 같이 정의됩니다. 민감도 : 병에 걸린 사람을 양성으로 판정할 확률 특이도 : 병에 걸리지 않은 사람을 음성으로 판정할 확률 이 두 값이 높아야 좋은 진단도구입니다. 민감도와 특이도는 분할표와 함께 이해해야 쉽습니다. 암검사를 예로 들어봅시다. 암환자 200명을 대상으로 진단을 했을 때 198명이 양성이 나왔고, 비암환자 100명을 대상으로 진단을 했을 때 음성이 97명이 나왔습니다. 표로 정리하면 아래와 같습니다. 암환자 비암환자 양성 198 3 음성 2 97 민감도를 먼저 계산해봅시다. 환자 200명 중에 양성판정을 198명이 받았으므로 민감도는.. 2021. 8. 25.
기하 표준편차란 무엇인가 기하 표준편차는 데이터가 기하평균에서 얼마나 흩어져 있는가를 나타내는 값입니다. 기하평균을 사용하는 것이 적합한 데이터에서 기하 표준편차를 사용합니다. 아래와 같이 크기가 n인 데이터가 있다고 합시다. $\left \{ x_{1},x_{2},...,x_{n} \right \}$ 기하평균은 아래와 같습니다. $\mu_{g}=\sqrt[n]{x_{1}x_{2}\cdots x_{n}}$ 양변에 자연로그를 취해줍니다. $\ln \mu_{g}=\ln \sqrt[n]{x_{1}x_{2}\cdots x_{n}}$ 로그의 성질을 이용하여 아래와 같이 변형합니다. $\ln \mu_{g}=\frac{1}{n} \ln x_{1}x_{2}\cdots x_{n}$ 로그의 성질을 이용하여 아래와 같이 분리해서 써줍니다. $\ln.. 2021. 8. 5.
인사채용의 1종오류와 2종오류 인사채용시 지원자를 능력자와 무능력자로 구분하고, 회사의 행동은 채용과 비채용으로 구분하면 아래와 같은 분할표를 얻을 수 있습니다. 아래 표를 표1이라고 하겠습니다. 능력자 무능력자 채용 옳은 선택 오류 비채용 오류 옳은 선택 이 상황을 통계적 가설검정과 비교해봅시다. 통계적 가설검정의 결과에 대한 분할표는 아래와 같습니다. 귀무가설이 참 귀무가설이 거짓 기각안함 옳은 선택 2종 오류 기각함 1종 오류 옳은 선택 표 1에서 1종오류와 2종오류를 구분해봅시다. 먼저 귀무가설을 세워야하는데, 귀무가설은 두가지가 가능합니다. - 지원자는 능력자다. - 지원자는 무능력자다. 지원자가 능력자라는 귀무가설을 세운 경우의 분할표입니다. 능력자 무능력자 채용 옳은 선택 2종 오류 비채용 1종 오류 옳은 선택 지원자가 .. 2021. 6. 23.
통계적 유의차가 있으면 의미 있는 차이인 걸까 두 회사에서 감자칩을 출시했고 가격은 동일합니다. 각각의 회사는 올해 10만개의 감자칩을 생산했습니다. 우리에게 모든 것을 아는 초능력이 있어서 10만개의 평균과 표준편차를 알고 있다고 가정합시다. A회사의 감자칩 무게의 평균은 50g, 표준편차는 1g 이었고, B회사의 감자칩 무게의 평균은 50.1g, 표준편차는 1g 이었습니다. 분포는 정규분포를 따른다고 가정하겠습니다. $A\sim N\left ( 50,1 \right )$ $A\sim N\left ( 50.1,1 \right )$ 각 회사의 10만개의 감자칩을 모집단으로 하여 표본을 추출하고 p값을 구해봅시다. 무료 통계 프로그램인 R을 이용하여 표본의 크기를 10부터 10000까지 10단위로 키우며 표본을 추출하고 p값을 구해봤습니다. 사용한 R.. 2021. 6. 22.
기하분포의 두가지 정의와 각각의 분포함수, 평균, 분산 기하분포는 두가지 정의가 있습니다. 한가지씩 알아봅시다. 1. 확률변수가 시행횟수 베르누이 시행을 반복할 때, 처음 성공이 나오기까지 시행한 횟수를 확률변수 x로 할때의 확률분포입니다. 예를 들어 확률변수가 4일 때의 확률은 "실패-실패-실패-성공" 인 경우의 확률입니다. 확률분포, 기댓값, 분산은 아래와 같습니다. $P(x)=(1-p)^{x-1}p$ $E(X)=\frac{1}{p}$ $V(X)=\frac{1-p}{p^2}$ 2. 확률변수가 실패횟수 베르누이 시행을 반복할 때, 처음 성공이 나오기까지 실패한 횟수를 확률변수 x로 할때의 확률분포입니다. 이때는 확률변수 4의 확률이 "실패-실패-실패-실패-성공"의 확률이 됩니다. $P(x)=(1-p)^{x}p$ $E(X)=\frac{1-p}{p}$ $V(X.. 2021. 6. 6.
분산분석에서 요인(factor)과 수준(level)의 의미 분산분석의 예시를 통해 요인(factor)과 수준(level)이라는 용어를 이해해봅시다. 고무의 재질에 따라 타이어 마모 정도가 달라지는지 알아보기 위해, 세 가지 재질의 고무를 준비했습니다. 재질 A,B,C 라고 합시다. 100km 주행 테스트를 했고, 타이어 마모 정도를 전,후 질량 차이를 이용하여 측정했습니다. 위 예시에서 독립변수는 고무의 재질이고 종속변수는 타이어 마모 정도입니다. 여기서 독립변수를 다른 말로 요인(factor)이라고 부릅니다. 독립변수인 고무의 재질에는 A,B,C 세가지가 있었습니다. 이때 고무의 재질 A,B,C 를 독립변수의 수준(level)이라고 합니다. 위 예시에서 요인은 1개이고, 수준은 3개입니다. 요인 : 고무의 재질 수준 : A,B,C 이 예시에서 사용되는 분산분석.. 2021. 6. 1.
표본을 하나밖에 안 뽑았는데 어떻게 분포를 가정하나요?? "표본을 하나밖에 안 뽑았는데 어떻게 분포를 가정하나요??" 라는 질문을 정말 많이 받습니다. 오늘은 이 질문에 대해 최대한 쉽게 이해되도록 설명드려보겠습니다. 먼저 이 질문이 나온 맥락을 알아봅시다. 여기 모집단이 하나 있습니다. 모집단의 평균은 $\mu$, 표준편차는 $\sigma$ 라고 놓겠습니다. 모집단에서 크기가 n인 표본을 추출했습니다. 이 표본의 평균을 $\bar{X}_{1}$, 표준편차를 $\sigma_{1}$이라고 놓겠습니다. n이 충분히 크다고 가정하면, 중심극한정리에 의해 방금 우리가 뽑은 이 표본의 평균은 아래 분포를 따릅니다. $\bar{X} \sim N \left (\mu,\frac{\sigma^2}{n} \right)$ 이 상황에서 나온 질문입니다. 아래와 같은 의문이 드는 분.. 2021. 5. 21.
비율검정 요약 z검정과 t검정은 모집단과 표본의 평균을 비교하거나, 두 표본의 평균을 비교할때 사용하는 검정입니다. 모집단과 표본 또는 두 표본의 비율을 비교하고 싶은 경우에 사용하는 방법은 비율검정입니다. 1. 단일표본 비율 검정 한가지 상황을 가정합시다. 모집단의 비율이 $p_{0}$로 알려져 있는 상황입니다. 정말 그러한지 확인하고 싶었고, 크기가 n인 표본을 뽑았습니다. 추출한 표본에서 구한 비율은 $\hat{p_1}$ 라고 놓겠습니다. 표본비율을 나타내는 변수는 $\hat{p}$ 라고 놓겠습니다. 이때 아래 등식이 성립합니다. $E(\hat{p})=p_{0}$ $V(\hat{p})=\frac{np_{0}q_{0}}{n^2}$ 아래 조건이 만족하면 $\hat{p}$의 분포는 정규분포를 따릅니다. $np_{0} .. 2021. 5. 14.
산점도 그래프 회전의 수학적 원리 상관분석 설명자료에 사용하기 위해 우상향 또는 우하향의 산점도 그래프가 필요했습니다. 아래와 같이 x와 y를 정규분포에서 랜덤추출하여 산점도를 그린 뒤, 45도를 회전시켰습니다. 어떤 수학적 원리가 사용되었는지 설명드리겠습니다. 원점 중심 회전 아래와 그림에서 (a,b) 를 (a',b')으로 회전시키고 싶은 상황이라고 합시다. a와 b를 극좌표로 표현하면 아래와 같습니다. $a=r cos(\alpha)$ $b=r sin(\alpha)$ a'와 b'을 극좌표로 표현하면 아래와 같습니다. $a'=r cos(\alpha+\theta)$ $b'=r sin(\alpha+\theta)$ a'와 b'는 삼각함수의 덧셈정리를 이용하면 아래와 같이 변형할 수 있습니다. $a'=r(cos(\theta)cos(\alpha).. 2021. 4. 28.
공분산이란 무엇인가 (정의와 의미) 역사적 정황을 정확히 알 수는 없지만 공분산은 분산에서 유래된 개념인 것 같습니다. 분산을 먼저 발견하고, 이후에 공분산을 떠올린 것입니다. 공분산은 공+분산인데, 여기서 공은 함께, 여럿을 뜻하는 공입니다. 공동체 할때 그 공입니다. 따라서 공분산은 여럿으로 구한 분산을 말합니다. 변수 하나로 구한 분산이 아니라 변수 여럿으로 구한 분산입니다. 결론부터 말하면 변수 '둘'로 구한 분산입니다. 분산의 정의 먼저 분산의 정의를 살펴봅시다. 어떤 변수 X의 분산은 아래와 같이 정의됩니다. $V(X)=E\left [ \left ( X-E(X) \right )^2 \right ]$ X가 이산확률변수이고, 각 원소의 발생확률이 같은 경우 아래와 같이 구합니다. $V(X)=\frac{\sum_{i=1}^{n}(x_.. 2021. 4. 27.
통계분석 공부순서(t검정,F검정,분산분석,상관분석,회귀분석) 자주 사용하는 통계 분석에는 아래와 같은 방법들이 있습니다. t검정 F검정 분산분석 상관분석 회귀분석 t검정은 평균을 비교하는 검정이고 F검정은 분산을 비교하는 검정입니다. 가장 기본적인 통계분석입니다. 나머지 통계분석들은 이 두 분석을 이용합니다. 분산분석 : F검정을 이용하여 셋 이상의 집단의 평균을 비교합니다. 상관분석 : t검정을 이용하여 상관계수가 0인지 아닌지 여부를 판단합니다. 회귀분석 : F검정을 이용하여 모형의 적합도를 판단하고, t검정을 이용하여 회귀계수가 0인지 아닌지 여부를 추정합니다. 공부하기 원하는 분석방법에 따라 세 가지 공부 순서가 가능합니다. t검정 → 상관분석 t검정 → F검정 → 회귀분석 F 검정 → 분산분석 2021. 4. 26.
비율검정과 카이제곱검정은 같은가 다른가 비율검정과 카이제곱검정을 두고 헷갈려 하시는 분들이 계실거라 생각됩니다. 뭔가 비슷한 것 같기도 한데 막상 구분해서 설명하자니 어려운 그런 혼란을 저도 겪었습니다. 오늘은 그 애매함을 해결해보도록 하겠습니다. 여기서 말하는 비율검정이란 일표본 비율검정과 이표본 비율검정을 말합니다. 일표본 비율검정 : 모비율과 표본 비율을 비교 이표본 비율검정 : 두 표본 비율을 비교 결론부터 말씀드리면 일표본 비율검정은 카이제곱 2수준 적합도검정과 같습니다. 이표본 비율검정은 2x2 분할표에서의 동질성검정과 같습니다. 왜 그런지 하나씩 알아봅시다. 1. 일표본 비율검정과 카이제곱 2수준 적합도검정 1-1) 일표본 비율검정 일표본 비율검정의 예시 하나를 가져옵시다. 한국 남성의 흡연율이 60%라고 알려져 있다. 이를 확인.. 2021. 3. 21.
독립성검정과 동질성검정의 차이(feat.카이제곱검정) 카이제곱검정이 목적에 따라 세가지 종류로 나뉩니다. 아래와 같은 세 종류입니다. - 적합도 검정 - 독립성 검정 - 동질성 검정 각각에 대한 설명은 링크를 참고하세요. 적합도 검정은 변수가 하나인 경우이므로 구분이 쉽게 되는데, 독립성검정과 동질성검정이 헷갈리실 수 있습니다. 이 번 글에서는 동립성검정과 동질성검정을 구분해보도록 하겠습니다. 지난시간의 예제를 가져옵시다. 아래는 독립성검정의 예시입니다. 흡연 비흡연 합계 남성 46 33 79 여성 25 96 121 합계 71 129 200 아래는 동질성검정의 예시입니다. 흡연 비흡연 합계 남성 50 50 100 여성 30 70 100 합계 80 120 200 일부러 같은 변수로 두 예제를 만들었습니다. 예제를 다르게 하면, 마치 어떤 변수의 조합은 동립성.. 2021. 3. 20.
카이제곱 검정이 세 종류나 있었어?(적합도, 독립성, 동질성) 카이제곱검정은 분할표에서 빈도를 비교하는 것으로 검정을 수행합니다. 빈도를 비교한다는 원리는 동일하지만, 카이제곱분포는 그 목적에 따라 몇가지로 분류됩니다. - 적합도검정 (Goodness of fit) - 독립성검정 (Test of Independence) - 동질성검정 (Test of Homogeneity) 1. 적합도검정 (Goodness of fit) 적합도검정은 범주형인 하나의 변수에 대해, 이 변수가 우리가 기대하는 어떤 분포를 따르는지 여부를 검정합니다. 실제로 관측된 값과 일어날 것으로 기대하고 있는 값을 비교하는 검정입니다. 예제를 통해 이해해봅시다. 상자 안에 흰공, 검은공, 빨간공이 같은 비율로 들어있다고 알려져 있습니다. 공을 90개 뽑았고 각 색의 비율은 아래와 같습니다. 흰공 검.. 2021. 3. 20.
평균이 무의미한 경우 (평균값이 크다고 꼭 좋은걸까?) 평균은 대표값 중 하나입니다. 어떤 집단을 '대표'하는 값입니다. 대표적인 대푯값에는 평균, 중앙값, 최빈값이 있습니다. 평균이 가장 빈번하게 사용되기는 하나 모든 상황에서 자료를 잘 '대표'하지는 않습니다. 아래 두 사례를 봅시다. 회사 A와 B가 있습니다. A회사의 평균 급여는 오천만원이고, B회사의 평균 급여는 1억입니다. B회사가 더 돈을 많이 주는 좋은 회사일까요? 평균만으로는 알 수 없습니다. 극단적인 예를 들면, A회사 직원은 10명인데 전부 오천만원을 받고 있다고 합시다. B회사도 10명인데 9명의 연봉은 이천만원이고 사장님 연봉이 8억 2천만원이라면, 그래도 B회사가 더 좋은 회사일까요? A학교에 두 반이 있습니다. X반과 Y반이라고 합시다. 지금은 모르겠지만 제 학창시절에는 선생님들이 .. 2021. 3. 20.
모평균의 추정에서 흔히 하는 오해 신뢰구간 평균이 $\mu$이고 표준편차가 $\sigma$인 모집단에서 표본을 추출했습니다. 모평균과 모표준편차는 모르는 상태입니다. 표본평균을 $\bar{X}_{1}$ 라고 합시다. 표본의 크기가충분히 크다면 중심극한정리에 의해 표본평균들은 정규분포를 따릅니다. $\bar{X} \sim N\left ( \mu,\frac{\sigma^2}{n} \right )$ 이때 모평균을 신뢰도 95%로 추정하면 신뢰구간은 아래와 같습니다. $\bar{X}_{1} -1.96\cdot \frac{\sigma}{n} \leq \mu \leq \bar{X}_{1} +1.96\cdot \frac{\sigma}{n}$ 흔한 오해 신뢰도 95%로 추정한 신뢰구간을 두고 흔히 하는 오해가 있습니다. 바로바로 아래와 같습니다. "모.. 2021. 3. 17.
상관계수가 0이라고 관계가 없는게 아니다 상관관계가 없다는 것은 '선형 관계'가 없다는 것입니다. 상관분석은 선형관계의 여부만을 고려하기 때문입니다. 예를들어 아래와 같은 관계는 포착할 수가 없는 것입니다. 위 그래프에서 X와 Y의 관계는 비선형관계입니다. 선형관계는 없지만 관계가 없다고 할 수는 없습니다. 2021. 3. 17.
변수 A,B,C 의 상관관계 변수 A와 변수 B가 강한 상관관계가 있고, 변수 B와 변수 C가 강한 상관관계가 있다고 하자. 이때 변수 A와 C 사이에는 반드시 상관관계가 있을까? 대답은 아니오이다. 간단한 반례를 들어보자. 김,이,박 세 사람이 있다고 하자. 세 사람의 주식 보유량은 아래와 같다. 김 : 삼성전자10주, 엘지전자10주 이 : 삼성전자10주, 셀트리온10주 박 : 셀트리온10주, 네이버10주 삼성전자라는 같은 보유주식이 있으므로, 김의 수익률과 이의 수익률은 강한 상관관계가 있다. 셀트리온이라는 같은 보유주식이 있으므로 이와 박의 수익률도 강한 상관관계가 있다. 그러나 김과 박의 보유주식은 전혀 겹치지 않는다. 따라서 김과 박의 수익률에 반드시 상관관계가 있다고 말할 수 없다. 2021. 3. 17.
[통계] 줄기-잎 그림 예시 줄기 잎 그림이 무엇인지 이해하고, 장점이 무엇인지를 알 수 있도록 준비한 예제입니다. 어떤 반 20명 학생들의 수학 점수가 아래와 같다고 합시다. 78, 72, 50, 95, 75, 51, 43, 80, 64, 83, 79, 32, 38, 55, 44, 86, 94, 30, 80, 44 이 점수를 줄기-잎 그림으로 나타내면 아래와 같습니다. 줄기 잎 도수 3 02 2 4 344 3 5 015 3 6 4 1 7 2589 4 8 0036 4 9 45 2 줄기-잎 그림을 이용하면 줄기의 변량을 한 눈에 파악할 수 있고, 도수도 한눈에 파악할 수 있습니다. 2021. 3. 16.
실험군, 양성대조군(positive control), 음성대조군(negative control) 쉬운 설명 실험에는 대조군이 있어야 어떤 효과를 입증할 수가 있습니다. 따라서 과학실험들은 항상 대조군과 함께 진행합니다. 예를들어 신약의 효과를 실험한다고 할 때, 실험군만으로 실험을 하게 되면 결과적으로 일어난 변화가 약의 효과인지 아니면 시간이 흘러 저절로 일어난 일인지 알 수가 없습니다. 따라서 실험군과 같은 조건의 대조군을 설정하고 비교하는 방식으로 결과를 입증합니다. 약을 투여한 실험군에는 어떤 변화가 나타났지만 대조군에서는 그렇지 않았다는 방식으로요. 실험군(experiment group) : 약을 투여 대조군(control group) : 약을 투어하지 않음 (플라시보효과를 상쇄하기 위해 대조군에도 약을 투여하는 척은 함.) 대조군의 종류 대조군에는 두 종류가 있습니다. 양성대조군과 음성대조군입니다... 2021. 2. 27.
분산분석에는 왜 사후검정이 있나요? 비교해야하는 집단(그룹,표본)이 세개 이상인 경우 t검정 대신 분산분석(ANOVA)를 사용해야한다고 알고 계실 것입니다. 물론 틀린 말은 아니지만 위와 같이 말할 경우 '사후검정'이 낄 자리가 없어집니다. 분산분석이 사후분석을 포함하는 개념이라고 할 수도 있지만, 처음 배우는 사람들에게 그런 개념은 당연히 없습니다. 분산분석과 함께 사후검정이 등장할 자리를 마련해야하고, 이를 위해 분산분석이 t검정을 대신한다는 말은 일부만 맞다고 하겠습니다. 따라서 여기서는 분산분석과 사후분석을 구분하겠습니다. 분산분석만으로는 t검정을 대체하지 못합니다. t검정으로 A,B 집단을 비교할 경우 A,B 집단에 차이가 있는지 없는지를 알려줍니다. 집단이 A,B,C로 늘어나고 분산분석을 사용했다고 합시다. 분산분석은 서로 유의.. 2021. 2. 27.
통계적 가설검정과 귀류법 (통계적 가설검정 쉽게 이해하기) 통계적 가설검정은 알고 나면 쉬운 내용이지만, 익숙해지는데는 생각보다 시간이 걸립니다. 귀무가설, 대립가설, 기각 등의 말이 생소하기 때문이고 우리가 원하는 가설을 입증하는 방식이 직접적이지 않기 때문입니다. 사실 우리는 통계적 가설검정의 원리를 고등학교 혹은 중학교 때부터 사용해왔습니다. 바로 귀류법입니다. 귀류법은 어떤 가설을 사실이라고 가정한 뒤, 이렇게 가정할 경우 모순이 발생한다는 것을 보여서 어떤 가설이 거짓임을 증명하는 방법입니다. 단계로 정리하면 이렇습니다. - 어떤 가설 A가 참이다. - A가 참일 경우, 모순이 발생한다. - 따라서 A는 거짓이다. 아마 많은 분들이 기억하고 있을 대표적인 귀류법으로는 $\sqrt{2}$가 무리수임을 증명하는 사례가 있습니다. $\sqrt{2}$ 를 유리.. 2021. 2. 27.
서울대 데이터사이언스대학원 과목별 교제명 아래 홈페이지에 교제명이 제공되는 경우만 추렸습니다. 복수의 교제가 제공되는 경우 가장 상위 두권만 적었습니다. https://gsds.snu.ac.kr/ko/courses 터 대학원에 가고는 싶지만 여건이 안되는 분들을 위해 독학하시라고 교제목록만 추린 것입니다. 1) 데이터사이언스를 위한 확률과 통계 All of Statistics by Larry Wasserman, Springer 2004 2) 데이터사이언스를 위한 컴퓨팅 Practical Programming - An Introduction to Computer Science Using Python 3.6 (third edition) Introduction to Computing Systems: from bits & gates to C & bey.. 2021. 2. 18.
분산분석 선택 방법(독립,종속,모수,비모수 고려) 일원분산분석을 할 경우입니다. 3집단이상, 독립표본 -> 분산분석 3집단 이상, 종속표본 -> 반복측정 분산분석 3집단 이상, 독립표본, 미보수 -> Kruskal wallis test 3집단 이상, 종속표본, 비모수 -> Friedman 검정 예시 분석종류 예시 분산분석 세 학급의 수학점수 비교 반복측정 분산분석 A,B,C 세가지 약을 같은 사람에게 먹이고, 복용 전, A먹음, B먹음, C먹음을 비교하는 경우. Kruskal wallis test 세 학급의 수학점수 비교. 각 반 학생수가 적어서 비모수임. Friedman 검정 A,B,C 세가지 약을 같은 사람에게 먹이고, 복용 전, A먹음, B먹음, C먹음을 비교하는 경우. 하지만 표본의 크기가 작아 비모수인 경우. 2021. 1. 6.
신뢰성의 의미 (통계학 vs 신뢰성공학) 통계학에서의 신뢰성 통계학에서의 신뢰성은 크게 두가지가 있습니다. 측정의 신뢰성과, 내적 일관성입니다. 반복 측정의 신뢰성 : 만약 어떤 대상을 측정 할 때마다 값이 바뀐다면 측정의 신뢰성이 없는 것입니다. 측정의 신뢰성이 높다는 것은 어떤 측정 결과가 일관성이 있다는 것입니다. (ex. ICC) 내적 일관성 : 설문 문항에서 항목들 사이의 일관성 또는 동질성의 정도를 말합니다. 상관관계가 높을 수록 내적 일관성이 높은 것입니다. (ex 크론바흐 알파) 신뢰성공학에서의 신뢰성 시스템이 주어진 사용조건 아래에서 의도된 임무기간동안 고유의 기능을 성공적으로 수행 (고장발생 없이) 할 수 있는 능력 또는 성질(확률). 쉽게 말하면 "제품이 고장나지 않을 확률" 입니다. 신뢰성을 측정하는 측도로는 신뢰도함수, .. 2021. 1. 6.
로그정규분포는 무엇이고 왜 사용하는가 로그정규분포는 무엇인가 로그정규분포는 로그를 씌우면 정규분포를 따르는 변수의 분포입니다. 일반적으로 자연로그의 경우를 말합니다. ln(X)가 정규분포를 따르는 X의 분포인 것입니다. Francis Galton의 이름을 따서 Galton 분포 라고도 불립니다. 확률밀도함수는 아래와 같습니다. $$ f(x)=\frac{1}{x\sigma \sqrt{2\pi}}exp\left ( -\frac{\left ( lnx-\mu \right )^{2}}{2\sigma ^{2}} \right ) $$ 반대로 변수 X가 정규분포를 따른다면, exp(X) 는 로그정규분포를 따릅니다. 왜 사용하는가 로그정규분포의 변수는 항상 '양수'값만을 가집니다. 따라서 정규분포가 음수값을 가짐으로 인해 발생하는 문제에 대한 대안이 될 수.. 2021. 1. 5.
20세기 후반 가장 위대한 3명의 통계학자 「통계의 아름다움(리찌엔,출판사:제이펌)」이라는 책을 읽고 있는데 20세기 후반 가장 위대한 3명의 통계학자가 나오는 대목이 있었다. 조지 박스, 존 투키, 데이비드 콕스라고 했다. 아래는 위키에서 찾은 내용을 간단히 요약한 것이다. 조지박스는 1919년에 태어났다. 영국사람이고 런던대학교를 나왔다. 그 유명한 칼 피어슨의 아들의 제자다. 그 유명한 로널드 피셔의 둘째 딸인 조안 피셔와 결혼했다. 미국으로 건너가 위스콘신 대학교 메디슨캠퍼스에 통계확과를 무려 설립했다. 존 튜키는 1915년에 태어났다. 미국 사람이고, 브라운대학 학부 프린스턴대학에서 박사 학위를 받았다. 학창시절 프랑스어와 같은 특수한 과목 이외의 나머지 과목은 어머니께 배웠다(홈스쿨링 한듯). 무려 box-plot 을 만든 사람이다. .. 2021. 1. 1.
0!은 어떻게 1로 정의된걸까 팩토리얼은 한자어로 계승(階乘)이라고 부릅니다. 차례(계)자에 곱할(승)자를 사용합니다. 차례대로 곱한다는 의미입니다. n!은 아래와 같이 정의됩니다. n!=1x2x3x ... xn 팩토리얼은 통계학에서 자주 등장합니다. 순열계산에 팩토리얼이 사용되기 때문입니다. n!을 경우의 수로 해석하면, n개의 서로 다른 무언가를 일렬로 나열하는 경우의 수 입니다. n의 범위는 자연수가 아니라, 음이 아닌 정수입니다. 0도 올 수 있다는 말입니다. 0!은 1로 정의됩니다. 도데체 왜 0!을 1로 정의한걸까요? 1) 팩토리얼의 성질 이용 n!=n(n-1)! 입니다. 따라서 3!=3x2! 2!=2x1! 1!=1x0! 입니다. 1x0!이 1이므로, 0!은 1이 됩니다. 2) 감마함수 이용 (n-1)!을 0과 음의 정수를.. 2020. 12. 28.
확률을 해석하는 두가지 관점 (빈도주의 vs 베이지안) 사건 A가 발생할 확률을 P(A)라고 할 때, P(A)를 해석하는 두가지 관점이 있습니다. 1. 확률을 "빈도"로 해석 (빈도주의) 시행을 반복했을 때, A가 참인 경우의 장기적인 비율. 쉽게 말하면 시행을 무한히 반복한다고 가정했을 때 A가 나온 비율의 수렴값. 더 쉽게 말하면 동전을 무한히 던졌을 때 앞면이 나온 비율. 2. 확률을 "믿음의 정도"로 해석 (베이지안) P(A)는 A가 참일것이라는 관찰자의 믿음의 정도. 쉽게 말하면 시행에서 A가 나올 것이라 믿는 믿음의 정도. 더 쉽게 말하면 동전을 던질 때 앞면이 나올 것이라는 확신이 어느정도 있는가를 수치화 시킨 것. 두 관점은 추론에 대한 두 학파를 만들어냄. 빈도주의 학파(frequentist school)와 베이지안 학파(bayesian sc.. 2020. 12. 28.
통계/빅데이터 관련 자격증 정리 1. 통계 관련 자격증 이름 필기 시험범위 자격요건 사회조사분석사2급 조사방법론1 조사방법론2 사회통계 제한없음 사회조사분석사1급 고급조사방법론1 고급조사방법론2 고급통계 처리 및 분석 1. 해당 종목의 2급 자격을 취득한 후 해당 실무에 2년 이상 종사한 사람 2. 해당 실무에 3년 이상 종사한 사람 품질경영산업기사 실험계획법 통계적품질관리 생산시스템, 품질경영 1. 기능사 등급 이상의 자격을 취득한 후 응시하려는 종목이 속하는 동일 및 유사 직무분야에 1년 이상 실무에 종사한 사람 2. 응시하려는 종목이 속하는 동일 및 유사 직무분야의 다른 종목의 산업기사 등급 이상의 자격을 취득한 사람 3. 관련학과의 2년제 또는 3년제 전문대학졸업자 등 또는 그 졸업예정자 4. 관련학과의 대학졸업자 등 또는 그 .. 2020. 12. 23.
반응형