본문 바로가기
반응형

@ 통계 교양155

모평균의 추정에서 흔히 하는 오해 신뢰구간 평균이 $\mu$이고 표준편차가 $\sigma$인 모집단에서 표본을 추출했습니다. 모평균과 모표준편차는 모르는 상태입니다. 표본평균을 $\bar{X}_{1}$ 라고 합시다. 표본의 크기가충분히 크다면 중심극한정리에 의해 표본평균들은 정규분포를 따릅니다. $\bar{X} \sim N\left ( \mu,\frac{\sigma^2}{n} \right )$ 이때 모평균을 신뢰도 95%로 추정하면 신뢰구간은 아래와 같습니다. $\bar{X}_{1} -1.96\cdot \frac{\sigma}{n} \leq \mu \leq \bar{X}_{1} +1.96\cdot \frac{\sigma}{n}$ 흔한 오해 신뢰도 95%로 추정한 신뢰구간을 두고 흔히 하는 오해가 있습니다. 바로바로 아래와 같습니다. "모.. 2021. 3. 17.
상관계수가 0이라고 관계가 없는게 아니다 상관관계가 없다는 것은 '선형 관계'가 없다는 것입니다. 상관분석은 선형관계의 여부만을 고려하기 때문입니다. 예를들어 아래와 같은 관계는 포착할 수가 없는 것입니다. 위 그래프에서 X와 Y의 관계는 비선형관계입니다. 선형관계는 없지만 관계가 없다고 할 수는 없습니다. 2021. 3. 17.
변수 A,B,C 의 상관관계 변수 A와 변수 B가 강한 상관관계가 있고, 변수 B와 변수 C가 강한 상관관계가 있다고 하자. 이때 변수 A와 C 사이에는 반드시 상관관계가 있을까? 대답은 아니오이다. 간단한 반례를 들어보자. 김,이,박 세 사람이 있다고 하자. 세 사람의 주식 보유량은 아래와 같다. 김 : 삼성전자10주, 엘지전자10주 이 : 삼성전자10주, 셀트리온10주 박 : 셀트리온10주, 네이버10주 삼성전자라는 같은 보유주식이 있으므로, 김의 수익률과 이의 수익률은 강한 상관관계가 있다. 셀트리온이라는 같은 보유주식이 있으므로 이와 박의 수익률도 강한 상관관계가 있다. 그러나 김과 박의 보유주식은 전혀 겹치지 않는다. 따라서 김과 박의 수익률에 반드시 상관관계가 있다고 말할 수 없다. 2021. 3. 17.
[통계] 줄기-잎 그림 예시 줄기 잎 그림이 무엇인지 이해하고, 장점이 무엇인지를 알 수 있도록 준비한 예제입니다. 어떤 반 20명 학생들의 수학 점수가 아래와 같다고 합시다. 78, 72, 50, 95, 75, 51, 43, 80, 64, 83, 79, 32, 38, 55, 44, 86, 94, 30, 80, 44 이 점수를 줄기-잎 그림으로 나타내면 아래와 같습니다. 줄기 잎 도수 3 02 2 4 344 3 5 015 3 6 4 1 7 2589 4 8 0036 4 9 45 2 줄기-잎 그림을 이용하면 줄기의 변량을 한 눈에 파악할 수 있고, 도수도 한눈에 파악할 수 있습니다. 2021. 3. 16.
물가상승률은 어떻게 계산되는걸까? (물가상승률과 물가지수) 물가상승률 물가라는 것은 물건의 가격입니다. 우리가 구매하는 물건의 가격이 얼마나 올랐는지를 알려주는 지표입니다. 작년에 라면 가격이 100원이었고 올해 200원이라면 라면의 물가상승률은 100%인 것입니다. 국가에서 물가상승률을 계산할 때는 라면처럼 한가지 품목만 가지고 계산하지는 않습니다. 그렇다고 모든 품목을 전부 고려할 수도 없습니다. 소비자가 체감하는 물가를 잘 나타낼 수 있는 대표품목들을 골라주어야 합니다. 통계청에서는 460개의 품목을 선택하였습니다. 여기를 클릭하시면 나오는 페이지 하단에서 다운받으실 수 있습니다. 쌀, 땅콩, 라면등이 있습니다. 각 품목의 가중치를 부여하였고, 전체 가중치의 합이 1000이 되도록 하였습니다. 소비가 많은 품목에 더 큰 가중치를 부여합니다. 가중치는 2~3.. 2021. 3. 1.
나라별 국가채무 확인하는 방법(IMF 홈페이지) 나라별 국가채무를 확인하는 방법을 알아봅시다. 먼저 IMF 홈페이지에 들어갑니다. IMP는 International Monetary Fund 의 약어입니다. 우리말로는 국제통화기금이라고 합니다. 전세계 금융을 감독하는 역할을 합니다. 1) 홈페이지에 들어간 뒤 메뉴 중에서 DATA를 클릭합니다. 2) 아래 보이시는 화면이 뜰 텐데요. IMF Data Mapper에 들어갑니다. 3) 디폴트 데이터로 Real GDP growth가 나올텐데요. 아래 그림의 색칠해놓은 버튼인 DATASETS 을 클릭합니다. 4) Global Debt Database 를 클릭합니다. 5) 총 10가지 데이터가 제공됩니다. 국가부채와 관련된 데이터는 아래 표시한 두 가지 입니다. 둘의 차이는 아래와 같습니다. - Central G.. 2021. 2. 28.
실험군, 양성대조군(positive control), 음성대조군(negative control) 쉬운 설명 실험에는 대조군이 있어야 어떤 효과를 입증할 수가 있습니다. 따라서 과학실험들은 항상 대조군과 함께 진행합니다. 예를들어 신약의 효과를 실험한다고 할 때, 실험군만으로 실험을 하게 되면 결과적으로 일어난 변화가 약의 효과인지 아니면 시간이 흘러 저절로 일어난 일인지 알 수가 없습니다. 따라서 실험군과 같은 조건의 대조군을 설정하고 비교하는 방식으로 결과를 입증합니다. 약을 투여한 실험군에는 어떤 변화가 나타났지만 대조군에서는 그렇지 않았다는 방식으로요. 실험군(experiment group) : 약을 투여 대조군(control group) : 약을 투어하지 않음 (플라시보효과를 상쇄하기 위해 대조군에도 약을 투여하는 척은 함.) 대조군의 종류 대조군에는 두 종류가 있습니다. 양성대조군과 음성대조군입니다... 2021. 2. 27.
분산분석에는 왜 사후검정이 있나요? 비교해야하는 집단(그룹,표본)이 세개 이상인 경우 t검정 대신 분산분석(ANOVA)를 사용해야한다고 알고 계실 것입니다. 물론 틀린 말은 아니지만 위와 같이 말할 경우 '사후검정'이 낄 자리가 없어집니다. 분산분석이 사후분석을 포함하는 개념이라고 할 수도 있지만, 처음 배우는 사람들에게 그런 개념은 당연히 없습니다. 분산분석과 함께 사후검정이 등장할 자리를 마련해야하고, 이를 위해 분산분석이 t검정을 대신한다는 말은 일부만 맞다고 하겠습니다. 따라서 여기서는 분산분석과 사후분석을 구분하겠습니다. 분산분석만으로는 t검정을 대체하지 못합니다. t검정으로 A,B 집단을 비교할 경우 A,B 집단에 차이가 있는지 없는지를 알려줍니다. 집단이 A,B,C로 늘어나고 분산분석을 사용했다고 합시다. 분산분석은 서로 유의.. 2021. 2. 27.
통계적 가설검정과 귀류법 (통계적 가설검정 쉽게 이해하기) 통계적 가설검정은 알고 나면 쉬운 내용이지만, 익숙해지는데는 생각보다 시간이 걸립니다. 귀무가설, 대립가설, 기각 등의 말이 생소하기 때문이고 우리가 원하는 가설을 입증하는 방식이 직접적이지 않기 때문입니다. 사실 우리는 통계적 가설검정의 원리를 고등학교 혹은 중학교 때부터 사용해왔습니다. 바로 귀류법입니다. 귀류법은 어떤 가설을 사실이라고 가정한 뒤, 이렇게 가정할 경우 모순이 발생한다는 것을 보여서 어떤 가설이 거짓임을 증명하는 방법입니다. 단계로 정리하면 이렇습니다. - 어떤 가설 A가 참이다. - A가 참일 경우, 모순이 발생한다. - 따라서 A는 거짓이다. 아마 많은 분들이 기억하고 있을 대표적인 귀류법으로는 $\sqrt{2}$가 무리수임을 증명하는 사례가 있습니다. $\sqrt{2}$ 를 유리.. 2021. 2. 27.
서울대 데이터사이언스대학원 과목별 교제명 아래 홈페이지에 교제명이 제공되는 경우만 추렸습니다. 복수의 교제가 제공되는 경우 가장 상위 두권만 적었습니다. https://gsds.snu.ac.kr/ko/courses 터 대학원에 가고는 싶지만 여건이 안되는 분들을 위해 독학하시라고 교제목록만 추린 것입니다. 1) 데이터사이언스를 위한 확률과 통계 All of Statistics by Larry Wasserman, Springer 2004 2) 데이터사이언스를 위한 컴퓨팅 Practical Programming - An Introduction to Computer Science Using Python 3.6 (third edition) Introduction to Computing Systems: from bits & gates to C & bey.. 2021. 2. 18.
분산분석 선택 방법(독립,종속,모수,비모수 고려) 일원분산분석을 할 경우입니다. 3집단이상, 독립표본 -> 분산분석 3집단 이상, 종속표본 -> 반복측정 분산분석 3집단 이상, 독립표본, 미보수 -> Kruskal wallis test 3집단 이상, 종속표본, 비모수 -> Friedman 검정 예시 분석종류 예시 분산분석 세 학급의 수학점수 비교 반복측정 분산분석 A,B,C 세가지 약을 같은 사람에게 먹이고, 복용 전, A먹음, B먹음, C먹음을 비교하는 경우. Kruskal wallis test 세 학급의 수학점수 비교. 각 반 학생수가 적어서 비모수임. Friedman 검정 A,B,C 세가지 약을 같은 사람에게 먹이고, 복용 전, A먹음, B먹음, C먹음을 비교하는 경우. 하지만 표본의 크기가 작아 비모수인 경우. 2021. 1. 6.
신뢰성의 의미 (통계학 vs 신뢰성공학) 통계학에서의 신뢰성 통계학에서의 신뢰성은 크게 두가지가 있습니다. 측정의 신뢰성과, 내적 일관성입니다. 반복 측정의 신뢰성 : 만약 어떤 대상을 측정 할 때마다 값이 바뀐다면 측정의 신뢰성이 없는 것입니다. 측정의 신뢰성이 높다는 것은 어떤 측정 결과가 일관성이 있다는 것입니다. (ex. ICC) 내적 일관성 : 설문 문항에서 항목들 사이의 일관성 또는 동질성의 정도를 말합니다. 상관관계가 높을 수록 내적 일관성이 높은 것입니다. (ex 크론바흐 알파) 신뢰성공학에서의 신뢰성 시스템이 주어진 사용조건 아래에서 의도된 임무기간동안 고유의 기능을 성공적으로 수행 (고장발생 없이) 할 수 있는 능력 또는 성질(확률). 쉽게 말하면 "제품이 고장나지 않을 확률" 입니다. 신뢰성을 측정하는 측도로는 신뢰도함수, .. 2021. 1. 6.
로그정규분포는 무엇이고 왜 사용하는가 로그정규분포는 무엇인가 로그정규분포는 로그를 씌우면 정규분포를 따르는 변수의 분포입니다. 일반적으로 자연로그의 경우를 말합니다. ln(X)가 정규분포를 따르는 X의 분포인 것입니다. Francis Galton의 이름을 따서 Galton 분포 라고도 불립니다. 확률밀도함수는 아래와 같습니다. $$ f(x)=\frac{1}{x\sigma \sqrt{2\pi}}exp\left ( -\frac{\left ( lnx-\mu \right )^{2}}{2\sigma ^{2}} \right ) $$ 반대로 변수 X가 정규분포를 따른다면, exp(X) 는 로그정규분포를 따릅니다. 왜 사용하는가 로그정규분포의 변수는 항상 '양수'값만을 가집니다. 따라서 정규분포가 음수값을 가짐으로 인해 발생하는 문제에 대한 대안이 될 수.. 2021. 1. 5.
20세기 후반 가장 위대한 3명의 통계학자 「통계의 아름다움(리찌엔,출판사:제이펌)」이라는 책을 읽고 있는데 20세기 후반 가장 위대한 3명의 통계학자가 나오는 대목이 있었다. 조지 박스, 존 투키, 데이비드 콕스라고 했다. 아래는 위키에서 찾은 내용을 간단히 요약한 것이다. 조지박스는 1919년에 태어났다. 영국사람이고 런던대학교를 나왔다. 그 유명한 칼 피어슨의 아들의 제자다. 그 유명한 로널드 피셔의 둘째 딸인 조안 피셔와 결혼했다. 미국으로 건너가 위스콘신 대학교 메디슨캠퍼스에 통계확과를 무려 설립했다. 존 튜키는 1915년에 태어났다. 미국 사람이고, 브라운대학 학부 프린스턴대학에서 박사 학위를 받았다. 학창시절 프랑스어와 같은 특수한 과목 이외의 나머지 과목은 어머니께 배웠다(홈스쿨링 한듯). 무려 box-plot 을 만든 사람이다. .. 2021. 1. 1.
0!은 어떻게 1로 정의된걸까 팩토리얼은 한자어로 계승(階乘)이라고 부릅니다. 차례(계)자에 곱할(승)자를 사용합니다. 차례대로 곱한다는 의미입니다. n!은 아래와 같이 정의됩니다. n!=1x2x3x ... xn 팩토리얼은 통계학에서 자주 등장합니다. 순열계산에 팩토리얼이 사용되기 때문입니다. n!을 경우의 수로 해석하면, n개의 서로 다른 무언가를 일렬로 나열하는 경우의 수 입니다. n의 범위는 자연수가 아니라, 음이 아닌 정수입니다. 0도 올 수 있다는 말입니다. 0!은 1로 정의됩니다. 도데체 왜 0!을 1로 정의한걸까요? 1) 팩토리얼의 성질 이용 n!=n(n-1)! 입니다. 따라서 3!=3x2! 2!=2x1! 1!=1x0! 입니다. 1x0!이 1이므로, 0!은 1이 됩니다. 2) 감마함수 이용 (n-1)!을 0과 음의 정수를.. 2020. 12. 28.
확률을 해석하는 두가지 관점 (빈도주의 vs 베이지안) 사건 A가 발생할 확률을 P(A)라고 할 때, P(A)를 해석하는 두가지 관점이 있습니다. 1. 확률을 "빈도"로 해석 (빈도주의) 시행을 반복했을 때, A가 참인 경우의 장기적인 비율. 쉽게 말하면 시행을 무한히 반복한다고 가정했을 때 A가 나온 비율의 수렴값. 더 쉽게 말하면 동전을 무한히 던졌을 때 앞면이 나온 비율. 2. 확률을 "믿음의 정도"로 해석 (베이지안) P(A)는 A가 참일것이라는 관찰자의 믿음의 정도. 쉽게 말하면 시행에서 A가 나올 것이라 믿는 믿음의 정도. 더 쉽게 말하면 동전을 던질 때 앞면이 나올 것이라는 확신이 어느정도 있는가를 수치화 시킨 것. 두 관점은 추론에 대한 두 학파를 만들어냄. 빈도주의 학파(frequentist school)와 베이지안 학파(bayesian sc.. 2020. 12. 28.
통계/빅데이터 관련 자격증 정리 1. 통계 관련 자격증 이름 필기 시험범위 자격요건 사회조사분석사2급 조사방법론1 조사방법론2 사회통계 제한없음 사회조사분석사1급 고급조사방법론1 고급조사방법론2 고급통계 처리 및 분석 1. 해당 종목의 2급 자격을 취득한 후 해당 실무에 2년 이상 종사한 사람 2. 해당 실무에 3년 이상 종사한 사람 품질경영산업기사 실험계획법 통계적품질관리 생산시스템, 품질경영 1. 기능사 등급 이상의 자격을 취득한 후 응시하려는 종목이 속하는 동일 및 유사 직무분야에 1년 이상 실무에 종사한 사람 2. 응시하려는 종목이 속하는 동일 및 유사 직무분야의 다른 종목의 산업기사 등급 이상의 자격을 취득한 사람 3. 관련학과의 2년제 또는 3년제 전문대학졸업자 등 또는 그 졸업예정자 4. 관련학과의 대학졸업자 등 또는 그 .. 2020. 12. 23.
통계학의 분류 통계학은 크게 기술통계학과 추측통계학으로 나뉨. 추측통계학은 추정과 가설검정으로 나뉨. 기술통계학 : 데이터의 기록, 데이터의 정리, 데이터의 특징 요약 추측통계학 : 추정 또는 가설검정 추정은 점추정과 구간추정으로 나뉨. 가설검정은 평균비교, 비율비교, 회귀분석 등으로 나뉨 2020. 12. 1.
1종오류, 2종오류, 유의수준, 표준편차, 표본크기 사이의 관계 (직관적 설명ver) 1종오류, 2종오류, 유의수준, 표준편차, 표본크기 사이의 관계를 알아봅시다. 한가지 예시를 통해 이들의 관계를 이해해보도록 하겠습니다. 과자 무게 예시입니다. 감자과자를 파는 A회사에서는 과자의 무게 평균이 70g, 표준편차가 5g이라고 주장합니다. 우리는 분명 70g보다 조금 넣었을 것이라 의심하는 상황입니다. 귀무가설과 대립가설을 세워봅시다. 귀무가설 : 모집단 과자무게평균=70 대립가설 : 모집단 과제무게평균 2020. 11. 30.
표본의 크기 vs 표본의 개수 표본의 크기와 개수가 헷갈리신다는 분들이 많이 계셔서 이번 글에서 설명을 해보려고 합니다. 한가지 예시로 쉽게 이해할 수 있을 겁니다. 아래와 같은 모집단이 있다고 합시다. 모집단 = {a,b,c,d,e,f,g,h,i,j,k,l,m,n,o,p,q,r,s,t,u,v,w,x,y,z} 크기가 2인 표본 3개를 뽑아봅시다. 표본1 = {a,b} 표본2 = {e,r} 표본3 = {k,w} 표본의 크기는 표본의 원소의 개수입니다. 위 예시에서 각 표본은 2개의 원소를 갖습니다. 따라서 각 표본의 크기는 2입니다. 표본의 개수는, 원소 2개짜리가 한 표본이라고 했을때, 그런 표본의 수입니다. 이 예시로 이해가 안되시면, 다른 예시로 한번 더 설명해보겠습니다. 서울시 사람들의 연봉을 조사하기 위해 조사자 50명을 모집.. 2020. 11. 8.
표본추출방법 총정리 표본추출방법 총정리 표본추출 방법은 크게 두가지로 나뉩니다. 확률추출법과 비확률추출법입니다. 확률추출법은 객관적이고 수학적인 방식이고, 비확률추출법은 조사자의 주관이 개입된 방식입니다. 확률추출법에는 아래 7가지가 있습니다. 1. 단순임의추출법 (simple random sampling) - 난수를 발생시켜 표본추출 2. 계통추출법 (systematic sampling) - 간격 k를 정하고, k보다 작은 번호에서 출발함. k간격으로 표본을 추출함. 3. 층화임의추출법 (stratified random sampling) - 모집단을 여러 층(ex. 성별, 나이 등)으로 나눈 뒤, 각 층에 단순임의추출법 적용 - 성별(남,녀)과 나이(10,20,30,40대)로 나눈 경우, 총 2x4=8 개의 층이 생성됨 .. 2020. 9. 29.
확률에 왜 질량과 밀도라는 말이 붙어있나 (확률밀도함수, 확률질량함수) 아래 목차로 설명하겠습니다. 1. 확률밀도함수와 확률질량함수 2. 질량과 밀도 (3,2,1차원) 3. 비교 확률밀도함수(PDF, probability density function)와 확률질량함수(PMF, probability mass function)라는 이름에는 확률과는 거리가 먼 용어들이 붙어있습니다. '질량(mass)'과 '밀도(density)'라는 단어인데요. 물리시간에나 나올 법한 단어들입니다. 아마 대부분의 분들이 "밀도에는 뭔가를 곱해야 질량이 되는거니까. 함수값 그 자체가 확률인 경우를 '질량', 함수값에 뭔가를 곱해서 넓이를 구하는 경우를 '밀도'라고 놓았구나" 라는 애매하지만 모르는 것은 아닌 상태일거라 생각합니다. 질량과 밀도의 관계가, 확률질량함수와 확률밀도함수의 관계로 어떻게 연.. 2020. 9. 27.
mean vs average vs expected value (구분 가능?) mean vs average vs expected value (구분 가능?) 1. mean 아마 mean이 무엇이냐고 누군가 물어보면, 전체 합을 개수로 나눈 값이라고 답하실 것입니다. 그런데 mean 에는 세가지가 종류가 있습니다. Arithmetic mean, Geometric mean, Harmonic mean 입니다. 각각 산술평균, 기하평균, 조화평균이라고 부릅니다. 우리가 mean이라고 이야기할 때는 보통 '산술'평균의 의미로 사용합니다. 2. average average는 정의하기가 어려운 개념입니다. 위키피디아에 보면, average는 구어적으로 일련의 숫자들을 대표하는 하나의 숫자라고 되어있습니다. 우리는 average를 무엇으로 알고 있나요? 일련의 숫자들을 다 더한 뒤, 개수로 나눈 .. 2020. 9. 24.
IBM에서 제공하는 무료 데이터사이언스 강의 사이트 IBM에서 제공하는 무료 데이터사이언스 강의 사이트 이런저런 검색을 하다가 괜찮은 강의 사이트를 발견하게 되었습니다. cognitiveclass 라는 사이트인데요. 데이터사이언스 관련된 강의들을 제공합니다. 찾아보니 IBM에서 운영하고 있었습니다. 아래 주소로 들어가시면 됩니다. https://cognitiveclass.ai/ 회원가입을 해야 강의들을 이용할 수 있고 모든 강의는 무료입니다. 무료인데 퀄리티가 상당합니다. 상단 탭에 보시면 learning path 와 course 탭이 있습니다. course 가 '과목'에 해당되구요. learning path 는 course 를 묶어서 만든 커리큘럼입니다. course에 먼저 들어가봅시다. 20200921 기준 94개의 course 가 업로드되어 있습니다.. 2020. 9. 21.
표본의 크기를 계산하는 검정력분석 (G power 소프트웨어) 표본의 크기를 계산하는 검정력분석 (G power 소프트웨어) 검정력분석(power analysis)는 표본의 크기를 결정할 때 주로 사용합니다. 검정력을 이용하여 표본의 크기를 결정하는 것입니다. 검정력은 1-β 입니다. β는 2종오류입니다. 2종오류는 귀무가설이 거짓임에도 귀무가설을 기각시키지 않을 확률입니다. 검정력이 커진다는 것은 2종오류가 작아지는 것을 의미합니다. 검정력 분석은 일정 값 이상의 검정력을 확보할 수 있는 표본의 크기를 구하는 것입니다. 이미 조사가 진행된 후라면, 현재 가지고 있는 자료들의 검정력을 구하는 것을 뜻하기도 합니다. 검정력분석을 해주는 무료 소프트웨어가 있습니다. G power라는 소프트웨어입니다. 독일의 한 대학에서 개발하여 배포한 소프트웨어입니다. 아래 링크에서 .. 2020. 8. 27.
반복측정 분산분석에서의 표본수 선정 반복측정 분산분석에서의 표본수 선정 연구 대상의 표본수를 결정할 때, G Power라는 소프트웨어가 주로 사용됩니다. 독일의 뒤셀도르프 대학에서 개발하여 무료로 배포하였습니다. G Power 소프트웨어를 이용한 반복측정디자인의 표본수 산출에 대한 좋은 논문이 있어 공유합니다. 반복측정자료는 아래와 같은 자료를 말합니다. (논문 내용에서 발췌) 1) 동일한 개체를 대상으로 시간의 진행에 따라 여러번 측정하는 연구 2) 동일한 개체에서 각각 다른 치료를 받게 한 후 측정하는 연구 3) 동일한 개체에서 몸의 다른 부분에서 측정한 연구 4) 각각의 사례군(case)과 대조군(control)에서 개체를 개별적으로 짝짓기한 연구(individual matched study) 중앙대학교 마취통증의학과 강현님이 쓰신 .. 2020. 8. 26.
통계분석 전에 상자수염그림을 그려봐야 하는 이유 그래프를 그려봐야 하는 이유는 여러가지가 있겠지만, 그래프를 그려봐야하는 중요한 이유중 하나는 '이상치'입니다. 아래 그래프를 봅시다. 이 그래프는 어떤 치수에 대한 측정 결과인데요. 같은 치수라고 보기에는 어려울 만큼 심하게 큰 값들이 존재합니다. 사람의 키로 예를 들면 3m, 5m 와 같은 결과가 포함된 것입니다. 이 값들은 왜 발생한 것일까요? 보통은 사람의 실수로 발생합니다. 이런 실수를 쉽게 걸러낼 수 있는 좋은 도구가 '상자 그림'입니다. 상자 수염그림이라고도 부르고 영어로는 boxplot 이라고 합니다. boxplot 을 그리면 이상치를 한눈에 볼 수 있습니다. 위 그래프에서 동그라미가 이상치입니다. 2020. 8. 25.
모비율의 추정 간단 설명 모비율 추정을 간단히 설명하겠습니다. 이론을 자세히 설명하는 강의는 아니라서 아래 두 내용은 다른 글로 설명하겠습니다. - 표본비율의 분포가 정규분포를 따르는 이유 - 신뢰구간 유도과정 모집단에서 모비율을 p라고 놓겠습니다. 예를들면 모집단이 서울시민이고 모비율은 의사의 비율인 것입니다. 우리는 p를 모른다고 가정하겠습니다. 이 p를 알아내기 위해 표본을 뽑을 것입니다. 크기가 n인 표본을 뽑았습니다. 표본의 의사비율을 p_hat1 이라고 놓겠습니다. 중심극한정리에 의해 표본비율들은 아래 분포를 따릅니다. p_hat1 은 아래 분포 상의 한 점입니다. p_hat~N(p,p(1-p)/n) 정규분포를 가정할 수 있는 조건은 n(p_hat1)≥10 과 n(1-p_hat1)≥10 을 동시에 만족하는 것입니다. .. 2020. 8. 4.
상한가와 하한가가 한 번씩 발생하면 이득일까 손해일까? 상한가와 하한가가 한 번씩 발생하면 이득일까 손해일까? 100원짜리 주식 한 주가 있습니다. 이 주식에 상한가와 하한가가 한번씩 발생한다는 것을 수식으로 표현하면 아래와 같습니다. 상한가는 주식가격이 30% 상승하는 것이고, 하한가는 주식 가격이 30% 하락하는 것입니다. 100x(1.3)x(0.7) 곱셈이기 때문에 순서는 상관없습니다. 오늘 상한가가 발생하고 내일 하한가가 발생하는 것과, 오늘 하한가가 발생하고 내일 상한가가 발생하는 것의 결과는 같습니다. 계산결과는 아래와 같습니다. 1x(1.3)x(0.7)=91 9% 하락입니다. 상한가와 하한가의 무게는 같지 않습니다. 하한가가 더 치명적입니다. 상한가가 10번, 하한가를 10번 발생하면 어떻게 될까요? 100*(1.3)^10*(0.7)^10 = 3.. 2020. 7. 25.
상관분석은 언제쓰는걸까 4. 상관분석은 언제쓰는걸까 우리는 a지난 세 강에 걸쳐서 아래 세가지 통게분석방법을 언제 사용하는지 알아보았습니다. '독립표본 t검정' '카이제곱 검정' '분산분석' 오늘은 상관분석을 언제 사용하는지 알아봅시다. 상관분석은 두 변수 사이에 상관관계를 알아볼 때 사용합니다. 더 정학히 말하면 '선형' 관계만을 확인할 수 있습니다. 상관분석을 하면 '상관계수'와 'p 값' 이 구해집니다. 상관계수 값이 1에 가까울 수록 두 변수의 관계는 직선에 가까워집니다. 두 변수로 산점도를 그렸을 때, 점이 완벽히 직선을 이루는 경우의 상관계수가 1입니다. p값은 상관계수가 0인지 아닌지 유의성을 판단합니다. 관계가 있다 혹은 없다를 판단하는 것이고, 관계의 강도는 상관계수로 판단합니다. 상관계수가 1에 가까울 수록 .. 2020. 7. 23.
반응형