본문 바로가기
반응형

@ 통계 교양155

분산분석은 언제쓰는걸까 3. 분산분석은 언제쓰는걸까 우리는 지난 두 강에 걸쳐서 '독립표본 t검정' 과 '카이제곱 검정'을 언제 사용하는지 알아보았습니다. 분산분석, 상관분석, 회귀분석, 비모수검정을 언제 하는지 정도만 더 알아본 뒤에 일반화 시키도록 하겠습니다. 오늘은 분산분석을 언제 하는지 알아봅시다. 더 정확히 말하면 일원분산분석입니다. 분산분석의 세분화에 관하여는 이후 글에서 설명하겠습니다. 분산분석은 세 집단 이상의 평균을 비교하는데 사용합니다. 예를들면 A반, B반, C반의 수학성적의 평균을 비교할 때 사용할 수 있습니다. 분산분석을 t검정의 확장판으로 생각하는 경우가 있는데, 분산분석은 t검정과는 원리가 다릅니다. 오히려 분산분석 이후에 하는 '사후분석'이 t검정의 확장판입니다. 분산분석은 '집단 간 분산'과 '집.. 2020. 7. 17.
카이제곱검정은 언제 쓰는걸까 통계분석 언제쓰나 2. 카이제곱검정은 언제 쓰는걸까 지난 글에서는 t검정을 언제 사용할 수 있는지 알아보았습니다. 어떤 상황에 어느 검정을 쓰는지 일반화하여 표나, 디시전트리로 정리하는 것이 목적인데요. 일단 감을 잡아햐 하니, 몇개의 대표적인 검정들을 살펴보고 있는 것입니다. 이번 글에서는 카이제곱검정을 언제 사용하는지 알아봅시다. 카이제곱검정의 대표적인 예시는 폐암과, 흡연입니다. 폐암환자 100명과, 정상인 100명을 모집했습니다. 폐암 환자중 흡연자는 30명이었고, 정상인 중 흡연자는 10명이었습니다. 자료를 표로 나타내면 아래와 같습니다. 폐암 정상 합계 흡연 30 10 40 비흡연 70 90 160 합계 100 100 200 카이제곱검정을 하면 폐암과 흡연의 연관성을 알 수 있습니다. 폐암에 .. 2020. 7. 12.
독립표본 t검정은 언제쓰는걸까 1. 독립표본 t검정은 언제쓰는걸까 통계 분석 방법의 종류는 정말 많습니다. 일부만 나열해도 이렇게 많습니다. 정규성검정 등분산검정 일표본 t검정 독립표본t검정 대응표본t검정 윌콕슨순위합검정 윌콕슨부호순위검정 일원분산분석 크루스칼왈리스검정 이원분산분석 다원분삭분석 반복측정분산분석 프라이드먼분석 다변량분산분석 피어슨상관분석 스피어만상관분석 단순선형회귀분석 다중선형회귀분석 다변량단순선형회귀분석 다변량다중선형회귀분석 카이제곱분석 피셔정확검정 신뢰성검정 이렇게 다양한 분석방법이 있는 이유는 상황과 조건에 따라 사용할 수 있는 검정이 다르기 때문일 것입니다. 언제 어떤 검정을 사용해야 하는지 한번쯤 정리해보려고 했는데 이제 시작하게 됐네요. 어던 통계분석을 사용할지 결정할 때 '데이터의 종류' 와 '데이터의 크기.. 2020. 7. 12.
책을 읽다 그래프에 등장하는 * ** 별표는 어떤 의미일까?? 안녕하세요 통계의 본질입니다. 오늘은 제가 책을 읽다가 보게된 그래프 이야기를 하려고 합니다. 노모포비아 라는 책을 읽고 있는데요. '스마트폰이 우리 뇌를 어떻게 망가뜨리는가' 라는 주제로 쓰여진 책입니다. 이 책에서 오른쪽에 보이시는 것과 같은 그래프가 등장을 했습니다. 위에 있는 그래프는 스마트폰의 위치가 작업기억에 미치는 영향을 보여주는 그래프이구요. 아래는 스마트폰 위치가 유동성 지능에 미치는 영향을 보여주는 그래프입니다. 보시면 책상에 있을때 작업기억과 유동성 지능이 모두 낮죠. 그리고 주머니에 넣으면 둘다 증가하구요. 다른 공간에 있을때가 가장 높습니다. 스마트폰이 우리 눈에 보이는 곳에 있을 수록 우리가 멍청해지고 무능해진다는 그래프인데요. 여기 보시면 그래프 위에 별이 있습니다. 통계 논문.. 2020. 7. 11.
대학 학과 별 입학자 수 확인하는 방법 대학 학과 별 입학자 수 확인하는 방법 (Step1) 교육 통계서비스 사이트 들어감 https://kess.kedi.re.kr/index (Step2) 교육통계 클릭 (Step3) 스크롤 아래로 내려서 대학교육통계 주제별 클릭 (Step4) 학과 계열별 -> 대학과정 -> 학과 계열별 입학자수 클릭 (Step4) 엑셀 다운로드 (Step5) 그래프 그리기 아래 그래프는 교육대학,일반대학,방송통신대학,산업대학,기술대학,각종학교,원격및사이버,사내대학 모두 포함. 121개 학과중 상위 80개만 추림. 일반대학만 고려 2020. 7. 4.
음이항분포의 정의는 왜 여러가지일까? (+파스칼분포) 음이항분포의 정의는 왜 여러가지일까? 구독자 한 분이 이런 질문을 주셨습니다. 배웠던 음이항 분포의 정의가 제 설명과 다르고, 둘을 어떻게 연결해야할지 궁금하다는 것이었습니다. 배우는 과목에서는 파스칼분포라고 불린다고 하셨습니다. 랜덤프로세스 얘기도 하신걸 보니 통신을 공부하시는 것 같습니다. 전기전자공학과에서 배우는 통신시스템(통신공학) 이라는 과목에 랜덤프로세스가 등장합니다. 제 설명과 구독자분이 배운 음이항분포가 다른 이유는 음이항 분포의 정의가 여러가지이기 때문입니다. 무려 6종의 정의가 가능합니다. 음이항 분포는 베르누이시행을 n번 반복하는 상황에서 정의됩니다. 베르누이시행을 n번 했을 때, 성공 횟수를 k 실패횟수를 r이라고 놓겠습니다. 이때 아래 등식이 성립합니다. n=r+k 하나를 변수로,.. 2020. 6. 10.
ROC curve 직접 그려보기 ROC 곡선은 x축은 (1-specificity), y축은 sensitivity 인 곡선입니다. Receiver Operating Characteristic 의 약어입니다. 직역하면 수신자조작특성인데 신호탐지이론?에 나오는 용어라 와닿지 않네요. 통계학의 입장에서 '진단(diagnosis)'이라는 관점으로 ROC curve 를 설명드릴 것입니다. 한가지 예시를 통해 자세히 설명드리겠습니다. 체질량지수를 당뇨판정에 사용할 수 있을지 여부를 확인하고 싶습니다. 아래는 환자 10명의 체질량지수와 당뇨판정 여부에 대한 데이터입니다. 사실 10명은 너무 작은 크기이지만, 개념을 이해하는 것이 목적이므로 작게 설정했습니다. (bmi, 진단결과) 로 나타냈습니다. (33.6,Yes) (26.6,No) (28.1,No.. 2020. 6. 6.
'몇배'라는 것에 속지 말자 (상대수치의 오류) '몇배'라는 것에 속지 말자 (상대수치의 오류) 두개의 약이 있다. 가격은 아래와 같다. A약 - 10000원B약 - 17000원 약사는 이렇게 말한다. "A약의 가격이 7000원 싸긴 한데, 부작용이 2배 큽니다. 효과는 둘다 동일합니다." 아마 이 이야기를 들은 대부분의 사람들은 7000원 더 주고 B약을 살 것이다. 알고 보니 A약은 부작용이 10만명중 2명 발생했고, B약은 10만명중 1명 발생했다. A약의 부작용 발생률은 0.002%이고, B약은 0.001% 인 것이다. 이 사실을 알았다면 어느 약을 사겠는가. 고민이 된다면 가격차이를 늘려보겠다. 아마 많은 사람들이 A약을 살 것이다. 약사가 거짓말을 한 것은 아니다. 단지 진실을 덜 말했을 뿐이다. 건강식품의 구성물에도 이런 수법이 적용됩니다.. 2020. 5. 24.
세계 500대 부자 자산에도 파레토법칙이 적용될까?? 세계 500대 부자 자산에도 파레토법칙이 적용될까?? 20:80 법칙이라도고 하는 파레토법칙은 전체의 20%의 원인에 의해 전체의 80%결과가 나타나는 법칙을 말합니다. 상당히 많은 분야에 적용이 가능한 흥미로운 법칙입니다. 예를들면 "20%의 운전자가 80%의 교통위반을 한다" "20%의 범죄자가 80%의 범죄를 저지른다" "운동선수 20%가 상금80%를 받는다" 등이 있습니다. 이 법칙이 500대 부자의 재산에도 적용이 가능한지 궁금해졌습니다. 만약 적용이 가능하다면 500명 중 상위 20%가 전체 재산의 합의 80%를 가지고 있을 것입니다. 세계 500대 부자의 데이터는 블룸버그에서 제공하는 사이트에서 구할 수 있습니다. 블룸버그는 경제전문 뉴스를 제공하는 언론인데요. 세계에서 돈이 가장 많은 50.. 2020. 5. 14.
표본분산은 꼭 불편추정량이어야 하나요?? 표본분산은 꼭 불편추정량이어야 하나요?? 표본분산을 구할 때, n이 아니라 n-1로 나누는 이유는 다들 아실 것입니다. 표본분산을 '불편추정량'으로 만들기 위함입니다. 어떤 통계량의 평균을 구했을 때, 결과가 모수(모집단의 통계량)과 같아지는 통계량이 불편추정량입니다. 표본평균을 예로 들면, 표본평균의 평균이 모평균이기 때문에 표본평균은 불편추정량입니다. 반면 표본분산은 불편추정량이 아닙니다. 표본분산을 정의할 때, n으로 나눠서 정의하면 그 평균이 모분산이 되지 않습니다. n-1로 나눠서 정의할 때 모분산이 됩니다. 구독자분들께 이런 질문을 종종 받습니다. n-1로 나누면 불편추정량이 된다는건 알겠는데 왜 불편추정량으로 만들어줘야 하는가요? 이것은 자연의 법칙이나 불변의 진리가 아니라, 사람의 필요에 .. 2020. 5. 14.
우리나라는 어느 연령의 인구 수가 가장 많을까? 우리나라는 어느 연령의 인구 수가 가장 많을까? 우리나라는 어느 연령의 인구 수가 가장 많을까요? 대한민국 국민의 주민등록 통계자료를 통해서 알아볼 수 있습니다. 구글에 통계포털이라고 검색하고 들어갑니다. [국내통계]-[주제별 통계]로 들어갑니다. 지난달 데이터까지 올라와 있습니다. 매달 업데이트 되는 것 같네요. 아래 그림과 같이 [행정구역(시군구)별/1세별 주민등록인구] 를 클릭합니다. 연령별 총인구/성별인구가 지역별로 출력됩니다. 탭들을 통해서 상세 선택이 가능합니다. 일괄설정기능을 통해서도 상세선택이 가능합니다. 다운로드 버튼을 클릭합니다. 엑셀을 선택하고 다운로드를 클릭합니다. 셀 병합은 체크해제를 합니다. 엑셀로 불러오면 아래와 같습니다. 첫째행을 제거하고 R에서 불러오겠습니다. 엑셀 데이터는.. 2020. 5. 12.
세계 인구가 '현재' 몇명인시 실시간으로 알려주는 사이트 세계 인구가 '현재' 몇명인지 실시간으로 알려주는 사이트 세계 인구가 '현재' 몇명인지 실시간으로 알려주는 신기한 사이트가 있어서 소개하려고 합니다. worldometers 라는 사이트입니다. worldometer는 Dadax 라는 작은 미국 회사에서 만든 서비스입니다. 2008년 1월 29일에 서비스를 시작했씁니다. 한국어로 번역된 사이트도 있어서 한글로 보실 수 있습니다. 한번 들어가봅시다. https://www.worldometers.info/kr/ 현재 세계인구는 77억명이 넘었네요. 세계인구 뿐만 아니라 8개의 카테고리의 다양한 정보들을 보여줍니다. 카테고리는 '세계 인구' '정부&경제' '사회&미디어' '환경' '식량' '물' '에너지' '건강' 입니다. 궁금하신 카테고리의 정보를 확인해보시면.. 2020. 5. 11.
한국인 6000명의 키와 몸무게는 정규분포 모양일까?? 우리가 살고있는 세상의 많은 현상들이 정규분포 모양을 따른다고 합니다. 한국인의 키와 몸무게도 정규분포를 따를까요? 정말 그런지 직접 확인해보았습니다다. 사이즈코리아(https://sizekorea.kr/)에서 인체치수데이터를 다운받았습니다. 사이즈코리아는 국민의 인체치수를 조사하고 보급하는 역할을 합니다. 16 ~ 69세 남녀 6,413명(남성 3,192명, 여성 3,221명)의 데이터입니다. 측정기간은 2015년 5월 ~ 2015년 12월 입니다. 전체 인원은 6413명입니다. 엑셀 데이터는 아래와 같습니다. 1) R Studio에서 데이터 불러오기 사이즈코리아에서 다운받은 파일은 엑셀형태입니다. R Studio 에서는 영어이름만 불러올 수 있기 때문에 파일 이름을 영어로 바꿔주었습니다. 아래와 같은.. 2020. 5. 9.
p값은 왜 ~보다 큰 쪽의 확률을 보고 판단하는 건가요??" p-value를 처음 접하는 분들은 아래 강의를 먼저 보고 오시기 바랍니다. [손으로 푸는 통계] 21. 통계적 가설 검정 감잡기 1 (귀무가설, 대립가설) [손으로 푸는 통계] 22. 통계적 가설 검정 감잡기 2 (1표본 Z검정) [손으로 푸는 통계] 23. 통계적 가설 검정 감잡기 3 (유의수준 α, 유의확률 p-value) 아마 많은 분들이 p-value를 익숙하게 사용하고 계실겁니다. 우리는 p-value를 정말 이해하고 사용하고 있을까요? 한 구독자분께서 주신 질문이 리트머스 시험지가 될 수 있습니다. "왜 보다 큰 쪽의 확률을 보고 판단하는 건가요??" 먼저 이 질문을 설명드리겠습니다. p-value를 구하는 과정을 생각해봅시다. 가장 간단한 1표본 t검정을 하는 상황이고, 단측검정을 할 것입.. 2020. 4. 25.
이항분포를 따르는 두 확률변수의 합의 분포 이항분포를 따르는 두 확률변수의 합의 분포 이항분포를 따르는 두 확률변수 X와 Y가 있다고 합시다. 각 확률변수가 따르는 이항분포는 아래와 같습니다. 이때 두 확률변수의 합은 어떤 분포를 따를까요?? 각 확률분포함수를 아래와 같이 놓겠습니다. 발생확률이 달라지는 경우 두 확률변수의 합의 분포가 달라집니다. 지금은 발생확률이 동일하다고 놓고 진행하고, 발생확률이 다른 경우는 뒤에서 다시 이야기하겠습니다. 유도방법은 두가지가 있습니다. 한 방법은 간단하지만 직관적으로는 받아들이기 어려운 방법이고, 다른 하나는 복잡하지만 직관적으로 받아들일 수 있는 방법입니다. 두 방법 모두 알아봅시다. 1) 특성함수 이용 먼저 특성함수를 이용하여 유도하겠습니다. 이번 글에서는 특성함수를 바로 적용할 것입니다. 특성함수에 대.. 2020. 4. 17.
복원추출과 비복원추출에 대한 오해 복원추출과 비복원추출을 잘못 이해하는 경우가 있어서 그 내용을 다뤄보려고 합니다. 제가 그랬었거든요. 추출 방법에는 복원추출과 비복원추출이 있습니다. 아마 아래와 같은 정의를 보셨을 것입니다. 비복원추출 : 한번 뽑은 표본을 모집단에 다시 넣지 않고 다른 표본을 추출 복원추출 : 한번 뽑은 표본을 모집단에 다시 넣고 다른 표본을 추출 이 정의 때문에 오해가 발생합니다. 아래 네가지 추출방법 중에서 복원추출과 비복원추출을 구분해보면서, 맞게 이해하고 있는지 확인해봅시다. 크기가 3인 표본을 2개 뽑는 상황을 가정하겠습니다. 1) 모집단에서 원소 3개를 한번에 뽑고 표본 1로 놓음. 원소 3개를 다시 모집단에 돌려놓고, 다시 원소 3개를 한번에 뽑아서 표본 2로 놓음. 2) 모집단에서 원소 3개를 한번에 뽑.. 2020. 4. 15.
중심극한정리에서 표본의 개수가 중요하지 않은 이유 중심극한정리는 모집단에서 뽑은 표본의 크기 n이 충분히 큰 경우 표본평균들의 분포가 정규분포를 따른다는 정리입니다. 기호로 나타내면 아래와 같습니다. $\bar{X} \sim N\left ( \mu,\frac{\sigma^2}{n} \right )$ 표본의 크기와 표본의 개수가 구분이 안되시는 분들은 링크의 글을 읽고 오시면 됩니다. 중심극한정리를 접한 분들 중에 이런 의문이 드는 분들이 계실겁니다. 왜 표본의 개수가 아니라 표본의 크기가 커야되나요?? 표본의 개수가 많아야 분포가 되는거 아닌가요? 왜 이런 의문이 들었는지 중심극한정리를 적용하는 상황을 통해 알아봅시다. 평균이 50이고 분산은 9라고 알려져 있는 모집단이 있습니다. 이 모집단에서 크기가 100인 표본을 뽑을 예정입니다. 표본은 아직 안뽑.. 2020. 4. 1.
표본추출에서 '임의화'를 제대로 했다는 착각 표본추출에서 '임의화'를 제대로 했다는 착각 표본을 추출할 때 중요한 것은 '임의화'입니다. 표본추출에 주관적 기호나 경험이 들어갈 경우, 모집단을 잘대표하는 표본이 아니라 한쪽으로 치우친 표본이 뽑힐 것입니다. 이 글에서는 임의화라고 착각할 수 있는 한가지 사례를 소개하려고 합니다. 우리가 신약개발을 하는 연구원이라고 생각해봅시다. 이 약의 효능을 알아보기 위해 동물실험을 진행하려고 합니다. 실험용 쥐를 대상으로 할 것인데요. 실험실에서 키우고 있는 1000마리의 쥐 중에서 50마리를 뽑으려고 합니다. 연구원이 직접 쥐를 보고 뽑게하면, 연구원의 기호가 개입될 수 있다고 판단했습니다. 이런 문제를 해결하기 위해 연구원의 눈을 가리고 쥐를 뽑기로 했습니다. 그렇게 50마리의 쥐를 뽑았고, '임의화'를 잘.. 2020. 2. 8.
상관분석을 할 때 주의할 점(이질적 하위표본 효과) 상관분석을 할 때 주의할 점(이질적 하위표본 효과) 상관분석을 할때 주의해야하는 것 중 '이질적 하위표본효과'라는 것이 있습니다. 이질적 하위표본은 heterogeneous subsamples 인데요. 말은 어려운데 예제를 하나 보시면 쉽게 이해하실 수 있을 것입니다. 키와 몸무게 사이의 상관분석을 할 것입니다. 세 집단에 대해 상관분석을 할건데요. 아래 세 집단입니다. - 전체 - 남자 - 여자 데이터는 사이즈코리아라는 사이트에서 가져왔습니다. (사이즈코리아 데이터 다운로드 방법 : https://hsm-edu.tistory.com/727). 사용한 데이터 → 계산한 상관계수는 아래와 같았습니다. - 전체 : 0.61 - 남자 : 0.40 - 여자 : 0.27 아래는 계산에 사용된 R코드입니다. lib.. 2020. 2. 1.
유소년층 인구는 얼마나 줄어들고 있을까 (주민등록 인구통계) 유소년층 인구는 얼마나 줄어들고 있을까 (주민등록 인구통계) 저출산 때문에 유소년층 인구가 줄어들고 있다는 말은 많이 들리는데, 수치로 확인할 방법은 없을까요? 행정안전부에서 주민등록인구통계를 볼 수 있는 웹사이트를 제공합니다. (주소 : http://27.101.213.4/#) 행정안전부는 안전 및 재난에 관한 정책을 수립하고 총괄하는 행정기관입니다. 경찰청과 소방청이 행정안전부 소속입니다. 이 웹사이트에서 유소년인구 통계를 연단위로 본다면, 유소년층 인구의 증감 추세를 알 수가 있습니다. ▶웹페이지에 접속하면 아래와 같은 화면이 나옵니다. 연령별 인구현황탭을 클릭합니다. ▶데이터를 다운받아서 사용할 수도 있고, 웹페이지에서 직접 그래프를 그려볼 수도 있습니다. 그래프탭을 클릭합니다. ▶조회기간을 '연.. 2020. 1. 23.
테일러급수 유도하기 통계공부를 하다가 등장한 수학내용들을 따로 정리하는 강의입니다. 오늘은 테일러급수를 유도해봅시다. 테일러급수는 어떤 함수를 다항함수들의 합으로 바꿔추는 놀라운 방법입니다. 단 어떤 함수는 매끄러운함수(smooth function)이어야 합니다. 매끄러운함수는 미분이 무한번 가능한 함수를 말합니다. 테일러급수의 수식은 아래와 같습니다. a는 임의의 실수입니다. $f(x)=\sum_{n=0}^{\infty}\frac{f^{n}(a)}{n!}(x-a)^n$ 테일러급수는 통계뿐 아니라 과학과 공학의 다양한 분야에서 사용되는 굉장히 유용한 도구입니다. 그 이유는 테일러 급수를 이용하면 복잡한 함수를 다루기 쉬운 다항함수(polynomial)로 바꿀 수 있기 때문입니다. 이제 테일러급수를 유도해봅시다. 테일러급수는.. 2020. 1. 6.
양측검정 결과로 나온 유의확률을 단측검정으로 쓰려면 2를 곱해야할까 나눠야할까 양측검정 결과로 나온 유의확률을 단측검정으로 쓰려면 2를 곱해야할까 나눠야할까 SPSS의 결과는 아래와 같이 양측검정 결과만 알려줍니다. 만약 단측검정을 하고 싶으면 어떻게 해야할까? 먼저 위상황을 그림으로 이해해봅시다. 왜 0.006이 아니라 0.003일까요? 이유는 아래와 같습니다. 양측검정의 경우 0.05를 양쪽으로 나눠서 각 꼬리마다 0.025의 유의수준을 갖습니다. 따라서 위 예제는 0.003을 0.025와 비교하는 상황이었던 것입니다. 0.025(유의수준) vs 0.003(유의확률) 우리는 유의수준을 0.05로 하는데 익숙하므로, 위 결과에 각각 2를 곱해줍니다. 0.05 vs 0.006 SPSS는 이렇게 유의확률에 2배된 값을 출력해줍니다. 만약 단측검정을 하고 싶다면 출력된 0.006의 절.. 2019. 12. 13.
그래프를 꼭 그려봐야 하는 이유(엔스콤의 사인방) 이 그룹들의 통계량이 같다고??? (엔스컴의 사인방) 973년, 엔스컴은 "Graphs in Statistical Analysis"라는 제목의 논문을 출간합니다. SPSS가 1968년에 펀치카드 형식으로 처음 등장했고, 엑셀이 1987에 처음 등장했습니다. 엔스컴이 논문을 게재한 1973년은 오늘날처럼 그래프를 클릭 몇번으로 그릴 수 있는 시대는 아니었을 겁니다. 논문의 서두에는 이런 이야기가 있습니다. "출간되는 대부분의 책들과 대부분의 프로그램들은 그래프에 너무 신경을 쓰지 않는다. 우리 중 대다수는 아래와 같은 사상에 주입당했다." (1) 수치계산은 정확하지만 그래프는 거칠다(대충이다,상세하지 않다). (2) 어떤 데이터의 정확한 통계분석에는 오직 한 세트의 계산이 존재한다. (3) 데이터를 실제로.. 2019. 12. 1.
통계 분야 논문 수, 한국은 몇위일까? 논문과 관련된 랭킹을 확인할 수 있는 사이트가 있습니다. 어떤 분야의 저널 순위나, 국가별 순위 등을 제공합니다. SJR이라는 사이트입니다. 링크는 아래와 같습니다. https://www.scimagojr.com/ 다양한 순위가 있는데, 오늘 알아볼 순위는 통계 분야의 한국 순위입니다. COUNTRY RANKS의 EXPLORE를 클릭합니다. 아래와 같은 화면이 나옵니다. 논문 숫자순위가 디폴트화면으로 나옵니다. 미국이 1위고, 한국은12위네요. 논문 수가 많다고 반드시 연구를 잘하고 있는 것은 아닙니다. 논문 별로 수준이 다르기 때문입니다. 좋은 저널(impact factor)에 논문이 게재되거나, 같은 이야기이지만 인용이 많이 된 논문이 많은 것이 더 의미가 있습니다. 이번에는 Citations를 클릭.. 2019. 11. 5.
표준오차가 뭔가요? 표준편차랑 다른건가요? 모집단이 있습니다. 모집단의 평균을 $\mu$(뮤), 표준편차를 $\sigma$ (시그마)라고 합시다. 모집단의 평균이 궁금한데 모집단이 너무 커서 구할 수가 없었습니다. 모집단의 평균을 추정하기 위해 모집단에서 크기가 n인 표본을 추출했습니다. 이 표본을 표본1이라고 합시다. 표본 1의 평균을 구했고 $\bar{X}_{1}$ 이라고 놓겠습니다. 이렇게 표본을 계속 뽑았습니다. 표본 평균들이 많이 구해지겠죠. 이 표본평균에는 아래와 같은 성질이 성립합니다. $E\left [ \bar{X} \right ]$ $V\left [ \bar{X} \right ]=\frac{\sigma^2}{n}$ 표본 평균의 평균이 모평균과 같다는 것과, 표본 평균의 분산이 모분산을 n으로 나눈 것과 같다는 성질입니다. 이유가 .. 2019. 10. 26.
통계 용어 검색하는 방법 (한국통계학회 통계용어집) 한국통계학회 홈페이지에서 통계용어 검색기능을 제공합니다. 통계학회 홈페이지 주소는 아래와 같습니다. http://www.kss.or.kr/ 1) 위 링크로 들어갑니다. 2) 자료실 탭에서 '통계 용어'를 클릭합니다. 검색어를 입력해도 되고, 글자를 클릭해도 됩니다. 3) 예를들어 '가'를 클릭하면, '가'로 시작하는 용어들이 검색됩니다. 4) 프아송인지, 푸아송인지, 포아송인지도 검색할 수 있습니다. 5) weibull 분포를 한글로 적으려고 할 때, 검색해 볼 수 있습니다. 와이블분포라고 쓰는군요. 자주 사용할 일은 없겠지만, 논문을 쓰거나 책을 쓸때 유용하게 쓰일 것 같네요. 2019. 10. 19.
데이터를 과장하는 방법(y축 절단, y축 축소, 넓이과장) 통계의 역설,오류,거짓말데이터를 과장하는 방법(y축 절단, 넓이과장) 신문 기사들의 그래프를 보면 데이터 자체를 조작하지는 않지만, 눈속임을 사용해서 데이터를 과장하는 것을 많이 볼 수 있습니다. 이러한 사례들을 살펴보고자 합니다. 언론이나, 광고 등에서 제시하는 그래프에 속지 않도록 통계 해석능력을 길렀으면 합니다. 1) y축 잘라내기(막대그래프) 2018년도에 비해 2019년도의 불법 공매도가 증가했다는 것을 강조하고 싶었나 봅니다. 5와 10은 두배인데, 마치 세배 이상 차이나는 것처럼 그래프를 그렸습니다. (출처 : https://www.mk.co.kr/news/stock/view/2019/10/890840/) 그래프를 아래와 같이 편집한 것으로 생각됩니다. 2) y축 축소(꺾은선그래프) 2019.. 2019. 10. 10.
데이터를 입력하는 두가지 방법 비교 (엑셀과 SPSS의 데이터 입력방식 비교) 데이터를 입력하는 두가지 방법 비교 (엑셀과 SPSS의 데이터 입력방식 비교) 엑셀에서 남자와 여자키의 발크기를 비교하는 독립표본 t검정을 하려면 데이터를 아래와 같이 입력해야 합니다. 엑셀에서는 위 데이터를 아래 빈칸에 입력하여 t검정을 수행합니다. 이 데이터가 어떻게 구성되어 있는 것인지, 독립변수와 종속변수 입장에서 살펴봅시다. 데이터가 정리된 형태 때문에 남자키가 독립변수고 여자키가 종속변수인 것 같아 보입니다. X와 Y같은 느낌을 받기 때문입니다. 때문에 t검정의 독립변수와 종속변수 모두 '연속형'이라고 착각합니다. 위 데이터에서 독립변수는 '성별'입니다. 종속변수는 '키'입니다. 행방향으로 독립변수가, 열 방향으로 종속변수가 입력되어 있는 형태입니다. 아래와 같이 이해할 수 있습니다. 독립변수.. 2019. 8. 26.
통계검정에서 1종오류가 2종오류보다 중요한 이유 통계검정에서 1종오류가 2종오류보다 중요한 이유 통계검정에는 1종오류와 2종오류가 있습니다. 오류를 설명하기 전에 먼저 귀무가설과 대립가설을 설명드리겠습니다. 우리가 제약회사에서 일하고 있다고 해봅시다. 탈모를 치료하는 약을 개발했는데 효과가 있는지를 검정하고 싶은 것입니다. 각종 실험과 동물실험까지 마친 상태라고 가정합시다. 임상시험을 위해 환자 100명을 모집했고 약을 투약해서 전과 후의 머리카락 수를 측정했습니다. 이때 귀무가설은 아래와 같습니다. 귀무가설 : 투약 전과 후의 머리카락 수가 같다. 귀무가설이 참이 되면 회사가 어떻게 될까요? 회사가 망합니다. 귀무가설은 우리가 거짓으로 만들고 싶은 가설입니다. 귀무의 귀는 돌아갈 귀이고 무는 없을 무입니다. 무로 돌아가게 하고 싶은 가설입니다. 또다.. 2019. 8. 26.
중심극한정리 시뮬레이션해볼 수 있는 사이트 중심극한정리 시뮬레이션해볼 수 있는 사이트 중심극한정리는 모집단이 어떤 분포인지와 상관 없이 '표본의 크기'가 충분히 크다면 표본평균들의 분포가 정규분포를 따른다는 정리입니다. 자세한 설명은 아래 링크를 참조해주세요. 중심극한정리 설명(https://hsm-edu.tistory.com/21) 중심극한정리를 시뮬레이션해볼 수 있는 사이트를 소개해드리려고 합니다. 아래 링크로 들어가시면 됩니다. http://www.ltcconline.net/greenl/java/Statistics/clt/cltsimulation.html 링크로 들어가시면 아래와 같은 화면이 뜹니다. 먼저 모집단의 분포를 선택할 수 있습니다. 분포들의 모양은 아래와 같습니다. 왼쪽 위부터 uniform, Skewed Left, Skewed .. 2019. 8. 25.
반응형