본문 바로가기
반응형

전체 글647

[확률과통계 기초] 1-2. 사건 지난 시간에는 시행과 표본공간이라는 용어를 배웠습니다. 이번 시간에는 중요한 용어를 한가지 더 배워보겠습니다. 오늘 배워볼 용어는 사건입니다. 사건이 무엇인지 정확하게 이해하기 위해서 위키피디아의 정의를 가져왔습니다. In probability theory, an event is a set of outcomes of an experiment (a subset of the sample space) to which a probability is assigned. 간단히 요약해보았습니다. 사건은 시행 결과들의 집합이다. 이 집합에는 확률이 할당되어 있다. 지난 시간에 배운 표본공간도 시행결과들의 집합이었는데요. 표본공간에는 '가능한 모든' 이라는 말이 붙어있었습니다. 주사위 던지기를 예로 들면, 표본공간은 {.. 2022. 5. 10.
[확률과통계 기초] 1-1. 시행과 표본공간 오늘은 용어를 배워볼 것입니다. 서로 용어를 잘 정의해 놓으면 의사 소통이 편해집니다. 용어가 사용되는 내용들을 설명하기도 쉽고 이해하기도 쉬워집니다. 오늘 배울 용어는 시행과 표본공간이 무엇인지 알아봅시다. 시행이 무엇인지 정확하게 이해하기 위해서 위키피디아의 정의를 가져왔습니다. In probability theory, an experiment or trial (see below) is any procedure that can be infinitely repeated and has a well-defined set of possible outcomes, known as the sample space. 약간의 의역을 가미해서 이해하기 쉽게 번역해봅시다. 확률론에서 시행은 1)무한히 반복될 수 있고 2).. 2022. 5. 9.
[확률과 통계 기초] 0. 전체 내용 큰그림 그리기 확률과 통계 기초는 통계학을 공부하시는 분들 중 고등학교 '확률과 통계' 내용을 잊어버리셨거나 배우지 않은 분들을 위한 강의입니다. 중고등학교 확률과통계 내용을 제대로 공부하지 않았던 분들은 통계학을 공부할 때 이해가 되지 않는 부분이 많을 것입니다. 이런 분들을 위한 강의구요. 고등학교 확률과 통계 내용 중에서 통계학을 공부할 때 필요한 내용만 추려보았습니다. 고등학교 확률과 통계 과목은 크게 세개의 단원으로 구성됩니다. 1. 경우의 수 2. 확률 3. 통계 각 단원에서 필요한 내용들만 추리면 아래와 같습니다. 통계는 내용이 많아서 세개의 중단원으로 나눴습니다. 중단원은 확률변수와 확률분포, 모집단과 표본, 통계적 추정입니다. 영상의 순서나 제목은 강의를 진행하며 조금씩 바뀔 수 있습니다. 내용도 추가.. 2022. 5. 9.
z분포 vs t분포 표본의 크기에 따른 z분포와 t분포의 차이입니다. n이 3일 때는 t분포가 z분포보다 두터운 꼬리를 갖고 있습니다. n이 커질 수록 t 분포가 z분포에 가까워져 갑니다. 꼬리가 두텁다는 말은 같은 통계량에서 p값이 더 크다는 말입니다. p값이 커서 기각을 덜하게 되므로 보수적이라 할 수 있습니다. n이 커지면서 t분포는 z분포에 가까워져 갑니다. 얼마나 더 보수적인지 수치로 알아봅시다. 표본크기 z값 (p값) t값 (p값) 3 1.644854 (0.05) 1.644854 (0.099) 10 1.644854 (0.05) 1.644854 (0.065) 30 1.644854 (0.05) 1.644854 (0.055) 50 1.644854 (0.05) 1.644854 (0.053) 표본 크기가 30 정도여도 차.. 2022. 5. 9.
[통계 Q&A] 적률생성함수 만들때 어떻게 X만 대체해도 되나요? Q) 적률생성함수 만들때 어떻게 X만 대체해도 되나요? 질문을 이해하기 위해 약간의 배경설명을 하겠습니다. 확률변수 X의 평균은 아래와 같이 구합니다. $E\left [ X \right ]=\int_{-\infty}^{\infty}x f(x) dx$ 적률생성함수는 X자리에 $e^{tX}$ 를 넣어서 구합니다. $E\left [ e^{tX} \right ]=\int_{-\infty}^{\infty}e^{tx} f(x) dx$ 이때 왜 우변의 x 하나만 $e^{tX}$ 로 교체할 수 있냐는 질문입니다. f(x)안에도 x가 있고, dx에도 x가 있으니 다 교체해야하는 것 아닌가라는 의문이 드신 것 같아요. A) E[ ] 는 함수가 아닙니다. 그냥 기호입니다. '대괄호 안에 있는 확률변수의 기댓값' 이라고 매번.. 2022. 5. 4.
히스토그램 간격 설정 원리 엑셀이나 R에서 히스토그램을 그리면 알아서 간격을 설정해주는데요. 오늘은 그 원리를 알아봅시다. 히스토그램의 간격을 설정할 때는 일반적으로 Sturge's Rule 을 사용합니다. 데이터의 크기를 n이라고 할 때 간격의 개수는 아래와 같이 계산됩니다. 막대의 개수라고 생각하시면 됩니다. bin 이라고도 부릅니다. $number \ of \ bins=\left \lceil \log_{2}n+1 \right \rceil$ 괄호 기호는 '올림' 의 의미입니다. 2022. 5. 2.
분산 구하는 두 가지 방법 (제곱의평균-평균의제곱 유도) 평균 아래와 같은 자료가 있다고 합시다. $x_{1},x_{2},...,x_{n}$ 이 자료를 변수 X로 나타낸다고 합시다. $X=\left \{ x_{1},x_{2},...,x_{n} \right \}$ X의 평균은 아래와 같이 정의됩니다. $E[X]=\frac{x_{1}+x_{2}+\dots+x_{n}}{n}$ 시그마 기호로 나타내면 아래와 같습니다. $E[X]=\frac{x_{1}+x_{2}+\cdots+x_{n}}{n}=\frac{\sum_{i=1}^{n}x_{i}}{n}$ 편의상 변수 X의 평균을 $\mu$ 라고 놓겠습니다. $E[X]=\mu$ 분산 변수 X의 분산은 아래와 같이 정의됩니다. 편차의 제곱의 평균입니다. $V[X]=E\left [ \left ( X-\mu \right )^2 \ri.. 2022. 4. 27.
[손으로 푸는 상관분석] 4. 공분산의 탄생 지난시간에 상관분석을 이해하기 위한 공부순서를 정해봤습니다. 공부 순서는 아래와 같습니다. 1) 공분산의 탄생 2) 공분산의 의미 3) 공분산 응용해서 피어슨 상관계수 만들기 4) 상관분석에서의 t통계량 유도하기 이번 글에서는 공분산의 탄생과정을 이해해봅시다. 공분산은 이름에 '분산'이라는 말이 붙어있습니다. 공분산이 등장한 역사적 배경을 정확히 알지는 못합니다. 예상해 볼 수는 있을겁니다. 제 생각에는 분산을 정의한 수식을 두개의 대응된 변수에 적용해보는 과정에서 탄생한 것 같습니다. X라는 변수가 있다고 합시다. X의 분산은 아래와 같이 정의됩니다. $V[X]=E\left [ \left ( X-\mu_{x} \right )\left ( X-\mu_{x} \right ) \right ]$ Y라는 변수가.. 2022. 4. 22.
[손으로 푸는 상관분석] 3. 공부 순서 정하기 지난시간에 산관분석 결과를 살펴봤습니다 .상관분석을 하면 t검정 결과인 p값과 상관계수가출력되는데요. 간단한 설명은 아래와 같습니다. t검정 : 관계의 유무를 나타냄. p 2022. 4. 20.
[손으로 푸는 상관분석] 2. 상관분석 결과 살펴보기 지난 시간에 아래 데이터를 가지고 상관분석을 했습니다. R에서 상관분석한 결과는 아래와 같았습니다. > cor.test(md$height,md$weight) Pearson's product-moment correlation data: md$height and md$weight t = 4.8325, df = 28, p-value = 4.385e-05 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: 0.4148779 0.8323934 sample estimates: cor 0.6743531 결과를 보이는 대로 써보면 아래와 같습니다. 번호를 붙여서 쓰겠습니다. 1) t = 4.8325 2) df.. 2022. 4. 18.
[손으로 푸는 상관분석] 1. 일단 해보기 가장 만만한 엑셀로 상관분석을 일단 해봅시다. 상관분석이 뭔지 몰라도 괜찮습니다. 아래 데이터를 이용할 것입니다. 30명의 키와 몸무게 데이터입니다. 키는 mm 단위이고, 몸무게는 kg 단위입니다. 데이터 탭에서 '데이터 분석'을 클릭합니다. 통계 데이터분석이라는 창이 뜨면 상관분석을 선택하고 확인을 눌러줍니다. 입력범위를 클릭하고 키와 몸무게 데이터를 선택해줍니다. 열 이름도 포함되도록 선택합니다. 첫째 행 이름표 사용에 체크합니다. 출력범위는 같은 시트 내 적당한 셀을 선택합니다. 확인을 클릭하면 결과가 출력됩니다. 1과 0.67435가 상관계수입니다. 키와 키 사이의 상관계수가 1, 몸무게와 몸무게 사이의 상관계수가1, 키와 몸무게 사이의 상관계수가 0.6735라는 의미입니다. 엑셀에서는 상관계수만.. 2022. 4. 17.
[책 증정 이벤트] 데이터 요약과 시각화 with R (임경덕) 루비페이퍼 라는 출판사에서 책을 한권 보내왔습니다. 읽어보고 괜찮으면 채널에 이 책을 소개하면서 증정 이벤트를 하자고 제안하셨습니다. 책을 처음부터 끝까지 전부 읽어봤습니다. 잘 쓰여진 책인 것 같아서 소개를 드리려고 합니다. 10분을 추첨해서 책을 보내드릴 거구요. 이벤트 참여 방법은 더보기 란에 있습니다. 제가 돈을 받은게 아니라서 유료광고는 아니지 않나 생각했는데요. 알아보니 상품 무료제공도 유료광고라고 합니다. 그래서 영상 제목에 광고라고 표시한겁니다. 자 그럼 책 소개를 시작하겠습니다. 책 제목은 데이터 요약과 시각화 with R 입니다. R은 무료 통계 프로그램이구요. 오픈소스라서 참여자들이 계속해서 발전시켜 나가고 있는 프로그램입니다. 저도 R을 사용하고 있습니다. 통계를 처음 접한 시기에는.. 2022. 4. 16.
회귀분석 한번에 감잡기 (F값, t값) 아래는 예시 종속변수 : 성적(Y) 독립변수 : IQ, EQ, SQ 아래와 같은 모델을 가정함 $Y=a \times IQ+b \times EQ+c \times SQ+d$ F검정과 t검정 두가지를 수행함. 1) F검정은 아래 두 모델을 비교함 $Y=d$ $Y=a \times IQ+b \times EQ+c \times SQ+d$ overall 한 비교라고 할 수 있음. 둘의 차이가 있으면 우리가 가정한 모델이 의미가 있는 것임. 2) t검정은 a,b,c,d 가 0인지 아닌지 비교함. 만약 F검정에서 모델이 의미가 있었어도, t검정에서 b=0이 나오면 EQ는 무의미한 값임. + $R^{2}$은 (회귀선에 의해 설명되는 변동)/(전체변동) 을 의미함. 회귀 모델이 Y를 몇%정도 설명하는가를 알려줌. 2022. 4. 14.
[손으로 푸는 확률분포] 정규분포 (2) 과녁을 이용한 유도 정규분포를 유도하는 방법은 두 가지가 있습니다. 과녁 맞추기를 이용한 유도와 이항분포를 이용한 유도입니다. 두 유도방법 모두 '정규분포가 무엇인가' 라는 질문에 좋은 답변을 제공해줍니다. 오늘은 첫번째 방법인 '과녁 맞추기를 이용한 유도'를 알아봅시다. 우리가 어떤 물체의 길이를 측정하는 상황이라고 해봅시다. 우리가 측정할 때 마다 측정값은 조금씩 달라질 것입니다. 측정에는 항상 오차가 있기 때문입니다. 측정을 무한히 반복했다고 가정하고, 측정된 값들을 확률분포로 만들고 싶었습니다. 실제로 측정을 무한 번 하지는 않을 거구요. 그럴듯한 수학 모델을 만들어 볼 겁니다. 그럴듯한 수학 모델을 만들기 위해 물체의 길이를 측정하는 것과 비슷한 상황 하나를 생각해냈습니다. 바로 '과녁 맞추기' 입니다. 아래와 같.. 2022. 4. 1.
카이제곱검정도 양측검정이 있을까? 이론적으로는 가능하나 쓸 일은 거의 없습니다. 카이제곱검정은 단측 검정만 사용합니다. 카이제곱검정은 관측빈도와 기대빈도가 다른지 여부를 판단할 때 사용하는 검정입니다. 예를 들어 20대와 30대의 핸드폰 선호 비율을 비교할 때 사용합니다. 우측 꼬리 검정이 사용됩니다. 카이제곱분포의 우측으로 갈 수록 기대빈도와 관측빈도가 달라지고, 좌측을 갈 수록 같아집니다. 기대빈도와 관측빈도가 완전히 같으면 확률변수가 0이 됩니다. 만약 좌측 꼬리검정을 한다면 의미가 이상해집니다. 관측빈도와 기대빈도가 너무 같아서 기각해버리는 상황이 됩니다. 이런 검정을 쓸 일은 없을 것으로 생각됩니다. 정규분포 그래프를 보면 양쪽 꼬리로 갈 수록 귀무가설의 모평균과 달라지게 됩니다. 따라서 단측 검정이 의미가 있습니다. 그러나 카.. 2022. 4. 1.
반응형