본문 바로가기
반응형

전체 글628

정규분포를 따르는 확률변수의 합의 분포 정규분포를 따르는 확률변수 X와 Y가 있다고 합시다. 각 확률변수의 분포는 아래와 같이 나타낼 수 있습니다. $X \sim N\left (\mu_{X},\sigma_{X}^2 \right )$ $Y \sim N\left (\mu_{Y},\sigma_{Y}^2 \right )$ 두 확률변수 X와 Y가 서로 독립이라고 가정하겠습니다. 우리가 굼금한 것은 X+Y의 분포입니다. X+Y의 분포는 특성함수를 이용해서 유도할 것입니다. 확률변수 X와 Y의 특성함수를 먼저 구해보면 아래와 같습니다. $\varphi_{X}(t)=E\left [ e^{itX} \right ]=e^{it\mu_{X}-\frac{\sigma_{X}^2t^2}{2}}$ $\varphi_{Y}(t)=E\left [ e^{itY} \right ].. 2023. 1. 14.
t분포 글 하나로 끝내버리기 1. 어디에 사용되나요? t분표는 t검정에 사용됩니다. t검정이 분산분석의 사후분석, 상관분석, 회귀분석 과정에도 사용되기 때문에 t분포가 이러한 검정에서 사용된다고 할 수 있습니다. 2. 어떻게 생겼나요? t분포 함수의 수식은 아래와 같습니다. $f(t)=\frac{\Gamma\left ( \frac{\nu+1}{2} \right )}{\sqrt{\nu \pi}\ \Gamma\left ( \frac{\nu}{2} \right )} \left ( 1+\frac{t^2}{\nu} \right )^{-\left ( \frac{\nu+1}{2} \right )}$ t분포의 모양을 결정하는 파라미터는 $\nu$ 하나밖에 없습니다. $\nu$는 자유도입니다. 표본 크기가 n 인 경우 자유도 $\nu$는 n-1입니.. 2023. 1. 14.
대응표본 t검정 글 하나로 끝내버리기 1. 언제 쓰는 건가요? (수정해야됨) 대응표본 t검정은 서로 대응인 두 집단의 평균을 비교할 때 사용됩니다. 두 집단이라고 표현했지만 사실 같은 대상입니다. 대응표본 t검정은 동일한 집단을 대상으로 전/후 비교를 할 때 사용됩니다. 예를 들어 30명을 모집해서 다이어트약을 먹기 전과 후 몸무게를 비교할 때 사용합니다. 대응표본 t검정을 어떻게 수행하는지 먼저 간단히 이해해봅시다. 처리 전과 후 집단의 차를 구합니다. 예를들면 아래와 같습니다. 다이어트 약을 먹기 전과 후의 몸무게 데이터입니다. 이 차이를 가지고 1표본 t검정을 수행합니다. 이 차이가 0인지 아닌지를 알아보는 것이 목적입니다. 이 차이들이 평균이 0인 모집단에서 뽑힌 표본이라고 가정하고 일표본 t검정을 수행하는 것입니다. 2. 독립변수와.. 2023. 1. 13.
독립표본 t검정 글 하나로 끝내버리기 1. 언제 쓰는 건가요? 독립표본 t검정은 서로 독립인 두 집단의 평균을 비교할 때 사용합니다. 예를 들면 서울 시민 남자의 키와 여자의 키 비교가 있습니다. 2. 독립변수와 종속변수 독립변수와 종속변수 관점으로도 생각해봅시다. 서울 시민의 남녀 키 비교에서 독립변수는 성별입니다. 성별이 달라졌을 때 키가 달라지는지 알고 싶은 것이기 때문입니다. 따라서 독립변수는 '범주형 자료'입니다. 종속변수는 키 이므로 종속변수는 '수치형 자료'입니다. t검정에서의 독립변수와 종속변수는 아래와 같습니다. 독립변수 : 범주형 종속변수 : 수치형 2. 조건 1) 두 집단이 서로 독립이어야 합니다. 2) 모집단이 정규분포를 따라야 합니다. 정규성검정을 통해서 확인합니다. 만약 정규성을 만족하지 않는 경우 비모수 검정인 윌.. 2023. 1. 13.
일표본 t검정 글 하나로 끝내버리기 1. 언제 쓰는 건가요? 일표본 t검정은 모집단의 평균이 알려져 있는 상황에서, 정말 그 사실이 맞는지 확인할 때 사용합니다. 예를 들어 어떤 과자 포장지에 내용물 무게가 30g이라고 나와있다고 합시다. 30g이 정말 맞는지 확인하고 싶은 경우 표본을 뽑아 일표본 t검정을 합니다. 여기서 표본을 뽑는다는건 과자 50봉지 정도를 구입한다는 의미입니다. 2. 조건 1) 데이터는 연속형 자료여야 합니다. t검정은 t분포를 사용하는데, t분포는 모집단이 정규분포를 따른다는 것을 전제로 유도된 분포입니다. 정규분포는 연속형 변수에서 유도된 분포이기 때문에 모집단이 연속형 데이터인 경우에만 t검정을 사용할 있는 것이 원칙적으로는 맞습니다. 2) 모집단이 정규분포를 따라야 합니다. 이유는 1번에서 설명했습니다. 3... 2023. 1. 13.
평균이 좋은 대푯값이 아닌 경우 대푯값에는 평균, 중앙값, 최빈값이 있습니다. 가장 많이 쓰는 대푯값은 평균입니다. 더 정확히 말하면 '산술 평균'인데요. 평균이 항상 가장 좋은 대푯값인 것은 아닙니다. 오늘은 평균을 대푯값으로 사용하는 것이 적절하지 않은 경우들을 알아봅시다. 1. 극단값이 있는 경우 어느 회사의 평균 연봉이 1억2400만원이라고 합시다. 삼성전자의 평균연봉과 맞먹을 만큼 높습니다. 정말 좋은 회사인 것 같죠? 실상은 아래와 같습니다. 직원이 다섯명이고 연봉은 아래와 같다고 합니다. 3000만원 3000만원 3000만원 3000만원 50000만원 평균값인 1억2400 만원과 비슷한 직원은 한 명도 없습니다. 이런 경우는 평균값보다 최빈값이나 중앙값이 더 집단을 잘 대표할 것입니다. 2. 양쪽으로 치우친 경우 (쌍봉형).. 2023. 1. 12.
표본의 크기 결정 방법 수식 설명 및 유도 1. 설명 표본의 크기를 결정하는 수식은 아래와 같습니다. \frac{Z^2\sigma^2}{e^2} Z는 신뢰수준에 따라 결정되는 값입니다. 신뢰수준이 95%라면 1.96, 99%라면 2.58이 됩니다. e는 허용오차입니다. $\sigma$ 는 모표준편차입니다. 허용 오차는 상황에 맞게 각자 정해야합니다. 나는 오차를 얼마까지 허용할 것이라고 결정하고, 표본 크기를 정하는 것입니다. 2. 유도 허용오차를 고렿나 표본 크기는 모평균을 추정하는 신뢰구간 수식에서 유도할 수 있습니다. 95% 신뢰구간을 이용하여 유도해보겠습니다. 95% 신뢰구간은 아래와 같습니다. $\bar{X}-1.96\frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar{X}+1.96\frac{\sigma}{\sqr.. 2023. 1. 11.
[확률과통계 기초] 2-3. 조건부 확률 설명 및 공식유도 어떤 사행의 표본공간 S 라고 합시다. 표본공간의 부분집합인 사건 A와 B가 있다고 합시다. 이때 조건부 확률은 아래와 같습니다. '사건 B가 발생했을 때 A가 발생할 확률' 수식으로는 아래와 같이 나타냅니다. $P(A|B)$ 조건부 확률이 어떻게 계산되는지 알아봅시다. 표본공간과 사건 모두 집합이므로 벤다이어그램으로 나타낼 수 있습니다. 사건 B가 이미 발생한 상황이므로, 표본공간은 B가 됩니다. 이때 A가 발생하는 사건은 아래 그림의 노란색 부분입니다. B가 발생했을 때 A가 발생할 확률을 구해보면 아래와 같습니다. $P(A|B)=\frac{n(A\cap B)}{n(B)}$ 우변을 각각 확률로 변형해봅시다. 우변의 분자와 분모를 n(S) 로 나눠줍니다. $P(A|B)=\frac{\frac{n(A\ca.. 2023. 1. 10.
[확률과통계 기초] 2-2. 확률의 덧셈정리 확률의 덧셈정리는 사건 A 또는 B가 발생할 확률에 대한 정리입니다. 사건 A 가 일어날 확률이 $P(A)$ 이고, 사건 B가 일어날 확률이 $P(B)$라고 두겠습니다. 사건 A 또는 B를 먼저 기호로 나타내봅시다. 사건은 뭐죠? 사건은 '집합'입니다. 집합에서 '또는' 영어로 or 은 합집합입니다. 사건 A또는 B를 기호로 나타내면 아래와 같습니다. $A \cup B$ A 또는 B가 발생할 확률은 아래와 같이 나타냅니다. $P(A \cup B)$ 위 식을 변형하면 확률의 덧셈정리가 유도되는데요. 한 번 유도해봅시다. 표본공간을 S라고 놓으면 $P(A \cup B)$는 아래와 같이 나타낼 수 있습니다. 지난 시간에 배운 확률의 정의입니다. $P(A\cup B)=\frac{n(A\cup B)}{n(S)}$.. 2023. 1. 8.
[확률과통계 기초] 2-1. 사건이 발생할 확률 확률에 대해서는 다들 어느정도 익숙한 상태일 것입니다. 문제를 하나 풀어봅시다. 주사위를 하나 던져서 홀수의 눈이 나올 확률이 얼마인가요? 네 1/2 입니다. 1/2은 어떻게 나온 값일까요? 주사위를 하나 던질 때 나올 수 있는 눈의 수가 6가지 이고, 홀수의 눈의 수는 3가지니까 3을 6으로 나눈 값이 확률이 됩니다. (홀수의 눈이 나오는 경우의 수) / (전체 경우의 수) 위 확률을 한번 일반화시켜봅시다. 주사위라는 예시 없이 확률을 설명하려는 것입니다. 어떤 개념을 일반화 시켜 놓으면 의사소통에서의 오해도 줄어들고, 응용과 확장도 편해집니다. 확률을 일반화 시켜서 설명하려면 용어들을 정의할 필요가 있습니다. 예를 들면 '주사위를 던진다는 것'을 일반화 해서 부를 용어가 필요하겠죠? 또는 홀수의 눈이.. 2023. 1. 8.
[확률과통계 기초] 1-12. 1단원 경우의 수 내용 요약 이 강의는 크게 세개의 단원으로 되어 있는데요. 경우의수, 확률, 통계입니다. 우리는 지난시간까지 경우의 수 공부를 완료했습니다. 우리가 경우의 수 단원에서 배운 내용들은 아래와 같습니다. 시행과 표본공간 사건 순열과 조합 이항정리 한 문장을 표현하면 이렇습니다. "사건은 어떤 시행의 결과들의 집합이고, 사건의 원소 개수가 경우의 수 이다. 경우의 수를 구하는 테크닉에는 순열과 조합이 있다." 저는 1단원에서 가장 중요한 키워드는 '사건'이라고 생각합니다. 우리가 다음 단원에서 확률을 배울 건데요. 확률 앞에는 이런 말이 생략되어 있습니다. (어떤 사건이 발생할) 확률 2단원인 확률 단원도 사실은 사건 이야기입니다. 사건이 발생할 확률을 구하는 것이구요. 사건이 발생할 확률을 구할 때, 사건의 원소 개수.. 2023. 1. 7.
[확률과통계 기초] 1-11. 사건을 잘못 알고 계실지도 몰라요 사건의 정의는 이미 배운 상태인데요. 확률과 통계에서 사건은 아주 중요한 개념이라서 정말 이해했는지 한번 더 확인해보려고 합니다. 확률과 통계에서 사용되는 사건은 우리가 일상적으로 사용하는 사건의 의미와는 다릅니다. 우리가 일상적으로 사용하는 사건의 정의는 아래와 같습니다. 사건 : 사회적으로 문제를 일으키거나 주목을 받을 만한 뜻밖의 일 우리가 '사건이 발생했다' 라고 할 때의 사건은 이미 벌어진 특정한 일을 말합니다. 주로 뉴스에서 많이 듣는 단어죠. 총격 사건, 위반 사건 등에 사용합니다. 반면에 통계에서 사건은 이미 벌어진 일이 아닙니다. 주사위를 던져서 3이 나왔다고 합시다. 3이 나온 상황은 통계에서는 사건이 아닙니다. 일상에서는 발생한 어떤 상황을 지칭할 때 사건이라고 하는데요. 통계에서 사.. 2023. 1. 7.
[확률과통계 기초] 1-10. 사건과 경우의 수는 무엇이 다른가 안녕하세요. 확률과 통계 기초입니다. 사건과 경우의 수의 차이가 무엇인지 설명해보라고 하면 대답하기가 쉽지 않습니다. 사건은 어떤 시행의 결과들의 집합이라는 것을 이미 배웠습니다. 어떤 시행이 주사위 던지기라고 한다면, 홀수의 눈이 나오는 사건, 짝수의 눈이 나오는 사건 등이 있습니다. 그렇다면 경우의 수는 무엇일까요? 경우의 수가 무엇인지 알기 위해 경우의 수를 구하는 문제를 하나 풀어봅시다. "주사위를 하나 던질 때, 3 이상의 눈이 나오는 경우의 수를 구하시오" 3 이상의 눈이 나오는 경우의 수는 3,4,5,6으로 4가지입니다. 이 문제를 사건의 관점으로 풀어봅시다. 3 이상의 눈이 나오는 사건은 {3,4,5,6} 입니다. 이때 경우의 수는 사건의 원소의 개수입니다. 이제 경우의 수가 무엇인지 알았.. 2023. 1. 5.
민감도, 특이도, 양성예측도, 음성예측도 외우는 법 민감도,특이도,양성예측도,음성예측도의 정의는 아래와 같습니다. 민감도 : 환자 중에서 양성 판정을 받은 비율 특이도 : 정상인 중에서 음성 판정을 받은 비율 양성예측도 : 양성 판정을 받은 사람 중에서 환자의 비율 음성예측도 : 음성 판정을 받은 사람 중에서 정상인의 비율 제 업무에서 자주 사용하는 용어는 아닙니다. 가끔 등장하는데, 그럴 때마다 헷갈려서 검색을 해보곤 하는데요. 외울 수 있는 방법을 생각해보았고 작동한 방법을 공유합니다. 먼저 아래와 같이 연결하여 외워줍니다. 민감도-환자 특이도-정상인 양성예측도-양성 음성예측도-음성 그리고 아래 표를 떠올립니다. 2022. 12. 27.
[손으로 푸는 t검정] 3. t분포의 아이디어 Z검정에서 사용하는 Z통계량은 아래와 같습니다. $Z=\frac{\bar{X}-\mu}{\frac{\sigma}{\sqrt{n}}}$ Z검정의 한계는 Z통계량을 구할 때, 모분산 대신 표본분산을 사용한다는 것이었습니다. 우리가 뽑은 표본의 분산은 당연히 모분산과 다를 것입니다. 아주 우연히 같은 경우가 생길 수도 있겠지만, 대부분의 경우 다를 것입니다. 윌리엄 고셋은 이 문제를 해결하고 싶었습니다. 고민 끝에 이런 아이디어를 떠올리게 됩니다. "표본분산을 확률변수로 포함하는 분포를 만들면 되지 않을까" 다른 말로 하면 아래 확률변수의 분포를 구한다는 말입니다. $\frac{\bar{X}-\mu}{\frac{s}{\sqrt{n}}}$ 이 확률변수는 Z통계량의 모분산 자리에 표본분산을 대입한 것입니다. 아마.. 2022. 12. 24.
반응형