본문 바로가기
반응형

분류 전체보기643

정규분포를 따르는 확률변수의 합의 분포 정규분포를 따르는 확률변수 X와 Y가 있다고 합시다. 각 확률변수의 분포는 아래와 같이 나타낼 수 있습니다. $X \sim N\left (\mu_{X},\sigma_{X}^2 \right )$ $Y \sim N\left (\mu_{Y},\sigma_{Y}^2 \right )$ 두 확률변수 X와 Y가 서로 독립이라고 가정하겠습니다. 우리가 굼금한 것은 X+Y의 분포입니다. X+Y의 분포는 특성함수를 이용해서 유도할 것입니다. 확률변수 X와 Y의 특성함수를 먼저 구해보면 아래와 같습니다. $\varphi_{X}(t)=E\left [ e^{itX} \right ]=e^{it\mu_{X}-\frac{\sigma_{X}^2t^2}{2}}$ $\varphi_{Y}(t)=E\left [ e^{itY} \right ].. 2023. 1. 14.
t분포 글 하나로 끝내버리기 1. 어디에 사용되나요? t분표는 t검정에 사용됩니다. t검정이 분산분석의 사후분석, 상관분석, 회귀분석 과정에도 사용되기 때문에 t분포가 이러한 검정에서 사용된다고 할 수 있습니다. 2. 어떻게 생겼나요? t분포 함수의 수식은 아래와 같습니다. $f(t)=\frac{\Gamma\left ( \frac{\nu+1}{2} \right )}{\sqrt{\nu \pi}\ \Gamma\left ( \frac{\nu}{2} \right )} \left ( 1+\frac{t^2}{\nu} \right )^{-\left ( \frac{\nu+1}{2} \right )}$ t분포의 모양을 결정하는 파라미터는 $\nu$ 하나밖에 없습니다. $\nu$는 자유도입니다. 표본 크기가 n 인 경우 자유도 $\nu$는 n-1입니.. 2023. 1. 14.
대응표본 t검정 글 하나로 끝내버리기 1. 언제 쓰는 건가요? (수정해야됨) 대응표본 t검정은 서로 대응인 두 집단의 평균을 비교할 때 사용됩니다. 두 집단이라고 표현했지만 사실 같은 대상입니다. 대응표본 t검정은 동일한 집단을 대상으로 전/후 비교를 할 때 사용됩니다. 예를 들어 30명을 모집해서 다이어트약을 먹기 전과 후 몸무게를 비교할 때 사용합니다. 대응표본 t검정을 어떻게 수행하는지 먼저 간단히 이해해봅시다. 처리 전과 후 집단의 차를 구합니다. 예를들면 아래와 같습니다. 다이어트 약을 먹기 전과 후의 몸무게 데이터입니다. 이 차이를 가지고 1표본 t검정을 수행합니다. 이 차이가 0인지 아닌지를 알아보는 것이 목적입니다. 이 차이들이 평균이 0인 모집단에서 뽑힌 표본이라고 가정하고 일표본 t검정을 수행하는 것입니다. 2. 독립변수와.. 2023. 1. 13.
독립표본 t검정 글 하나로 끝내버리기 1. 언제 쓰는 건가요? 독립표본 t검정은 서로 독립인 두 집단의 평균을 비교할 때 사용합니다. 예를 들면 서울 시민 남자의 키와 여자의 키 비교가 있습니다. 2. 독립변수와 종속변수 독립변수와 종속변수 관점으로도 생각해봅시다. 서울 시민의 남녀 키 비교에서 독립변수는 성별입니다. 성별이 달라졌을 때 키가 달라지는지 알고 싶은 것이기 때문입니다. 따라서 독립변수는 '범주형 자료'입니다. 종속변수는 키 이므로 종속변수는 '수치형 자료'입니다. t검정에서의 독립변수와 종속변수는 아래와 같습니다. 독립변수 : 범주형 종속변수 : 수치형 2. 조건 1) 두 집단이 서로 독립이어야 합니다. 2) 모집단이 정규분포를 따라야 합니다. 정규성검정을 통해서 확인합니다. 만약 정규성을 만족하지 않는 경우 비모수 검정인 윌.. 2023. 1. 13.
일표본 t검정 글 하나로 끝내버리기 1. 언제 쓰는 건가요? 일표본 t검정은 모집단의 평균이 알려져 있는 상황에서, 정말 그 사실이 맞는지 확인할 때 사용합니다. 예를 들어 어떤 과자 포장지에 내용물 무게가 30g이라고 나와있다고 합시다. 30g이 정말 맞는지 확인하고 싶은 경우 표본을 뽑아 일표본 t검정을 합니다. 여기서 표본을 뽑는다는건 과자 50봉지 정도를 구입한다는 의미입니다. 2. 조건 1) 데이터는 연속형 자료여야 합니다. t검정은 t분포를 사용하는데, t분포는 모집단이 정규분포를 따른다는 것을 전제로 유도된 분포입니다. 정규분포는 연속형 변수에서 유도된 분포이기 때문에 모집단이 연속형 데이터인 경우에만 t검정을 사용할 있는 것이 원칙적으로는 맞습니다. 2) 모집단이 정규분포를 따라야 합니다. 이유는 1번에서 설명했습니다. 3... 2023. 1. 13.
평균이 좋은 대푯값이 아닌 경우 대푯값에는 평균, 중앙값, 최빈값이 있습니다. 가장 많이 쓰는 대푯값은 평균입니다. 더 정확히 말하면 '산술 평균'인데요. 평균이 항상 가장 좋은 대푯값인 것은 아닙니다. 오늘은 평균을 대푯값으로 사용하는 것이 적절하지 않은 경우들을 알아봅시다. 1. 극단값이 있는 경우 어느 회사의 평균 연봉이 1억2400만원이라고 합시다. 삼성전자의 평균연봉과 맞먹을 만큼 높습니다. 정말 좋은 회사인 것 같죠? 실상은 아래와 같습니다. 직원이 다섯명이고 연봉은 아래와 같다고 합니다. 3000만원 3000만원 3000만원 3000만원 50000만원 평균값인 1억2400 만원과 비슷한 직원은 한 명도 없습니다. 이런 경우는 평균값보다 최빈값이나 중앙값이 더 집단을 잘 대표할 것입니다. 2. 양쪽으로 치우친 경우 (쌍봉형).. 2023. 1. 12.
표본의 크기 결정 방법 수식 설명 및 유도 1. 설명 표본의 크기를 결정하는 수식은 아래와 같습니다. \frac{Z^2\sigma^2}{e^2} Z는 신뢰수준에 따라 결정되는 값입니다. 신뢰수준이 95%라면 1.96, 99%라면 2.58이 됩니다. e는 허용오차입니다. $\sigma$ 는 모표준편차입니다. 허용 오차는 상황에 맞게 각자 정해야합니다. 나는 오차를 얼마까지 허용할 것이라고 결정하고, 표본 크기를 정하는 것입니다. 2. 유도 허용오차를 고렿나 표본 크기는 모평균을 추정하는 신뢰구간 수식에서 유도할 수 있습니다. 95% 신뢰구간을 이용하여 유도해보겠습니다. 95% 신뢰구간은 아래와 같습니다. $\bar{X}-1.96\frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar{X}+1.96\frac{\sigma}{\sqr.. 2023. 1. 11.
[확률과통계 기초] 2-3. 조건부 확률 설명 및 공식유도 어떤 시행의 표본공간이 S 라고 합시다. 표본공간의 부분집합인 사건 A와 B가 있다고 합시다. 이때 조건부 확률은 아래와 같습니다. '사건 B가 발생했을 때 A가 발생할 확률' 수식으로는 아래와 같이 나타냅니다.  $P(A|B)$ 조건부 확률이 어떻게 계산되는지 알아봅시다. 표본공간과 사건 모두 집합이므로 벤다이어그램으로 나타낼 수 있습니다. 사건 B가 이미 발생한 상황이므로, 표본공간은 B가 됩니다.   이때 A가 발생하는 사건은 아래 그림의 노란색 부분입니다.   B가 발생했을 때 A가 발생할 확률을 구해보면 아래와 같습니다.  $P(A|B)=\frac{n(A\cap B)}{n(B)}$ 우변을 각각 확률로 변형해봅시다. 우변의 분자와 분모를 n(S) 로 나눠줍니다.  $P(A|B)=\frac{\fra.. 2023. 1. 10.
[확률과통계 기초] 2-2. 확률의 덧셈정리 확률의 덧셈정리는 사건 A 또는 B가 발생할 확률에 대한 정리입니다. 사건 A 가 일어날 확률이 $P(A)$ 이고, 사건 B가 일어날 확률이 $P(B)$라고 두겠습니다. 사건 A 또는 B를 먼저 기호로 나타내봅시다. 사건은 뭐죠? 사건은 '집합'입니다. 집합에서 '또는' 영어로 or 은 합집합입니다. 사건 A또는 B를 기호로 나타내면 아래와 같습니다. $A \cup B$ A 또는 B가 발생할 확률은 아래와 같이 나타냅니다. $P(A \cup B)$ 위 식을 변형하면 확률의 덧셈정리가 유도되는데요. 한 번 유도해봅시다. 표본공간을 S라고 놓으면 $P(A \cup B)$는 아래와 같이 나타낼 수 있습니다. 지난 시간에 배운 확률의 정의입니다. $P(A\cup B)=\frac{n(A\cup B)}{n(S)}$.. 2023. 1. 8.
[확률과통계 기초] 2-1. 사건이 발생할 확률 확률에 대해서는 다들 어느정도 익숙한 상태일 것입니다. 문제를 하나 풀어봅시다. 주사위를 하나 던져서 홀수의 눈이 나올 확률이 얼마인가요? 네 1/2 입니다. 1/2은 어떻게 나온 값일까요? 주사위를 하나 던질 때 나올 수 있는 눈의 수가 6가지 이고, 홀수의 눈의 수는 3가지니까 3을 6으로 나눈 값이 확률이 됩니다. (홀수의 눈이 나오는 경우의 수) / (전체 경우의 수) 위 확률을 한번 일반화시켜봅시다. 주사위라는 예시 없이 확률을 설명하려는 것입니다. 어떤 개념을 일반화 시켜 놓으면 의사소통에서의 오해도 줄어들고, 응용과 확장도 편해집니다. 확률을 일반화 시켜서 설명하려면 용어들을 정의할 필요가 있습니다. 예를 들면 '주사위를 던진다는 것'을 일반화 해서 부를 용어가 필요하겠죠? 또는 홀수의 눈이.. 2023. 1. 8.
[확률과통계 기초] 1-12. 1단원 경우의 수 내용 요약 이 강의는 크게 세개의 단원으로 되어 있는데요. 경우의수, 확률, 통계입니다. 우리는 지난시간까지 경우의 수 공부를 완료했습니다. 우리가 경우의 수 단원에서 배운 내용들은 아래와 같습니다. 시행과 표본공간 사건 순열과 조합 이항정리 한 문장을 표현하면 이렇습니다. "사건은 어떤 시행의 결과들의 집합이고, 사건의 원소 개수가 경우의 수 이다. 경우의 수를 구하는 테크닉에는 순열과 조합이 있다." 저는 1단원에서 가장 중요한 키워드는 '사건'이라고 생각합니다. 우리가 다음 단원에서 확률을 배울 건데요. 확률 앞에는 이런 말이 생략되어 있습니다. (어떤 사건이 발생할) 확률 2단원인 확률 단원도 사실은 사건 이야기입니다. 사건이 발생할 확률을 구하는 것이구요. 사건이 발생할 확률을 구할 때, 사건의 원소 개수.. 2023. 1. 7.
[확률과통계 기초] 1-11. 사건을 잘못 알고 계실지도 몰라요 사건의 정의는 이미 배운 상태인데요. 확률과 통계에서 사건은 아주 중요한 개념이라서 정말 이해했는지 한번 더 확인해보려고 합니다. 확률과 통계에서 사용되는 사건은 우리가 일상적으로 사용하는 사건의 의미와는 다릅니다. 우리가 일상적으로 사용하는 사건의 정의는 아래와 같습니다. 사건 : 사회적으로 문제를 일으키거나 주목을 받을 만한 뜻밖의 일 우리가 '사건이 발생했다' 라고 할 때의 사건은 이미 벌어진 특정한 일을 말합니다. 주로 뉴스에서 많이 듣는 단어죠. 총격 사건, 위반 사건 등에 사용합니다. 반면에 통계에서 사건은 이미 벌어진 일이 아닙니다. 주사위를 던져서 3이 나왔다고 합시다. 3이 나온 상황은 통계에서는 사건이 아닙니다. 일상에서는 발생한 어떤 상황을 지칭할 때 사건이라고 하는데요. 통계에서 사.. 2023. 1. 7.
[확률과통계 기초] 1-10. 사건과 경우의 수는 무엇이 다른가 안녕하세요. 확률과 통계 기초입니다. 사건과 경우의 수의 차이가 무엇인지 설명해보라고 하면 대답하기가 쉽지 않습니다. 사건은 어떤 시행의 결과들의 집합이라는 것을 이미 배웠습니다. 어떤 시행이 주사위 던지기라고 한다면, 홀수의 눈이 나오는 사건, 짝수의 눈이 나오는 사건 등이 있습니다. 그렇다면 경우의 수는 무엇일까요? 경우의 수가 무엇인지 알기 위해 경우의 수를 구하는 문제를 하나 풀어봅시다. "주사위를 하나 던질 때, 3 이상의 눈이 나오는 경우의 수를 구하시오" 3 이상의 눈이 나오는 경우의 수는 3,4,5,6으로 4가지입니다. 이 문제를 사건의 관점으로 풀어봅시다. 3 이상의 눈이 나오는 사건은 {3,4,5,6} 입니다. 이때 경우의 수는 사건의 원소의 개수입니다. 이제 경우의 수가 무엇인지 알았.. 2023. 1. 5.
민감도, 특이도, 양성예측도, 음성예측도 외우는 법 민감도,특이도,양성예측도,음성예측도의 정의는 아래와 같습니다. 민감도 : 환자 중에서 양성 판정을 받은 비율 특이도 : 정상인 중에서 음성 판정을 받은 비율 양성예측도 : 양성 판정을 받은 사람 중에서 환자의 비율 음성예측도 : 음성 판정을 받은 사람 중에서 정상인의 비율 제 업무에서 자주 사용하는 용어는 아닙니다. 가끔 등장하는데, 그럴 때마다 헷갈려서 검색을 해보곤 하는데요. 외울 수 있는 방법을 생각해보았고 작동한 방법을 공유합니다. 먼저 아래와 같이 연결하여 외워줍니다. 민감도-환자 특이도-정상인 양성예측도-양성 음성예측도-음성 그리고 아래 표를 떠올립니다. 2022. 12. 27.
[손으로 푸는 t검정] 3. t분포의 아이디어 Z검정에서 사용하는 Z통계량은 아래와 같습니다. $Z=\frac{\bar{X}-\mu}{\frac{\sigma}{\sqrt{n}}}$ Z검정의 한계는 Z통계량을 구할 때, 모분산 대신 표본분산을 사용한다는 것이었습니다. 우리가 뽑은 표본의 분산은 당연히 모분산과 다를 것입니다. 아주 우연히 같은 경우가 생길 수도 있겠지만, 대부분의 경우 다를 것입니다. 윌리엄 고셋은 이 문제를 해결하고 싶었습니다. 고민 끝에 이런 아이디어를 떠올리게 됩니다. "표본분산을 확률변수로 포함하는 분포를 만들면 되지 않을까" 다른 말로 하면 아래 확률변수의 분포를 구한다는 말입니다. $\frac{\bar{X}-\mu}{\frac{s}{\sqrt{n}}}$ 이 확률변수는 Z통계량의 모분산 자리에 표본분산을 대입한 것입니다. 아마.. 2022. 12. 24.
[손으로 푸는 t검정] 2. Z검정과 그 한계 t검정을 이해하려면 Z검정과 그 한계를 먼저 알아야 합니다. t검정이 고안되기 이전에는 Z검정을 사용하고 있었고, Z검정의 한계를 극복하는 과정에서 t검정이 등장했기 때문입니다. 1. Z검정 Z검정이 무엇인지는 「손으로 푸는 통계」에서 아주 자세히 설명했습니다. 여기서는 Z검정이 무엇인지 간단히 요약해보려고 합니다. 자세한 설명은 「손으로 푸는 통계」를 참고하시면 됩니다. Z검정은 두가지가 있습니다. 하나는 평균이 알려진 모집단에서 표본 하나를 뽑아서 모평균을 검정하는 일표본 Z검정입니다. 다른 하나는 두 모집단에서 각각 표본을 뽑고, 두 모집단의 평균을 비교하는 이표본 Z검정입니다. 일표본 Z검정을 기준으로 설명하겠습니다. 모집단 A의 평균이 $\mu$ 라고 알려져 있습니다. 모평균과 모분산이 얼마인지.. 2022. 12. 24.
[손으로 푸는 등분산 검정] 1. 소개 안녕하세요 통계의 본질입니다. 본 강의의 제목은 「손으로 푸는 등분산검정」 입니다. 등분산검정의 원리를 수학적으로 이해해보는 강의입니다. 등분산 검정의 모든 과정을 수식으로 써가며 이해하는 것이 목적입니다. 선수 과목은 「손으로 푸는 통계」입니다. 여러분이 통계검정의 원리를 이해하고 있다고 가정하고 진행합니다. 등분산검정은 집단의 분산을 비교할 때 사용됩니다. 대표적인 등분산 검정은 두 가지가 있습니다. F검정과 Levene's 검정입니다. F검정은 두 그룹의 분산 비교만 가능하고, Levene's 검정은 두 그룹 뿐 아니라 세 그룹 이상의 분산 비교도 가능합니다. t검정과 분산분석은 그룹들의 등분산성을 전제로 하기 때문에 사전 과정으로 등분산 검정을 해야 합니다. 이때 Levene's 검정을 주로 사용.. 2022. 12. 24.
통계의 본질 강의 커리큘럼 2023ver 통계의 본질 강의 커리큘럼 2023ver 입니다. 화살표는 선행강의입니다. 선행강의를 들어야 해당 강의를 어려움 없이 이해할 수 있습니다. 2022. 12. 24.
[손으로 푸는 분산분석] 1. 소개 안녕하세요. 본 강의의 제목은 손으로 푸는 분산분석입니다. 분산분석의 원리를 수학적으로 이해해보는 강의입니다. 분산분석의 모든 과정을 수식으로 써가며 이해하는 것이 목적입니다. 선수 과목은 「손으로 푸는 통계」와 「손으로 푸는 등분산검정」입니다. 통계검정의 원리, 등분산검정의 원리를 이해하고 있다고 가정하고 설명합니다. 분산분석은 셋 이상의 집단의 평균을 비교할 때 사용하는 통계검정 방법입니다. 쉽게 생각할 수 있는 예시는 세 반의 수학점수 평균 비교가 있습니다. 그런데 방금 든 예시는 가장 간단한 형태의 분산분석입니다. 분산분석은 독립변수의 개수에 따라 여러가지로 나뉩니다. 방금 든 예시는 독립변수가 한가지인 분산분석입니다. 세반의 수학점수 비교에서 독립변수와 종속변수는 무엇일까요? 독립변수는 반의 종.. 2022. 12. 23.
비복원추출인 경우 표본평균의 평균과 분산 (유도링크 추후 보완예정) 크기가 n인 표본을 모집단에서 뽑는다고 합시다. 만약 복원추출로 뽑는다면 아래 성질이 성립합니다. 표본 평균의 평균 = 모평균 표본 평균의 분산 = 모분산/n 비복원 추출에서도 성립할까요? 수학적으로 유도하기 전에 복원추출과 비복원추출이 '확률변수' 관점에서 어떤 차이가 있는지 생각해봅시다. 복원추출은 하나의 표본을 뽑을 때, 원소들의 중복을 허용합니다. 크기가 n인 표본을 뽑을 때, n개의 원소를 뽑을 때마다 복원하는 것입니다. 따라서 표본의 원소를 뽑는 사건들은 서로 '독립'입니다. 반면에 비복원추출은 표본의 원소들을 뽑을 때 복원하지 않으므로 중복이 허용되지 않습니다. 예를들어 한 원소로 1이 뽑히면 다른 원소로는 뽑힐 수가 없습니다. 따라서 비복원추출로 뽑을 때, 표본의 원소들을 뽑는 사건은 서로.. 2022. 12. 20.
[통계 Q&A] 통계 개념질문 5개 Q) 통계 개념질문 답해주세요 A) 1. 양측검정의 유의확률은 단측검정 보다 2배 크다. 맞습니다. 양측검정의 유의확률은 0.025와 비교해야하기 때문에, 0.05를 기준으로 하면 두배 커져야 합니다. 따라서 단측검정의 유의확률보다 두배 커집니다. 자세한 설명은 아래 글 참고하세요. https://hsm-edu.tistory.com/850 2. 유의확률이 1종 오류보다 작아야 연구가설을 받아들일 수 있다. 맞습니다. 1종오류는 유의수준인 0.05입니다. 유의확률이 1종오류보다 작아야 귀무가설이 기각되고 대립가설이 채택됩니다. 3. T검정은 2개 독립변수 평균 차이를 검정하는 것이다. 틀렸습니다. t검정에는 '독립표본 t검정'과 '대응표본 t검정'이 있습니다. 이 중 독립표본 t검정이 두 독립변수 평균차이.. 2022. 12. 10.
[손으로 푸는 비율검정] 2. 일표본 비율검정의 수학적 원리 일표본 비율검정을 이해하기 위해 한가지 상황을 설정하겠습니다. 아래와 같습니다. "A시의 여성 비율이 p라고 알려져 있는데, 표본을 뽑아 정말 그러한지 확인해 봅시다." 표본을 뽑아서 가설검정을 할 것입니다. 귀무가설과 대립가설은 아래와 같습니다. 귀무가설 : A시의 여성비율이 p이다. 대립가설 : A시의 여성비율은 p가 아니다. A시에서 크기가 n인 표본을 뽑으려고 합니다. 이때 크기가 n인 표본에 속해 있는 여성의 수를 확률변수 X라고 놓겠습니다. 확률변수 X는 아래 이항분포를 따릅니다. $X \sim B(n,p)$ 왜 확률변수 X는 이항분포를 따를까요? A시에서 크기가 n인 표본을 뽑는다는 것은, 한번 시행을 했을 때 여성이 발생할 확률이 p인 사건을 n번 시행하는 것과 같습니다. 이는 이항분포와 .. 2022. 12. 2.
[손으로 푸는 비율검정] 1. 무엇을 배우는가 이 강의에서는 두 가지 종류의 비율검정을 배울 것입니다. 하나는 일표본 비율검정이고, 다른 하나는 이표본 비율검정입니다. - 일표본 비율검정 - 이표본 비율검정 일표본 비율검정은 모비율이 p 라고 알려져 있는 상황에서, 표본을 뽑아 모비율이 p가 맞는지 검정하는 것입니다. 예를 들어 A시 여성 비율이 0.3 이라고 알려져 있는 상황에서, 정말 0.3이 맞는지 표본을 뽑아 검정하는 것입니다. 이표본 비율검정은 두 집단의 비율이 같은지 다른지 검정합니다. 예를 들어 A시와 B시의 여성 비율이 같은지 다른지를 표본을 뽑아 검정하는 것입니다. R이나 SPSS 같은 통계 프로그램으로 비율검정을 따라하는 것은 어렵지 않습니다. 본 강의는 비율검정 결과를 단순히 얻는 방법을 설명하는 강의는 아닙니다. 본 강의는 비율.. 2022. 11. 26.
[통계 기호의 이해] 4. X 와 aX+b 의 발생 확률이 같은 이유 X의 확률밀도함수가 p(x) 인 경우에 X의 기댓값과 3X의 기댓값을 지난 시간에 구했었습니다. 결과는 아래와 같습니다. $E[X]=\sum_{i=1}^{n}x_{i}p(x_{i})$ $E[3X]=\sum_{i=1}^{n}3x_{i}p(x_{i})$ 여기서 이런 의문이 드는 분들이 계실겁니다. X가 3X로 바뀌었는데, 왜 p(x) 는 그대로인가. 오늘 그 의문을 해결해봅시다. 확률변수 X의 원소를 아래와 같이 놓겠습니다. $X=\left \{x_{1},x_{2},...,x_{n} \right \}$ $x_{1}$ 이 발생할 확률은 $p(x_{1})$ 입니다. $x_{2}$가 발생할 확률은 $p(x_{2})$ 입니다. 나머지 원소들에도 동일하게 성립합니다. 기댓값은 모든 사건과 각 사건이 발생할 확률의 합.. 2022. 10. 26.
이산 vs 연속확률변수 (3) 확률 밀도가 등장한 맥락 연속확률변수는 실수 구간에서 정의된 확률변수입니다. 아래 구간에서 임의로 하나의 실수 값을 출력해주는 기계를 만들었다고 합시다. $0 \leq X \leq 3$ 각 숫자가 나올 확률은 동일하다고 합시다. 이때 숫자들이 각각 발생할 확률을 갖는다면 확률 전체의 합이 1이 될 수 없습니다. 확률 전체의 합이 무한대가 됩니다. 따라서 각 숫자들은 확률을 가질 수 없습니다. 대신 범위는 확률을 가질 수 있습니다. 예를들어 $0 \leq X \leq 1$ 은 전체 영역의 1/3이므로, 발생 확률이 1/3입니다. 기호로 나타내면 아래와 같습니다. $P[0 \leq X \leq 1]=\frac{1}{3}$ 이때 누적적분포함수는 아래와 같이 구할 수 있습니다. $P[0 \leq X \leq x]=\frac{1}{3}x.. 2022. 10. 14.
[통계 기호의 이해] 3. E[X] 는 함수가 아닙니다 기댓값 기호 $E[X]$를 함수로 오해하시는 경우가 있습니다. 먼저 아래 질문에 답해보면서 오해하고 있는건 아닌지 확인해봅시다. Q) 확률변수 X의 확률 밀도함수를 $f(x)$ 라고 한다면, 확률변수 X의 기댓값은 아래와 같이 계산됩니다. $E[X]=\int_{-\infty}^{\infty}xf(x)dx$ 이때, 확률변수 3X의 기댓값을 아래와 같이 계산하는게 맞나요? $E[3X]=\int_{-\infty}^{\infty}3xf(3x)dx$ 정답은 '틀렸다' 입니다. 위와 같은 계산이 왜 틀렸는지 지금부터 알아봅시다. $E[X]$ 는 함수가 아니라 'X의 기댓값'을 기호로 나타낸 것입니다. X의 기댓값이라는 말을 매번 쓰기 귀찮으니 $E[X]$ 로 표현하기로 한 것입니다. X의 기댓값이 구해지는 과정을 .. 2022. 9. 30.
모집단 표본추출 그림 2표본 ppt 2022. 9. 29.
[통계 적률의 이해] 16. 특성함수가 항상 존재하는 이유 적률생성함수가 존재하지 않는 경우에는 특성함수를 사용할 수 있습니다. 특성함수는 모든 확률분포에 대해 존재하기 때문입니다. 오늘은 정말 그러한지를 증명해봅시다. 먼저 특성함수가 존재한다는 의미가 무엇인지 짚고 넘어가겠습니다. 특성함수가 존재한다는 것은 t에 대한 특성함수 값이 유한하다는 의미입니다. 확률변수 X의 확률밀도함수가 f(x) 일 때, 특성함수는 아래와 같이 정의됩니다. $\varphi_{X}(t)=E\left [ e^{itx} \right ]=\int_{-\infty}^{\infty}e^{itX}f(x)dx$ 양변에 절댓값을 씌워줍시다. $\left | \varphi_{X}(t) \right |=\left | \int_{-\infty}^{\infty}e^{itX}f(x)dx \right |$ .. 2022. 9. 23.
[통계 적률의 이해] 15. 특성함수 적률생성함수가 존재하지 않는 확률분포들이 있다는 것을 배웠습니다. 자주 사용되는 t분포도 적률생성함수가 없었습니다. 적률생성함수와 같은 역할을 하면서, 모든 확률분포에서 존재하는 함수가 발견되었습니다. 이 함수가 특성함수입니다. 특성함수는 적률생섬함수의 t 대신 it 를 넣은 함수입니다. 아래와 같이 정의됩니다. 그리스어 phi 를 기호로 사용합니다. $\varphi_{X}(t)=E\left [ e^{itX} \right ]=\int_{-\infty}^{\infty}e^{itx}f(x)dx$ 여기서 $\varphi $ 는 그리스어인데 fi 또는 fie 로 발음합니다. 적률생성함수는 아래와 같이 정의됐었습니다. $M_{X}(t)=E\left [ e^{tX} \right ]=\int_{-\infty}^{\i.. 2022. 9. 23.
[통계 기호의 이해] 2. P[X≤x] 형태의 부등식에 익숙해져야 하는 이유 우리는 지난시간에 아래 기호의 의미를 배웠습니다. $P[X=x]$ 이 기호는 확률변수 X가 어떤 값 x일 확률을 나타냅니다. 대문자 X는 확률 변수를 나타내구요. 소문자 x는 발생한 값을 나타냅니다. 그런데 이 표현은 모든 확률변수에 적용될 수 없습니다. 이 표현은 이산확률변수에만 적용 가능한 표현방법입니다. 연속확률변수는 x라는 값이 확률을 갖지 않습니다. 연속확률변수에서 각 값이 발생할 확률은 항상 0입니다. 연속확률변수는 확률 대신 확률 밀도 값을 갖습니다. 확률 밀도 값은 어떤 구간에 대해 적분했을 때 확률이 되는 값입니다. 표준 정규 분포를 예로 들겠습니다. 아래 그림을 봅시다. 표준정규분포 함수입니다. 표준정규분포의 함수값은 확률이 아닌 확률밀도입니다. 이 분포를 따르는 확률변수를 X라고 한다.. 2022. 9. 18.
반응형