본문 바로가기
반응형

평균16

평균이 좋은 대푯값이 아닌 경우 대푯값에는 평균, 중앙값, 최빈값이 있습니다. 가장 많이 쓰는 대푯값은 평균입니다. 더 정확히 말하면 '산술 평균'인데요. 평균이 항상 가장 좋은 대푯값인 것은 아닙니다. 오늘은 평균을 대푯값으로 사용하는 것이 적절하지 않은 경우들을 알아봅시다. 1. 극단값이 있는 경우 어느 회사의 평균 연봉이 1억2400만원이라고 합시다. 삼성전자의 평균연봉과 맞먹을 만큼 높습니다. 정말 좋은 회사인 것 같죠? 실상은 아래와 같습니다. 직원이 다섯명이고 연봉은 아래와 같다고 합니다. 3000만원 3000만원 3000만원 3000만원 50000만원 평균값인 1억2400 만원과 비슷한 직원은 한 명도 없습니다. 이런 경우는 평균값보다 최빈값이나 중앙값이 더 집단을 잘 대표할 것입니다. 2. 양쪽으로 치우친 경우 (쌍봉형).. 2023. 1. 12.
[대푯값의 이해] 1. 평균과 중앙값의 발견 평균과 중앙값이 발견된 경로를 생각해봅시다. 아마 어떤 자료를 요약하는 과정에서 그 자료를 대표하는 값이 필요했고, 평균과 중앙값을 생각해냈을 것입니다. 더 나아가서 자료가 흩어진 정도를 알기 위해 분산, 표준편차, 중앙값절대편차 등을 생각했을 겁니다. 이것이 우리가 일반적으로 생각할 수 있는 발견 경로입니다. 이 글에서 다루려는 이야기는 우리가 일반적으로 생각할 수 있는 경로가 아닌 '측정'이라는 특수한 상황에서 평균과 중앙값이 발견된 과정을 다루려고 합니다. 무언가를 측정하는 상황을 가정합시다. 어떤 물체의 길이를 측정한다고 합시다. 측정 길이에는 참값이 존재할 것이지만, 측정 오차 때문에 측정 할 때마다 값이 조금씩 달라질 겁니다. 측정의 결과 아래와 같이 다섯개의 값이 얻어졌다고 해봅시다. 10,.. 2022. 6. 14.
[손으로 푸는 통계 ver1.0] 82. 카이제곱분포의 평균 쉬운 유도 지난 시간에 n자유도 카이제곱분포를 따르는 확률변수 X의 평균이 n 이라는 것을 유도했습니다. 오늘은 카이제곱분포의 평균을 더 쉽게 유도해봅시다. 아래 식에서 출발합니다. $\frac{n-1}{\sigma^{2}}s^{2} \sim \chi^{2}_{n-1}$ 좌변은 n-1 자유도인 카이제곱분포를 따르는 확률변수입니다. 기댓값을 구해봅시다. $E\left [ \frac{n-1}{\sigma^{2}}s^{2} \right ]$ 괄호와 무관한 문자들은 밖으로 꺼냅시다. $\frac{n-1}{\sigma^{2}}E\left [ s^{2} \right ]$ 표본분산의 평균은 모분산입니다. 4강에서 유도했습니다. $\frac{n-1}{\sigma^{2}}\sigma^{2}$ 약분하면 n-1만 남습니다. n-1자유.. 2022. 3. 7.
[음이항분포 한눈에] 정의, 분포함수,평균,분산,첨도,왜도,적률생성함수,특성함수 음이항분포는 성공횟수(k), 실패횟수(r), 전체 시행횟수(n)에서 무엇을 변수로 놓고 무엇을 상수로 놓느냐에 따라 다양하게 정의됩니다. 형태는 f(변수,상수) 입니다. ① f(n;r) : 실패가 r번 발생할 때까지 전체 발생횟수가 n회일 확률. ② f(n;k) : 성공이 k번 발생할 때까지 전체 발생횟수가 n회일 확률. ③ f(r;n) : 전체 시행횟수가 n일 때까지, 실패횟수가 r회일 확률. ④ f(k;n) : 전체 시행횟수가 n회이 때까지, 성공이 k회일 확률. ⑤ f(r;k) : 성공이 k번 발생할 때까지 실패횟수가 r회일 확률. ⑥ f(k;r) : 실패가 r번 발생할 때까지, 성공이 k회일 확률. 3,4번은 이항분포이므로 나머지만 남겨봅시다. ① f(n;r) : 실패가 r번 발생할 때까지 전체 .. 2021. 10. 29.
평균과 중앙값의 비교와 그래프의 치우침 대칭인 분포의 경우 평균과 중앙값이 같습니다. 반면 분포가 한쪽으로 치우친 경우 평균과 중앙값이 달라집니다. 아래 데이터를 봅시다. 100 100 100 150 150 150 150 150 200 200 200 이 데이터는 평균이 150 이고, 중앙값도 150입니다. 이 데이터를 오른쪽 꼬리를 가진 데이터로 바꿔보겠습니다. 오른쪽 꼬리를 가진 데이터는 right-tailed 또는 skewed to right 또는 poistive skewed 라고 부릅니다. 100 100 100 150 150 150 150 150 200 200 2000 이렇게 바꾸었을 때 왜 오른쪽 꼬리를 갖는 것인지 이해가 되지 않는 분들은 히스토그램을 떠올리시면 됩니다. 오른쪽으로 아주 먼 곳인 2000에 막대가 하나 올라와 있게 된.. 2021. 10. 19.
[통계 Q&A] 평균과 기댓값이 헷갈립니다. Question) 평균을 구할 때 어떨 땐 총량으로 나누는 방식으로 하고, 어떨땐 확률이랑 변수를 곱하는데. 두개가 같은건지. xp(x)는 왜 평균을 의미하는지 궁금합니다. Answer) 평균은 원소의 전체합 나누기 원소의 개수로 정의되고 이건 받아들이기 쉬울겁니다. 문제는 기댓값인데요. 확률변수의 기댓값이라는게 등장하고 나서 이해하기가 어려워집니다. 우리가 흔히 알고 있는 산술평균에서 확률변수의 기댓값으로 개념이 확장되어야 합니다. 기댓값을 이해하고 나서 평균과 연결하시면 됩니다. 평균도 기댓값으로 해석할 수 있습니다. 기댓값 확률변수는 값과 확률을 모두 갖습니다. 예를 들어봅시다. 동전을 한개 던지는 실험에서 앞면이 나오면 500원, 뒷면이 나오면 1000원을 받는다고 합시다. 동전 한번 던진 결과로.. 2021. 3. 30.
평균이 무의미한 경우 (평균값이 크다고 꼭 좋은걸까?) 평균은 대표값 중 하나입니다. 어떤 집단을 '대표'하는 값입니다. 대표적인 대푯값에는 평균, 중앙값, 최빈값이 있습니다. 평균이 가장 빈번하게 사용되기는 하나 모든 상황에서 자료를 잘 '대표'하지는 않습니다. 아래 두 사례를 봅시다. 회사 A와 B가 있습니다. A회사의 평균 급여는 오천만원이고, B회사의 평균 급여는 1억입니다. B회사가 더 돈을 많이 주는 좋은 회사일까요? 평균만으로는 알 수 없습니다. 극단적인 예를 들면, A회사 직원은 10명인데 전부 오천만원을 받고 있다고 합시다. B회사도 10명인데 9명의 연봉은 이천만원이고 사장님 연봉이 8억 2천만원이라면, 그래도 B회사가 더 좋은 회사일까요? A학교에 두 반이 있습니다. X반과 Y반이라고 합시다. 지금은 모르겠지만 제 학창시절에는 선생님들이 .. 2021. 3. 20.
mean vs average vs expected value (구분 가능?) mean vs average vs expected value (구분 가능?) 1. mean 아마 mean이 무엇이냐고 누군가 물어보면, 전체 합을 개수로 나눈 값이라고 답하실 것입니다. 그런데 mean 에는 세가지가 종류가 있습니다. Arithmetic mean, Geometric mean, Harmonic mean 입니다. 각각 산술평균, 기하평균, 조화평균이라고 부릅니다. 우리가 mean이라고 이야기할 때는 보통 '산술'평균의 의미로 사용합니다. 2. average average는 정의하기가 어려운 개념입니다. 위키피디아에 보면, average는 구어적으로 일련의 숫자들을 대표하는 하나의 숫자라고 되어있습니다. 우리는 average를 무엇으로 알고 있나요? 일련의 숫자들을 다 더한 뒤, 개수로 나눈 .. 2020. 9. 24.
[손으로 푸는 확률분포] 균등분포 (2) 평균과 분산 (2-1) 평균 확률변수 X가 균등분포를 따를 때, 확률밀도함수는 아래와 같다는 것을 지난시간에 유도했습니다. 균등분포를 따르는 확률변수 X는 연속확률변수입니다. 연속확률변수의 평균은 아래와 같이 구합니다. 균등분포함수에 적용해봅시다. 적분은 어렵지 않습니다. 적분해봅시다. 계산합시다. 인수분해합시다. 약분하면 아래와 같이 균등분포의 평균이 구해집니다. (2-2) 분산 연속확률변수의 분산은 아래와 같이 구합니다. 평균은 위에서 구해서 알고 있으므로, 확률변수의 제곱의 평균만 구하면 됩니다. 위 식에 균등분포의 확률밀도함수를 대입합니다. 적분은 어렵지 않습니다. 적분해봅시다. 계산합시다. 인수분해합시다. 약분하면 아래와 같습니다. 분산을 구하는 식에 넣어줍니다. 맨 오른쪽 항을 계산해줍니다. 통분합시다. .. 2020. 2. 26.
[손으로 푸는 확률분포] 다항분포 (4) 평균과 분산 (4) 평균과 분산 다항분포의 기댓값은 각 사건별로 구하거나 사건의 합집합의 기댓값을 구할 수 있습니다. 예를 들어 어떤 시행에서 세가지 사건이 발생할 수 있다고 하겠습니다. 사건 A, 사건 B, 사건C 입니다. 한번의 시행에서 각 사건이 발생할 확률은 $P_{A}$, $P_{B}$, $P_{C}$ 라고 합시다. n번의 시행에서 사건 A가 X번, 사건 B가 Y번, 사건 C가 Z번 발생할 확률은 아래와 같습니다. 다항분포의 기댓값을 구해볼건데요. 우리는 각 사건의 기댓값을 구할 수 있고, 여러 사건들의 교집합 또는 합집합의 기댓값을 구할 수 있습니다. 먼저 사건 A의 기댓값을 구해봅시다. 사건 A의 관점에서 보면, 어떤 시행의 결과는 사건 A가 발생하거나 사건 A가 발생하지 않거나의 두가지 입니다. 따라서.. 2020. 2. 7.
[손으로 푸는 확률분포] 음이항분포 (3) 유도 3) 일반화(유도) 어떤 사건이 발생할 확률을 p라고 합시다. r번의 실패가 나오기까지 발생한 성공이 k번일 확률 p(X=k)의 분포가 음이항분포입니다. p와 r은 사전에 정해지는 값입니다. 변수는 k입니다. 이를 아래와 같이 표현합니다. k는 변수이고, r과 p은 주어진 값이라는 의미입니다. 이제 이런 조건을 따르는 확률분포 p(X=k)를 정의합시다. k가 확률변수 x라는 의미입니다. 총 r번의 실패와 k번의 성공이므로 전체 시행은 r+k번이 됩니다. 아래와 같이 정리합시다. 기호로 나타내면 아래와 같습니다. NB는 Negative binomial distribution(NB)의 약어입니다. 2019. 7. 5.
[손으로 푸는 통계] 17. 이항분포의 평균과 분산 정규분포의 두가지 유도방법을 공부하고 있습니다. 두가지 유도방법은 아래와 같습니다. 1) 과녁 맞추기를 이용한 유도 2) 이항분포를 이용한 유도 지난시간까지 1번인 과녁 맞추기를 이용한 유도를 공부해보았습니다. 이제 2번인 이항분포를 이용하여 정규분포를 유도할 차례입니다. 이항분포를 이용하여 정규분포를 유도할 때 이항분포의 평균과 분산이 사용됩니다. 이번시간에는 이항분포의 평균과 분산을 구해봅시다. 이항분포는 $B(n,p)$ 라고 나타냅니다. B는 binomial distribution 의 첫글자를 딴 것입니다. n은 시행횟수이고 p는 특정 사건이 발생할 확률입니다. 동전던지기를 동전을 100번 던질 때 앞면이 나오는 횟수의 확률분포는 $B(100,0.5)$ 입니다. 이항분포 $B(n,p)$ 를 식으로 .. 2018. 4. 12.
[손으로 푸는 통계] 8. 1~7강 요약(세로영상) 1~7강까지 내용을 요약해봅시다. 먼저 1강에서는 대표적인 통계량인 평균, 분산, 표준편차에 대해 배웠습니다. 2강에서는 표본분산을 계산할 때 왜 n-1로 나누는 것인지를 배웠는데요. 이는 표본분산을 불편추정량으로 만들기 위함이었습니다. 불편추정량이 무엇을 의미하는지, 자유도는 무엇인지 공부했습니다. 3강에서는 표본평균의 평균이 모평균과 같다는 것을 유도했습니다. 표본평균의 평균이 모평균과 같기 때문에 표본평균은 불편추정량입니다. 4강에서는 표본분산의 평균이 모분산과 같다는 것을 유도했습니다. 따라서 표본분산도 불편추정량입니다. 5강에서는 표본평균의 분산이 모분산을 n으로 나눈 것과 같음을 유도했습니다. 이 내용은 고등학교에서도 배운 내용이지만, 유도하지는 않았었습니다. 6강에서는 두 변수가 독립인 경우.. 2018. 3. 24.
[손으로 푸는 통계] 7. 크기가 1인 표본평균의 평균과 분산이 모집단과 같은 이유 증명 3강에서 표본평균의 평균을 계산했던 수식을 가져와봅시다. $E(\bar{X})=E\left ( \frac{\sum_{i=1}^{n}x_{i}}{n}\right )$ $\frac{1}{n}$ 은 상수이므로 밖으로 꺼냅시다. $E(\bar{X})=\frac{1}{n} E\left ( \sum_{i=1}^{n}x_{i} \right )$ 우변의 괄호 안 수식을 풀어서 쓰면 아래와 같습니다. $E(\bar{X})=\frac{1}{n} E\left ( x_{1}+x_{2}+...+x_{n} \right )$ 여기서 우변의 각 항들이 표본들의 n번째 원소를 나타내는 변수입니다. 각 항을 크기가 1인 표본으로 생각할 수 있습니다. 크기가 1인 표본에서는 표본과 표본평균이 같기 때문에, 크기가 1인 표본평균이라는 변수.. 2018. 3. 24.
[손으로 푸는 통계] 6. E(XY)=E(X)E(Y) 의 성립조건과 증명 5강(표본평균의 분산이 모분산/n 인 이유)에서 수식을 유도할 때, 아래 등식을 사용했습니다. $E(XY)=E(X)E(Y)$ 두 변수 X,Y가 독립일 경우 등식이 성립합니다. 두 변수가 독립이라는 것은 한 변수의 발생 여부가 다른 변수에 영향을 주지 않는 것을 의미합니다. 오늘은 두 변수가 독립인 경우 왜 위 등식이 성립하는지 증명해보도록 하겠습니다. 먼저 간단한 예시로 성립한다는 것을 보여드리고, 일반화하도록 하겠습니다. 예시 서로 독립인 변수 X,Y가 있다고 합시다. X와 Y의 원소는 아래와 같습니다. $X=\left [ 1,2,3 \right ]$ $Y=\left [ 5,6 \right ]$ 이때 XY가 가질 수 있는 원소는 아래의 6가지입니다. $XY=\left [ 1\times5,2\times .. 2018. 3. 23.
[손으로 푸는 통계] 1. 평균, 편차, 분산, 표준편차 평균, 편차, 분산, 표준편차 통계학은 데이터를 다루는 학문입니다. 데이터를 모으고, 정리하고, 분석하고, 추측하고, 어떤 결론을 도출하는 것이 통계학의 역할입니다. 데이터를 요약해주는 특징들을 알 수 있다면 데이터를 파악하는데 도움이 됩니다. 데이터의 특징을 수치화한 값을 통계량이라고 합니다. 대표적인 통계량에는 '평균(mean)', '분산(variance)', '표준편차(standard deviation)' 등이 있습니다. 어떤 집단이 궁금한 상황을 가정해봅시다. 우리는 그 집단 전체가 궁금합니다. 전체집단을 모집단(Population)이라고 부릅니다. 이 모집단의 평균,편차,분산,표준편차와 같은 모집단의 특성을 모수(Parameter)라고 합니다. 하지만 전체집단을 모두 조사할 수는 없습니다. 그래.. 2018. 3. 23.
반응형