Processing math: 100%
본문 바로가기
반응형

전체 글648

자른평균이 뭐죠? 왜 사용하나요?? (trimmed mean) 모집단의 분포가 심하게 치우쳐 있는 경우에는 표본평균들의 값의 차이가 커집니다. 따라서 모집단을 추정할 때 표본에 따라 추정값이 매우 달라집니다. 이러한 문제를 보완하기 위해 등장한 평균이 '자른평균'입니다. 양쪽의 극단적인 10%를 또는 20%를 제거하고 평균을 구하는 것입니다. 영어로는 trimmed mean 이라고 합니다. 통계 소프트웨어 R을 이용하여 예시를 하나 만들어 봤습니다. {1,11,12,15,16,17,18,21,25,121} 이라는 표본이 뽑혔다고 해봅시다. 데이터는 총 10개입니다. R을 이용하여 평균을 구하면 아래와 같습니다. > my_data=c(1,11,12,15,16,17,18,21,25,121) > mean(my_data) [1] 25.7 양쪽 10%를 자르고 평균을 구하면.. 2022. 7. 10.
F test (F검정) 은 도데체 언제 쓰는걸까?? 데이터의 통계분석을 할 때 아래의 검정들을 주로 사용합니다. 독립표본 t검정 : 독립된 두 그룹의 평균비교(정규분포 가정이 가능할 때) 대응표본 t검정 : 쌍을 이룬 두 그룹의 평균비교(정규분포 가정이 가능할 때) 분산분석 : 세 그룹의 평균 비교 (정규분포 가정이 가능할 때) 상관분석 : 두 수치형 변수 사이의 상관관계 유무와 강도 계산 회귀분석 : 종속변수와 독립변수의 관계를 모델링 F검정은 많이 들어보긴 했는데 쓰는 경우를 자주 못보셨을 겁니다. 물론 엑셀에서 t검정을 하기 전에 등분산/이분산 여부를 알기 위해 쓰지만 F검정의 결과를 데이터 분석의 결과로 이용하는 것은 아닙니다. 또 분산분석에서 F검정을 사용하지만 이때도 평균을 비교하기 위한 수단으로 사용하는 것이지 F검정 결과를 직접 이용하지는 .. 2022. 7. 9.
적률생성함수 vs 특성함수 적률생성함수 (Moment Generating Function) 적률생성함수는 그 이름에서도 알 수 있듯 적률을 생성해주는 함수입니다. 적률이 무엇인지 먼저 알아야 겠죠. 적률은 아래와 같이 정의됩니다. E[Xn] X 는 확률변수입니다. 확률변수 Xn 의 기댓값을 적률이라고 합니다. 적률에는 차수가 있습니다. E[Xn] 은 n차적률입니다. E[X] 은 1차적률이고, E[X2] 은 2차 적률입니다. 적률은 통계량과 관련있습니다. 1차적률은 평균이고 2차적률은 분산을 구할때 사용됩니다. 3차적률은 왜도, 4차적률은 첨도와 관련있습니다. 적률을 생성하는 함수인 적률생성함수는 아래.. 2022. 7. 9.
[분위수의 이해] 1. 상자수염그림 쉽고 자세한 설명 상자수염그림은 아래와 같은 그래프를 말합니다. 살충 스프레이 종류와 곤충 수 데이터를 사용하여 그린 상자수염그림입니다. R이라는 통계프로그램에서 제공하는 내장데이터입니다. x축이 살충 스프레이 종류이고, y축이 곤충 수 입니다. 스프레이는 A,B,C,D,E,F 의 6종류입니다. 각 스프레이당 12번씩 실험을 했습니다. 곤충 수는 살아 남은 곤충 수 인지, 죽은 곤충 수 인지 나와있지 않아서 죽은 곤충 수라고 가정합시다. 데이터의 일부를 살펴보면 아래와 같습니다. > InsectSprays count spray 1 10 A 2 7 A 3 20 A 4 14 A 5 14 A 6 12 A 7 10 A 8 23 A 9 17 A 10 20 A 11 14 A 12 13 A 13 11 B 14 17 B 15 21 B .. 2022. 7. 9.
[수리통계학] #39. 특성함수가 항상 존재함을 증명 어떤 확률변수 X의 확률밀도함수가 f(x) 일 때, 특성함수는 아래와 같이 정의됩니다. φX(t)=eitXf(x)dx 양변에 절댓값을 씌워줍시다. |φX(t)|=|eitXf(x)dx| 아래 부등식이 성립합니다. 복소해석학 내용입니다. 증명은 글 맨 아래 첨부한 링크를 참고하세요. $\left | \varphi_{X}(t) \right |=\left | \int_{-\infty}^{\infty}e^{itX}f(x)dx \right |\leq \int_{-\infty}^{\infty}\left | e^{itX}f(x) \ri.. 2022. 7. 6.
[수리통계학] #38. 특성함수가 같으면 같은 분포일까? (유일성) 두 확률변수 X와 Y가 있다고 합시다. 두 확률변수의 누적분포함수는 FX(x)FY(y) 라고 놓겠습니다. 두 확률변수의 확률밀도함수는 fX(x)fY(y) 라고 놓겠습니다. 두 확률변수의 특성함수는 φX(t)φY(t) 라고 놓겠습니다. 이때 아래 성질이 성립합니다. 1. 두 함수의 누적분포함수가 같으면 특성함수도 같다. 2. 두 함수의 특성함수가 같으면 누적분포함수도 같다. 1번 성질은 쉽게 증명할 수 있습니다. 누적분포함수가 같으면 확률밀도함수가 같습니다. 특성함수는 아래와 같이 확률밀도함수에 의해서만 결정됩니다. $\varphi_{X}(t)=E[e^{itx}]=\int_{-\infty}^{\infty} e^{it.. 2022. 7. 6.
[수리통계학] #37. 특성함수 특성함수는 확률밀도함수에 퓨리에변환을 적용한 것입니다. 아래와 같이 정의됩니다. 그리스어 phi 를 기호로 사용합니다. 비교를 위해 적률생성함수도 나란히 써보겠습니다. φX(t)=E[eitX]=eitxf(x)dx MX(t)=E[etX]=etxf(x)dx 특성함수는 적률생성함수에서 t자리에 it 가 대신 들어간 것입니다. 적률생성함수처럼 특성함수도 확률밀도함수마다 고유합니다. 두 확률변수의 특성함수가 같다면 확률밀도함수도 같습니다. 둘의 결정적인 차이는 다음과 같습니다. 특성함수는 적률생성함수와 달리 모든 확률분포에 대해 .. 2022. 7. 6.
기댓값이 무한대인 확률변수 어떤 확률변수의 기댓값이 무한대일 수 있을까요? 직관적으로 상상은 잘 되지 않지만 존재합니다. 아래 확률분포를 봅시다. $f(x)=\left\{\begin{matrix} \frac{1}{x^2} & 1 2022. 7. 6.
[수리통계학] #36. 적률생성함수가 존재하지 않는 경우 모든 확률분포에서 적률생성함수가 존재하는 것은 아닙니다. 적률생성함수가 존재하지 않는 확률분포도 있습니다. 반면 다음 시간에 배울 특성함수는 모든 확률분포에서 존재합니다. 적률생성함수가 존재하지 않는 확률분포 예시는 아래와 같습니다. f(x)=1π1x2+1 확률변수 X는 연속확률변수이고 범위는 모든 실수입니다. 위 확률분포는 Cauchy 분포입니다. Cauchy 분포의 일반형은 아래와 같습니다. f(x;x0,γ)=1πγ[1+(xx0γ)2] Cauchy 분포에서 x0 이 0이고, γ가 1인 경우입니다. $f(.. 2022. 7. 6.
[수리통계학] #35. 적률생성함수가 같은면 같은 분포일까 (유일성) 두 확률변수 X와 Y가 있다고 합시다. 두 확률변수의 누적분포함수는 FX(x)FY(y) 라고 놓겠습니다. 두 확률변수의 확률밀도함수는 fX(x)fY(y) 라고 놓겠습니다. 두 확률변수의 적률생성함수는 MX(t)MY(t) 라고 놓겠습니다. 이때 아래 성질이 성립합니다. 1. 두 함수의 누적분포함수가 같으면 적률생성함수도 같다. 2. 두 함수의 적률생성함수가 같으면 누적분포함수도 같다. 1번 성질은 쉽게 증명할 수 있습니다. 누적분포함수가 같으면 확률밀도함수가 같습니다. 적률생성함수는 아래와 같이 확률밀도함수에 의해서만 결정됩니다. MX(t)=E[etx]=etxf(x)dx 따라.. 2022. 7. 6.
[수리통계학] #34. 적률생성함수란 무엇인가 적률생성함수는 적률을 생성하는 함수입니다. 적률은 아래와 같이 정의됩니다. E[Xn] 적률은 확률변수의 거듭제곱의 기댓값입니다. 적률에는 차수가 있습니다. 위 적률은 n차 적률입니다. 적률생성함수는 미분을 이용하여 간편하게 적률을 구할수 있게 해주는 함수입니다. 확률변수 X의 적률생성함수는 아래와 같이 정의됩니다. etx의 기댓값입니다. MX(t)=E[etx] 확률변수가 이산확률변수라면 아래와 같이 계산됩니다. MX(t)=E[etx]=etxp(x) 확률변수가 연속확률변수라면 아래와 같이 계산됩니다. MX(t)=E[etx]=etxf(x)dx 변수는 X가 아니라 t입니다. X는 적분이되어 .. 2022. 7. 4.
[수리통계학] #33. 연속확률변수의 변수변환 (일대일 대응) 연속확률변수 XY가 있습니다. 확률변수 X의 분포함수는 알고 있는 상황입니다. 또한 Y=g(X) 라는 함수도 알고 있고 XY는 일대일 대응이라고 가정합시다. 이때 Y의 분포함수를 구하는 방법입니다. 알고 있는 것 : X의 분포함수 fX(x), Y=g(X) 조건 : XY는 일대일 대응 구해야 하는 것 : Y의 분포함수 fY(y) XY가 일대일 대응이므로 g(X) 는 증가함수이거나 감소함수입니다. 두 경우로 나눠서 fY(y) 구하는 방법을 알아봅시다. 1. g(X) 가 증가함수인 경우 연속확률변수이므로 특정 값에서의 확률을 정의할 수는 없습니다. 따라서 누적분포함수를 이용하여 접근하겠습니다. 아래 등식에서 출발.. 2022. 6. 30.
[수리통계학] #32. 이산확률변수의 변수변환 (일대일 대응) 이산확률변수 X와 Y가 있습니다. 확률변수 X의 분포함수는 알고 있는 상황입니다. 또한 Y=g(X) 라는 함수도 알고 있고 X와 Y는 일대일 대응이라고 가정합시다. 이때 Y의 분포함수를 구하는 방법입니다. 알고 있는 것 : X의 분포함수, X와 Y의 관계함수 (Y=g(X)) 조건 : X와 Y는 일대일 대응 구해야 하는 것 : Y의 분포함수 아래 등식에서 출발합니다. pY(y)=P[Y=y] 좌변의 py(y)는 확률변수 Y의 확률질량함수입니다. 우변은 확률변수 Y가 y일 확률입니다. Y=g(X) 이므로 위 식을 아래와 같이 변형할 수 있습니다. pY(y)=P[g(X)=y] g(X)=yX=g1(y) 로 변형할수 있고, 둘의 발생확률은 당연히 같습니다. 따라.. 2022. 6. 30.
[대푯값의 이해] 1. 평균과 중앙값의 발견 평균과 중앙값이 발견된 경로를 생각해봅시다. 아마 어떤 자료를 요약하는 과정에서 그 자료를 대표하는 값이 필요했고, 평균과 중앙값을 생각해냈을 것입니다. 더 나아가서 자료가 흩어진 정도를 알기 위해 분산, 표준편차, 중앙값절대편차 등을 생각했을 겁니다. 이것이 우리가 일반적으로 생각할 수 있는 발견 경로입니다. 이 글에서 다루려는 이야기는 우리가 일반적으로 생각할 수 있는 경로가 아닌 '측정'이라는 특수한 상황에서 평균과 중앙값이 발견된 과정을 다루려고 합니다. 무언가를 측정하는 상황을 가정합시다. 어떤 물체의 길이를 측정한다고 합시다. 측정 길이에는 참값이 존재할 것이지만, 측정 오차 때문에 측정 할 때마다 값이 조금씩 달라질 겁니다. 측정의 결과 아래와 같이 다섯개의 값이 얻어졌다고 해봅시다. 10,.. 2022. 6. 14.
[손으로 푸는 통계 ver1.0] 91. 표본분산의 분포 시뮬레이션 (4) p값 비교 표본분산의 분포와 카이제곱분포를 비교하고 있습니다. n1σ2s2χ2n1 지난시간에는 누적분포함수를 비교했습니다. 모집단이 균등분포를 따르는 경우 표본을 아무리 크게 해도 표본분산의 분포와 카이제곱분포가 일치하지 않았습니다. 이번 글에서는 p값을 비교해봅시다. 정량적인 비교입니다. 비교 방법을 설명하겠습니다. 카이제곱분포의 좌측꼬리 p값이 0.05가 나오는 확률변수 값을 히스토그램에 적용하여 p값을 구합니다. 0.05와 구해진 p값을 비교하면 됩니다. 우측꼬리에서도 같은 방법으로 p값을 구합니다. 모집단의 종류, 표본의 크기를 바꿔가며 구했습니다. 히스토그램은 표본 10000개를 뽑아서 그렸습니다. 히스토그램을 그리고 해당 히스토그램에서.. 2022. 6. 13.
반응형