본문 바로가기
ETC

[머신러닝 앤드류응] (Week3) 1. Classification and Representation (1) Classification

by bigpicture 2021. 5. 31.
반응형

앤드류 응 교수님의 코세라 머신러닝 강의를 요약하는 글입니다. Week3 의 상세 목차는 아래와 같습니다.

Week3 목차

1. Classification and Representation (분류와 설명?)
2. Logistic Regression Model (로지스틱 회귀 모델)
3. Multiclass Classification (다항 분류)
4. Solving the Problem of Overfitting (과적합 문제 해결)


이번 글은 Week3의 1강인 Classification and Representation (분류와 설명?) 요약입니다.


1. Classification and Representation

(1) Classification
(2) Hypothessis Representation
(3) Decision Boundary

 

(1) Classificartion 

 

분류문제를 배울것임. 로지스틱회귀는 오늘날 가장 많이 사용되는 알고리즘중 하나임. 

분류문제의 예시는 아래와 같음. 

- 메일 : 스펨/스펨아님
- 온라인 트렌젝션 : 사기인가/아닌가
- 종양 : 악성/양성

예측변수 y는 0과 1의 값을 가짐.

0: "negative class" (e.g., 양성종양)
1: "positive class" (e.g., 악성종양)

이항분류가 아니라 다항분류인 경우는 나중에 다룹니다. 

엔드류는 먼저 기존의 '회귀분석'을 분류에 사용할 경우의 한계를 보여줍니다. 로지스틱회귀를 소개하기 전에 까는 복선입니다. 

 

회귀분석을 이용하여 분류모델을 만드는 방법은 아래와 같이 가설함수 $h_{\theta}(x)$ 를 학습시킨 뒤 임계값을 정하는 것입니다. 

 

위 예시에서는 0.5를 임계값으로 정했습니다.

 

만약 이상치, 혹은 극단값이 있으면 어떻게 될까요? 회귀모델은 아래 그림처럼 부정확해집니다. 파란 세로선을 기준으로 분류될 것이기 때문입니다. 

 

따라서 선형회귀를 분류에 사용하는 것은 좋은 생각이 아닙니다. 

 

아래와 같은 어이없는 경우가 생길 수도 있습니다.

 

 

가설함수값이 1이상이 되거나 0미만이 되는 것입니다. (이게 왜 이상한지 모르겠음....그냥 임계값 중심으로 분류하면 되는거 아닌가?)

 

아무튼 그래서 아래와 같은 로지스틱 회귀를 도입할 예정. 

 

반응형

댓글