본문 바로가기
ETC

[머신러닝 앤드류응] (Week1) 2. 서론

by bigpicture 2021. 3. 30.
반응형

앤드류 응 교수님의 코세라 머신러닝 강의를 요약하는 글입니다. Week1 의 상세 목차는 아래와 같습니다. 

Week1 목차

1. Welcome
2. Introduction
3. Model and Cost Function
4. Parameter Learning
5. Linear Algebra Review


이번 글은 Week1의 2강인 Introduction 요약입니다.


Week1 

2. Introduction

1) Welcome (환영)

일단 강좌에 온걸 환영하고, 머신러닝이 엄청 다양한 분야에 쓰이고 있고 앞으로도 그럴거란 이야기를 하셨습니다. 앤드류 교수님은 실리콘밸리리로 부터 일주일에 2~3통씩 메일을 받는데, 다들 머신러닝을 자신들의 문제에 적용하고 싶다고 보내온 메일이라고 합니다. 교수님의 궁극적인 꿈은 언젠가 인간과 같은 인공지능을 만드는 것이라고 합니다. 

 

2) What is macnine learning? (머신러닝이란 무엇인가?)

머신러닝이 무엇인가에 대해 합의된 정의는 없습니다. 유명한 두가지 정의를 알려드리겠습니다. 하나는 아서 사무엘의 정의입니다. 

"명시적으로 학습시키지 않고 컴퓨터가 학습할 능력을 갖게하는 분야"

1950년 사무엘은 체스를 두는 프로그램을 만듭니다. 수만번 자기 자신과 체스를 두게하여 이기고 지는 수(position)를 학습하게 합니다. 결국 프로그램은 사무엘의 실력을 뛰어넘습니다 .

두번째 정의는 톰 미쉘의 정의입니다. 잘 알려진 유명한 정의입니다. 

"만약 어떤 컴퓨터 프로그램이 T라는 일(task)의 수행에서 P로 측정되는 성능이 E라는 경험을 통해 향상되었다면, 이 프로그램은 일 T와 성능측정 P에  대하여 경험 E로 부터 학습한다고 할 수 있다."

쉽게 설명해보겠습니다. 어떤 프로그램이 일(T)을 수행할 때 경험(E)으로 부터 성능(P)이 향상된다면, 프로그램이 학습한다고 할 수 있다는 말입니다. 

체스에 적용해 보면 아래와 같습니다. 

E : 체스 게임을 하는 경험
T : 체스를 하는 일
P : 게임에 이길 확률

컴퓨터가 체스를 할 때, 체스 게임을 하는 경험을 통해 이길 확률을 높인다면 학습한다고 할 수 있습니다. 

 

 

3) Supervised Learning (지도학습)

머신러닝은 크게 지도학습과 비지도학습으로 나뉩니다. 지도학습은 정답이 있는 데이터를 이용합니다. 지도학습에는 회귀와 분류가 있습니다. 회귀는 무언가를 예측하는 것입니다.

회귀(예측)

 

회귀의 예시는 집값 예측입니다. 아래와 같이 집 크기와 가격 데이터가 있다고 합시다. 여기서는 가격이 '정답'입니다. 집 크기 별로 '가격'을 알고 있는 데이터를 이용합니다. 

 

이 데이터를 이용하여 집값을 예측하는 모델을 만드는 것을 회귀분석이라고 합니다. 모델은 집값 예측에 사용될 수 있습니다. 

 

 

분류

 

분류의 대표적인 예시는 종양분류입니다. 종양의 크기 별로 악성인지 양성인지를 알고 있는 데이터를 이용하여 분류모델을 만듭니다. 

 

 

분류 모델은 이후 종양이 양성인지 악성인지 분류하는데 사용할 수 있습니다. 

 

아래와 같이 예측에 사용되는 예측변수(독립변수)의 개수는 무한대로 많아질 수 있습니다. 이때는 서포트벡터머신(SVM)이라는 기법을 사용하는데 나중에 배울 것입니다. 

 

 

4) Unsupervised Learning (비지도학습)

비지도학습은 정답이 없는 데이터를 주고 컴퓨터에게 알아서 규칙을 찾으라고 하는 것입니다. 비지도학습의 대표적인 예시는 '군집화'입니다. 군집화 외에도 '칵테일 파티 알고리즘'을 소개합니다. 

 


군집화 예시(종양)


위에서 사용한 종양데이터인데요. 아래와 같이 무엇이 종양인지 데이터에 주어지지 않습니다. 특정 조건을 부여하여 알고리즘을 짜주고, 컴퓨터가 알아서 분류하도록 합니다. 

 

 

군집화 예시 (구글 뉴스)

 

구글뉴스에 들어가면 비슷한 주제기리 기사를 모아줍니다. 군집화를 이용한 것입니다. 

 

 

군집화 예시 (유전자)

 

군집화는 유전학 자료 이해에도 사용됩니다. 한 줄이 사람 한명을 나타내고, 열은 특정 유전자입니다. 유전자를 얼마나 갖고 있는지가 색으로 나타납니다. 군집화를 이용하여 사람을 여러 타입으로 분류합니다. 

 

군집화 예시 (기타)

 

그 외에도 아래 그림과 같이 다양한 예시가 있습니다. 컴퓨터 클러스터 센터, 사회관계망분석, 시장세분화, 천문학 등에 사용됩니다. 

 

 

칵테일 파티 알고리즘

 

파티룸에서 여러 사람이 동시에 이야기하고 있습니다. 칵테일 파티에 두사람이 있고, 두개의 마이크로 녹음을 합니다. 각 마이크는 위치가 다릅니다. 두 마이크에 녹음된 소리에 '칵테일 파티 알고리즘'을 적용하면, 각 사람의 목소리를 알아서 분리해줍니다. 

 

 

반응형

댓글