본문 바로가기
IT

기계 학습(머신 러닝(Machine Learning))

by 비준 2022. 9. 16.

기계학습

기계학습 또는 머신 러닝( Machine Learning)은 경험을 통해 자동으로 개선하는 컴퓨터 알고리즘 연구로 인공지능은 한 분야로 간주된다. 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야이다. 예를 들면 기계학습을 통해서 수신한 이메일이 스팸인지 아닌지를 구분할 수 있도록 훈련할 수 있는 것이 한 예시이다.

 

기계학습의 핵심은 표현 (representation)과 일반화 (generalization)에 있다. 표현이란 데이터의 평가이며, 일반화한 아직 알 수 없는 데이터에 대한 처리이다. 이는 전산 학습 이론 분야이기도 하다. 다양한 기계학습의 응용이 존재하며, 문자인식은 이를 이용한 가장 잘 알려진 사례이다.

 

기계학습의 정의는 1959년 아서 사무엘이 기계학습을 "기계가 일일이 코드로 명시하지 않은 동작을 데이터로부터 학습하여 실행할 수 있도록 하는 알고리즘을 개발하는 연구분야"라고 정의하였다.

 

기계학습의 일반화는 훈련 이후 새롭게 들어오는 데이터를 정확히 처리할 수 있는 능력을 말한다.

 

기계학습과 데이터 마이닝은 종종 같은 방법을 사용하여 중첩되는 경우가 많아 같은 것이라고 생각하는데, 같은 것이 아니라 아래와 같이 구분된다.

 

 - 기계학습

훈련 데이터 (Training Data)를 통해 학습된 알려진 속성을 기반으로 예측에 초점을 두고 있다.

 

- 데이터 마이닝

데이터의 미처 몰랐던 속성을 발견하는 것에 집중한다. 이는 데이터베이스의 지식 발견 부분의 분석 절차에 해당한다. 

 

알고리즘 유형

알고리즘 유형에는 아래와 같은 유형이 있다.

 

 - 지도 학습

훈련 데이터로부터 하나의 함수를 유추해내기 위한 기계학습의 한 방법이다. 훈련 데이터는 일반적으로 입력 객체에 대한 속성을 백터 형태로 포함하고 있으며 각각의 벡터에 대해 원하는 결과가 무엇인지 표시돼있다. 지도 학습기가 하는 작업은 훈련 데이터로부터 주어진 데이터에 대해 예측하고자 하는 값을 올바르게 추측해 내는 것이다.

 

 - 자율 학습 (기계 학습)

비 지도 학습은 기계학습의 일종으로 데이터가 어떻게 구성되었는지 알아내는 문제의 범주에 속한다. 이 방법은 지도 학습 (Supervised Learning) 혹은 강화 학습 (Reinforcement Learning)과는 달리 입력값에 대한 목표치가 주어지지 않는다.

 

 - 준 지도 학습

준 지도 학습 (Semi-Supervised Learning)이란 기계학습의 한 범주로 목표값이 표시된 데이터와 표시되지 않은 데이터를 모두 훈련에 사용하는 것을 말한다.

 

 - 강화 학습

강화 학습 (Reinforcement Learning)은 기계학습의 한 영역이다. 행동심리학에서 영감을 받았으며 이던 환경 안에서 정의된 에이전트가 현재의 상태를 인식하여, 선택 가능한 행동들 중 보상을 최대화하는 행동 혹은 행동 순서를 선택하는 방법이다. 이러한 문제는 매우 포괄적이기 때문에 게임이론, 제어이론, 운용 과학, 정보이론, 시뮬레이션 기반 최적화, 다중 에이전트 시스템, 뗴 지능, 통계학, 유전 알고리즘 등의 분야에서도 연구된다.

접근 방법별 알고리즘

접근방법 별 알고리즘 종류는 아래와 같다.

 

- 결정 트리 학습법

결정 트리 학습법은 (decision tree learning)은 어떤 항목에 대한 관측값과 목표값을 연결시켜주는 예측 모델로서 결정 트리를 사용한다. 이는 통계학과 데이터 마이닝, 기계학습에서 사용하는 예측 모델링 방법 중 하나이다.

 

- 연관 규칙 학습법

연관 규칙 학습법은 큰 데이터베이스에서 변수들 간의 흥미로운 관계를 발견하기 위한 규칙 기반 기계학습 방법이다. 관심의 정도를 사용하여 데이터베이스에서 발견된 강력한 규칙을 구별하기 위한 것이다. 다 향한 항목들과 주어진 모든 거래에서 연관 규칙은 특정한 항목이 연결되는 방법과 이유를 결정하는 규칙을 발견하기 위함이다.

 

- 인공신경망

인공신경망은 (artificial neural network, ANN) 기계학습과 인지과학에서 생물학의 신경망에서 영감을 얻은 통계학적 학습 알고리즘으로 시냅스의 결합으로 네트워크를 형성한 인공 뉴런 (노드)이 학습을 통해 시냅스의 결합 세기를 변화시켜, 문제 해결 능력을 가지는 모델 전반을 가리킨다. 인공신경망에는 교사 신호(정답)의 입력에 의해서 문제에 최적화되어 가는 교사학습과 교사 신호를 필요하지 않은 비교사 학습이 있다. 명확한 해답이 있는 경우에는 교사학습이, 데이터 클러스터링에는 비교사 학습이 이용된다.

 

- 유전 계획법

 

- 귀납 논리 계획법

 

- 서포트 벡터 머신

서포트 백터 머신 (support vector machine, SVM)은 기계 학습 분야 중 하나로 패턴 인식, 자료 분석을 위한 지도 학습 모델이며, 주로 분류와 회귀 분석을 위해 사용된다. 두 카테고리 중 어느 하나에 속한 데이터의 집합이 주어졌을 때, SVM 알고리즘은 주어진 데이터의 집합을 바탕으로 하여 새로운 데이터가 어느 카테고리에 속할지 판단하는 비확률적 이전 선형 분류 모델을 만든다. 만들어진 분류 모델은 데이터가 사상된 공간에서 경계로 표현되는데 SVM 알고리즘은 그중 가장 큰 폭을 지닌 경계를 찾는 알고리즘이다. SVM은 선형 분류와 더불어 비선형 분류에서도 사용될 수 있다. 비선형 분류를 하기 위해서 주로 데이터를 고차원 특징 공간으로 사상하는 작업이 필요한데, 이를 효율적으로 하기 위해 커널 트릭을 사용하기도 한다.

 

- 클러스터링

클러스터 분석 (Cluster analysis)이란 주어진 데이터들의 특성을 고려해 데이터 집단(클러스터)을 정의하고 데이터 집단을 대표할 수 있는 대표점을 찾는 것으로 데이터 마이닝의 한 방법이다. 클러스터란 비슷한 특성을 가진 데이터들의 집단이다. 반대로 데이터의 특성이 다르면 다른 클러스터에 속해야 한다.

 

- 베이즈 네트워크

베이즈 네트워크 (Bayesian network) 혹은 빌리프 네트워크 (belief network) 또는 방향성 비순환 그래픽 모델 (directed acyclic graphical model)은 랜덤 변수의 집합과 방향성 비순환 그래프를 통하여 그 집합을 조건부 독립으로 표현하는 확률 그래픽 모델이다.

 

- 강화 학습법

위에 서술한 강화 학습의 내용과 같다.

강화 학습 (Reniforcement learning)은 기계 학습의 한 영역이다. 행동 심리학에서 영감을 받았으며, 어떤 환경 안에서 정의된 에이전트가 현재의 상태를 인식하여, 선택 가능한 행동들 중 보상을 최대화하는 행동 혹은 행동 순서를 선택하는 방법이다. 이러한 문제는 매우 포괄적이기 때문에 게임 이론, 제어이론, 운용 과학, 정보 이론, 시뮬레이션 기반 최적화, 다중 에이전트 시스템, 떼 지능, 통계학, 유전 알고리즘 등의 분야에서도 연구된다.

 

- 표현 학습법

 

- 동일성 계측 학습법 

 

이 존재한다.

'IT' 카테고리의 다른 글

전기 자동차  (0) 2022.09.17
프로그래머블 로직 컨트롤러 (PLC)  (2) 2022.09.17
빅 데이터(Big Data)  (0) 2022.09.14
오버 더 톱 서비스(OTT)  (0) 2022.09.13
4차 산업 혁명  (0) 2022.09.13

댓글