Coding Diary.

(Machine Learning) 선형 회귀 (Linear Regression) 본문

Coding/Machine Learning

(Machine Learning) 선형 회귀 (Linear Regression)

life-of-nomad 2023. 7. 10. 09:06
728x90
반응형

1. 선형 회귀 (Linear Regresison)

선형 회귀는 데이터를 가장 잘 대변해 주는 선을 찾아내는 것 입니다. 이 데이터에 가장 잘 맞는 가장 적절한 하나의 선을 찾아내는 것입니다. 

통계학에서는 이 선을 최적선 (line of best fit) 이라고 합니다.

데이터에 잘 맞는 최적선을 찾았다고 가정해봅시다.

만약, 우리가 50평인 집의 가격을 알고 싶으면 이 선에서 찾으면 됩니다. 이 선에 의하면, 50평인 집은 약 20억원이라고 할 수 있습니다. 그리고 30평인 집은 약 10억 5천만원이라고 할 수 있는 것입니다. 

 

2. 변수

선형 회귀에서 우리는 어떤 정보(집 크기)를 갖고, 어떤 답(집 가격)을 예측하려고 하는 것입니다. 우리가 맞추려고 하는 값을 '목표 변수(target variable 또는 output variable)'이라고 하고 간단히 '아웃풋'이라고 합니다. 

 

그리고 그 목표 변수를 맞추기 위해서 사용하는 값을 '입력 변수(input variable)'이라고 하고 편하게 '인풋'이라고 합니다. 좀 더 일반적으로는 'feature'이라고 합니다. 

 

예를 들어, 집의 크기를 가지고 가격을 예측하려고 하면 집 크기가 입력 변수, 집 가격이 목표 변수 입니다.

 

3. 데이터 표현법

우리가 프로그램을 학습시키기 위해 사용하는 데이터를 '학습 데이터'라고 합니다. 학습 데이터의 개수를 보통 m이라는 문자로 표현합니다. 예를 들어, m이 50이면 우리가 50개의 집 데이터를 갖고 프로그램을 학습시킨다고 할 수 있습니다.

입력 변수는 x라는 문자로 표현하고, 목표 변수는 y라는 문자로 표현합니다. 첫 번째 데이터는 1, 그 다음 데이터는 2, 이런식으로 하나씩 커지게 됩니다.

 

1번 데이터의 입력 변수는 x위에 괄호를 쓰고, 괄호 안에 1을 써서 표현합니다. 그리고 1번 데이터의 목표 변수는 y위에 괄호를 쓰고, 괄호 안에 1을 써서 표현합니다. 

 

x위에 괄호 4를 쓰면 이건 4번 데이터의 입력변수니까 60평을 나타내는 것이고 y위에 괄호 5을 쓰면 5번 데이터의 목표 변수이니까 12억원을 나타내는 것입니다.

728x90
반응형