Coding Diary.

(Machine Learning) 다중 선형 회귀 본문

Coding/Machine Learning

(Machine Learning) 다중 선형 회귀

life-of-nomad 2023. 8. 21. 11:52
728x90
반응형

1. 다중 선형 회귀

다중 선형 회귀는 선형 회귀를 하나의 입력 변수가 아니라 여러 개의 입력 변수를 사용해서 목표 변수를 예측하는 알고리즘입니다.

이러한 학습 데이터가 있다고 하면 집 크기, 방 수, 건물 나이, 지하철 거리 등 이런 정보를 선형 회귀를 이용해서 집 값을 예측하려고 하는 것입니다.

 

2. 입력 변수와 목표 변수

선형 회귀에서는 입력 변수가 하나 있었고, 목표 변수가 하나 있었습니다. 입력 변수는 x라는 문자로 나타냈고, 목표 변수는 y라는 문자로 나타냈습니다. 그런데 다중 선형 회귀에서는 입력 변수가 여러 개 있습니다. 위의 표에서 집 크기, 방 수, 건물 나이, 지하철 거리 이렇게 입력 변수가 4개 있습니다. 입력 변수를 다른 말로는 '속성(feature)'라고도 합니다. 

 

첫 번째 입력 변수인 집 크기를 나타내기 위해서는 x_1 이렇게 x밑에 1을 쓰고, 두 번째 입력 변수인 방 수를 나타내기 위해서는 x_2 즉 x밑에 2를 쓰고, 그 다음은 x_3, x_4 이러한 식으로 하면 됩니다.

 

입력 변수의 개수는 n이라는 문자로 표현합니다. 지금은 총 4개의 입력 변수가 있기 때문에 n이 4인 것입니다. 그리고 입력 변수는 4개지만, 목표 변수는 그대로 1개 입니다. y로 나타내면 됩니다.

 

학습 데이터의 개수는 m이라는 문자로 표현합니다. 집 가격을 예측하는 프로그램을 만드는데 m이 50 이면, 50개의 집 데이터를 갖고 프로그램을 학습시키는 것입니다. 1번째 집의 입력 변수는 x^(1) 즉 x위에 괄호를 쓰고 그 안에 1을 써서 표현합니다. 그리고 1번째 집의 목표 변수는 y^(1) 즉 y위에 괄호를 쓰고 그 안에 1을 쓰면 됩니다.

 

참고로 이것은 하나의 값이 아니라 여러 값을 담은 벡터입니다. 예를 들어 x^(3) 는 3번째 집의 크기, 방 수, 지하철 거리, 건물 나이를 포함하는 벡터입니다.

 

만약 3번째 데이터의 2번째 속성인 방 수를 나타내고 싶으면 x_2^(3)으로 쓰면 됩니다. 이를 일반화하여 i번째 데이터의 j번째 속성은 아래와 같이 나타낼 수 있습니다.

728x90
반응형