일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 다항회귀
- 오늘도코드잇
- 로지스틱회귀
- SQL
- 코드잇 TIL
- CSS
- 나혼자코딩
- Seaborn
- 머신러닝
- numpy
- HTML
- 코드잇
- 행렬
- 판다스
- 코드잇TIL
- 파이썬
- 선형회귀
- matplotlib
- 윈도우함수
- 코딩공부
- 경사하강법
- 결정트리
- 런던
- 유학생
- for반복문
- 코딩독학
- 코딩
- 데이터분석
- sql연습문제
- 영국석사
- Today
- Total
영국 척척석사 유학생 일기장👩🏻🎓
(Machine Learning) 선형 회귀 (Linear Regression) 본문
1. 선형 회귀 (Linear Regresison)
선형 회귀는 데이터를 가장 잘 대변해 주는 선을 찾아내는 것 입니다. 이 데이터에 가장 잘 맞는 가장 적절한 하나의 선을 찾아내는 것입니다.
통계학에서는 이 선을 최적선 (line of best fit) 이라고 합니다.
데이터에 잘 맞는 최적선을 찾았다고 가정해봅시다.
만약, 우리가 50평인 집의 가격을 알고 싶으면 이 선에서 찾으면 됩니다. 이 선에 의하면, 50평인 집은 약 20억원이라고 할 수 있습니다. 그리고 30평인 집은 약 10억 5천만원이라고 할 수 있는 것입니다.
2. 변수
선형 회귀에서 우리는 어떤 정보(집 크기)를 갖고, 어떤 답(집 가격)을 예측하려고 하는 것입니다. 우리가 맞추려고 하는 값을 '목표 변수(target variable 또는 output variable)'이라고 하고 간단히 '아웃풋'이라고 합니다.
그리고 그 목표 변수를 맞추기 위해서 사용하는 값을 '입력 변수(input variable)'이라고 하고 편하게 '인풋'이라고 합니다. 좀 더 일반적으로는 'feature'이라고 합니다.
예를 들어, 집의 크기를 가지고 가격을 예측하려고 하면 집 크기가 입력 변수, 집 가격이 목표 변수 입니다.
3. 데이터 표현법
우리가 프로그램을 학습시키기 위해 사용하는 데이터를 '학습 데이터'라고 합니다. 학습 데이터의 개수를 보통 m이라는 문자로 표현합니다. 예를 들어, m이 50이면 우리가 50개의 집 데이터를 갖고 프로그램을 학습시킨다고 할 수 있습니다.
입력 변수는 x라는 문자로 표현하고, 목표 변수는 y라는 문자로 표현합니다. 첫 번째 데이터는 1, 그 다음 데이터는 2, 이런식으로 하나씩 커지게 됩니다.
1번 데이터의 입력 변수는 x위에 괄호를 쓰고, 괄호 안에 1을 써서 표현합니다. 그리고 1번 데이터의 목표 변수는 y위에 괄호를 쓰고, 괄호 안에 1을 써서 표현합니다.
x위에 괄호 4를 쓰면 이건 4번 데이터의 입력변수니까 60평을 나타내는 것이고 y위에 괄호 5을 쓰면 5번 데이터의 목표 변수이니까 12억원을 나타내는 것입니다.
'코딩공부 > Machine Learning' 카테고리의 다른 글
(Machine Learning) 평균 제곱 오차 (MSE) (0) | 2023.07.10 |
---|---|
(Machine Learning) 선형 회귀 가설 함수 (0) | 2023.07.10 |
(Machine Learning) 다변수 함수의 미분, 편미분 (0) | 2023.07.06 |
(Machine Learning) 극소점, 극대점, 안장점 (0) | 2023.07.06 |
(Machine Learning) numpy로 전치행렬, 단위행렬, 역행렬 구하기 (0) | 2023.07.06 |