일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 윈도우함수
- 오늘도코드잇
- 판다스
- 코딩독학
- 코드잇 TIL
- 다항회귀
- HTML
- CSS
- 코드잇
- 코딩
- 데이터분석
- numpy
- sql연습문제
- 파이썬
- for반복문
- SQL
- 런던
- 나혼자코딩
- Seaborn
- 머신러닝
- 유학생
- 결정트리
- 코드잇TIL
- 행렬
- 경사하강법
- 로지스틱회귀
- 영국석사
- 선형회귀
- matplotlib
- 코딩공부
- Today
- Total
목록선형회귀 (6)
영국 척척석사 유학생 일기장👩🏻🎓
머신 러닝은 지도 학습과 비지도 학습으로 나뉩니다. 그리고 지도 학습은 회귀와 분류로 나뉩니다. 회귀는 연속적인 값을 예측하는 것이고, 분류는 정해진 몇 개의 값 중에 예측하는 것입니다. 앞서 회귀에 대한 글을 올렸습니다. 이제 분류 문제를 봅시다. 예를 들어 어떤 이메일이 스팸인지 아닌지, 아니면 어떤 기사가 스포츠 기사인지 정치 기사인지 연예 기사인지 분류해 볼 것입니다. 보통 분류 문제를 풀 때는 각 결괏값에 어떤 숫자 값을 지정해 줍니다. 예를 들어 이메일이 스팸인지 아닌지 분류 한다면, 보통 이메일에는 0이라는 값을 주고 스팸 이메일에는 1이라는 값을 주는 것입니다. 이메일의 속성들을 가설 함수에 넣어서 0이 나오면 보통 이베일이고 1이 나오면 스팸 이메일이라고 할 수 있습니다. 만약 어떤 기사..
1. 다중 선형 회귀 경사 하강법 다중 선형 회귀에서도 선형 회귀와 마찬가지로 손실 함수가 아래와 같이 생겼습니다. 다중 선형 회귀에서는 입력 변수가 여러 개라서 가설 함수가 살짝 달라지지만, 손실 함수는 완전히 똑같습니다. 손실을 줄이기 위해서는 경사 하강법을 해야 하는데, 입력 변수가 하나일때와 차이가 있습니다. 입력 변수가 하나일때는 theta_0과 theta_1만 업데이트 하면 됩니다. 입력 변수가 하나일때는 위와 같이 하면 되는데, 입력 변수가 여러 개면 세타 값도 여러개입니다. 그러면 업데이트 할 세타 값디 많아지는 것 뿐입니다. 입력 변수가 n개 있다고 하면 theta_0 부터 theta_n까지 쭉 업데이트를 해야 경사 하강을 한 번 했다고 할 수 있습니다. 이렇게 나열된 식을 하나로 표현하..
1. 선형 회귀 경사 하강법 앞에 글에서 손실함수 J의 최소점을 찾을 때까지 위 식을 반복하면 되었습니다. 이 식을 직접 구현하기 위해 error을 다음과 같이 정의하겠습니다. 벡터 x의 평균을 u_x로 나타내면 라고 표현할 수 있다고 이 전 글에서 설명하였습니다. 밑의 공식을 바탕으로 구현해보겠습니다. 2. gradient_descent 함수 함수 gradient_descent는 실제 경사 하강법을 구현하는 함수입니다. 파라미터로는 임의의 값을 갖는 파라미터들 theta_0, theta_1, 입력 변수 x, 목표 변수 y, 경사 하강법을 몇 번을 하는지를 나타내는 변수 iterations, 학습률 alpha를 갖습니다. 처음에 gradient_descent 함수에 넘겨주는 theta_0, theta_1..
1. 좋은 가설 함수 찾기 가설 함수는 아래와 같은 형태로 생겼습니다. 최대한 단순하게 예시를 들기 위해 입력 변수가 딱 하나 있다고 가정해 봅시다. 집 크기를 가지고 집 값을 예측하려고 하면, 입력 변수 x가 집 크기입니다. 아래와 같은 데이터들이 주어졌다고 가정해봅시다. 여기에 딱 맞는 가설 함수를 찾아봅시다. 이렇게 세 개의 가설 함수가 있는데, 어떤 함수가 이 데이터셋에 가장 적합할까요? 눈으로 보면 주황색과 보라색 보다는 분홍색이 제일 잘 맞는 것 같은데 어떤 기준을 두고 비교하는게 좋을까요? 2. 평균 제곱 오차 선형 회귀에서 가장 많이 쓰는 가설 함수가 얼마나 좋은지 평가하는 방법은 평균 제곱 오차(mean squared error) 입니다. 앞 글자만 따서 MSE라고도 합니다. 이 평균 제..
1. 가설 함수 우리가 선형 회귀에서 하려는 것은 데이터가 있을 때, 이 데이터들에 가장 잘 맞는 최적선을 찾아내는 것입니다. 우리는 이 최적선을 이용해서 새로운 입력 변수에 대한 목표 변수를 예측할 수 있습니다 . 우리는 최적선을 찾아내기 위해 다양한 함수를 시도해봐야 합니다. 우리가 시도하는 이 함수 하나하나를 '가설 함수(hypothesis function)'이라고 부릅니다. 일단 우리가 찾으려는 선은 어떤 곡선이 아니라 직선입니다. 직선이라는 것은 일차 함수라는 것이고 y=ax+b의 형태로 나타나게 됩니다. 결국 선형 회귀의 임무는 계수 a랑 상수 b를 찾아내는 것입니다. 2. 가설 함수 표현법 문제를 단순화하기 위해서 입력 변수가 하나라고 가정을 합니다. 하지만 집 가격을 예측하는데 집의 크기 ..
1. 선형 회귀 (Linear Regresison) 선형 회귀는 데이터를 가장 잘 대변해 주는 선을 찾아내는 것 입니다. 이 데이터에 가장 잘 맞는 가장 적절한 하나의 선을 찾아내는 것입니다. 통계학에서는 이 선을 최적선 (line of best fit) 이라고 합니다. 데이터에 잘 맞는 최적선을 찾았다고 가정해봅시다. 만약, 우리가 50평인 집의 가격을 알고 싶으면 이 선에서 찾으면 됩니다. 이 선에 의하면, 50평인 집은 약 20억원이라고 할 수 있습니다. 그리고 30평인 집은 약 10억 5천만원이라고 할 수 있는 것입니다. 2. 변수 선형 회귀에서 우리는 어떤 정보(집 크기)를 갖고, 어떤 답(집 가격)을 예측하려고 하는 것입니다. 우리가 맞추려고 하는 값을 '목표 변수(target variable..