일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- matplotlib
- numpy
- 윈도우함수
- HTML
- 다항회귀
- 경사하강법
- 오늘도코드잇
- 로지스틱회귀
- 코드잇 TIL
- CSS
- SQL
- 파이썬
- 코드잇
- 코드잇TIL
- 런던
- 영국석사
- Seaborn
- 코딩
- 머신러닝
- 행렬
- 나혼자코딩
- 선형회귀
- for반복문
- 코딩공부
- 데이터분석
- sql연습문제
- 결정트리
- 유학생
- 판다스
- 코딩독학
- Today
- Total
목록머신러닝 (39)
영국 척척석사 유학생 일기장👩🏻🎓

1. 다중 선형 회귀 경사 하강법 다중 선형 회귀에서도 선형 회귀와 마찬가지로 손실 함수가 아래와 같이 생겼습니다. 다중 선형 회귀에서는 입력 변수가 여러 개라서 가설 함수가 살짝 달라지지만, 손실 함수는 완전히 똑같습니다. 손실을 줄이기 위해서는 경사 하강법을 해야 하는데, 입력 변수가 하나일때와 차이가 있습니다. 입력 변수가 하나일때는 theta_0과 theta_1만 업데이트 하면 됩니다. 입력 변수가 하나일때는 위와 같이 하면 되는데, 입력 변수가 여러 개면 세타 값도 여러개입니다. 그러면 업데이트 할 세타 값디 많아지는 것 뿐입니다. 입력 변수가 n개 있다고 하면 theta_0 부터 theta_n까지 쭉 업데이트를 해야 경사 하강을 한 번 했다고 할 수 있습니다. 이렇게 나열된 식을 하나로 표현하..

1. 다중 선형 회귀 다중 선형 회귀는 선형 회귀를 하나의 입력 변수가 아니라 여러 개의 입력 변수를 사용해서 목표 변수를 예측하는 알고리즘입니다. 이러한 학습 데이터가 있다고 하면 집 크기, 방 수, 건물 나이, 지하철 거리 등 이런 정보를 선형 회귀를 이용해서 집 값을 예측하려고 하는 것입니다. 2. 입력 변수와 목표 변수 선형 회귀에서는 입력 변수가 하나 있었고, 목표 변수가 하나 있었습니다. 입력 변수는 x라는 문자로 나타냈고, 목표 변수는 y라는 문자로 나타냈습니다. 그런데 다중 선형 회귀에서는 입력 변수가 여러 개 있습니다. 위의 표에서 집 크기, 방 수, 건물 나이, 지하철 거리 이렇게 입력 변수가 4개 있습니다. 입력 변수를 다른 말로는 '속성(feature)'라고도 합니다. 첫 번째 입력..

가설 함수는 세상에 일어나는 상황을 수학적으로 표현한다는 의미에서 '모델'이라고 부릅니다. 1. 모델의 평가 선형 회귀 모델을 학습시켜서, 나름 최적선이라고 생각하는 아래와 같은 가설 함수가 나왔다고 가정해봅시다. 그런데 모델을 학습시키고 나서는 이 모델이 얼마나 좋은지 평가를 해야 합니다. 이 모델이 결과를 얼마나 정확히 예측하는지를 평가해야한다는 것입니다. 2. RMSE 이때 많이 쓰는 게 '평균 제곱근 오차' 영어로는 'root mean square error' 줄여서 'RMSE'라고 합니다. 평균 제곱 오차에 루트를 한 것입니다. 루트를 하는 이유는 만약 우리가 집 가격을 예측한다고 하면, 목표 변수의 단위는 '원'입니다. 그런데 오차 제곱을 하면 단위가 '원 제곱'이 됩니다. 따라서 마지막에 루..

경사 하강법을 하기 위해서는 두 변수 theta_0, theta_1을 아래와 같이 계속 업데이트 하면 된다고 이전 글에서 설명하였습니다. 이때 학습률 알파a는 경사를 내려갈때마다 얼마나 많이 그 방향으로 갈 건지를 결정하는 변수입니다. 이번 글에서 학습률 알파를 잘 못 고를 때 생기는 문제점에 대해서 알아보겠습니다. 이해를 쉽게 하기 위해 손실함수 J가 하나의 변수, thata로만 이루어졌다고 가정해보겠습니다. 1. 학습률 a가 너무 큰 경우 알파가 크면 클수록 경사 하강을 한 번을 할 때마다 thata의 값이 많이 바뀝니다. 그럼 아래와 같이 왼쪽과 오른쪽으로 성큼성큼 왔다갔다 하면서 진행이 됩니다. 심지어 a가 너무 크면 경사 하강법을 진행할수록 손실 함수 J의 최소점에서 멀어질 수도 있습니다. 2...

1. 선형 회귀 경사 하강법 앞에 글에서 손실함수 J의 최소점을 찾을 때까지 위 식을 반복하면 되었습니다. 이 식을 직접 구현하기 위해 error을 다음과 같이 정의하겠습니다. 벡터 x의 평균을 u_x로 나타내면 라고 표현할 수 있다고 이 전 글에서 설명하였습니다. 밑의 공식을 바탕으로 구현해보겠습니다. 2. gradient_descent 함수 함수 gradient_descent는 실제 경사 하강법을 구현하는 함수입니다. 파라미터로는 임의의 값을 갖는 파라미터들 theta_0, theta_1, 입력 변수 x, 목표 변수 y, 경사 하강법을 몇 번을 하는지를 나타내는 변수 iterations, 학습률 alpha를 갖습니다. 처음에 gradient_descent 함수에 넘겨주는 theta_0, theta_1..

경사 하강법을 이용하여 업데이트 하는 방법에 대해 알아보겠습니다. 세타제로와 세타원을 업데이트 하는 방법은 다음과 같습니다. 1. 세타0 업데이트 편미분을 하는 부분을 살펴봅시다. 여기 손실 함수 J가 있는데, 선형 회귀에서 우리의 손실 함수 J는 아래와 같습니다. 편미분 식에 대입하면 아래와 같습니다. 여기에 가설 함수 h는 다음과 같습니다. 이것을 위식에 대입하면 이걸 이제 세타0에 대해 편미분하면 아래와 같습니다. 가설 함수 h로 다시 돌려줍니다. 결국 편미분은 아래와 같이 나오는데 이걸 세타0을 업데이트 하는 기존 공식에 대입하면 됩니다. 2. 세타1 업데이트 세타1을 업데이트 하는 공식을 살펴봅시다. 편미분 하는 부분을 집중적으로 알아봅시다. 편미분 식에 손실 함수 J를 대입하면 아래와 같습니다..

1. 손실 함수 손실 함수는 어떤 가설 함수를 평가하기 위한 함수입니다. 손실 함수의 아웃풋이 작을수록 가설 함수의 손실이 적기 때문에 더 좋은 가설 함수라고 할 수 있고, 반대로 손실 함수의 아웃풋이 클수록 가설 함수의 손실이 크므로 더 나쁜 가설 함수라고 할 수 있습니다. 손실 함수는 보통 J라는 문자를 쓰고 선형 회귀의 경우는 평균 제곱 오차가 손실 함수의 아웃풋 입니다. 특정 가설 함수의 평균 제곱 오차가 크면 이 손실 함수의 아웃풋이 큰 것이고 손실이 크기 때문에 안 좋은 가설 함수라는 것입니다. 반대로 가설 함수의 평균 제곱 오차가 작으면 이 손실 함수의 아웃풋이 작다는 것이고 손실이 적기 때문에 좋은 가설 함수인 것입니다. 원래 이 부분이 m분의 1 이었는데 여기세 2가 붙어서 2m분의 1로..

1. 좋은 가설 함수 찾기 가설 함수는 아래와 같은 형태로 생겼습니다. 최대한 단순하게 예시를 들기 위해 입력 변수가 딱 하나 있다고 가정해 봅시다. 집 크기를 가지고 집 값을 예측하려고 하면, 입력 변수 x가 집 크기입니다. 아래와 같은 데이터들이 주어졌다고 가정해봅시다. 여기에 딱 맞는 가설 함수를 찾아봅시다. 이렇게 세 개의 가설 함수가 있는데, 어떤 함수가 이 데이터셋에 가장 적합할까요? 눈으로 보면 주황색과 보라색 보다는 분홍색이 제일 잘 맞는 것 같은데 어떤 기준을 두고 비교하는게 좋을까요? 2. 평균 제곱 오차 선형 회귀에서 가장 많이 쓰는 가설 함수가 얼마나 좋은지 평가하는 방법은 평균 제곱 오차(mean squared error) 입니다. 앞 글자만 따서 MSE라고도 합니다. 이 평균 제..

1. 가설 함수 우리가 선형 회귀에서 하려는 것은 데이터가 있을 때, 이 데이터들에 가장 잘 맞는 최적선을 찾아내는 것입니다. 우리는 이 최적선을 이용해서 새로운 입력 변수에 대한 목표 변수를 예측할 수 있습니다 . 우리는 최적선을 찾아내기 위해 다양한 함수를 시도해봐야 합니다. 우리가 시도하는 이 함수 하나하나를 '가설 함수(hypothesis function)'이라고 부릅니다. 일단 우리가 찾으려는 선은 어떤 곡선이 아니라 직선입니다. 직선이라는 것은 일차 함수라는 것이고 y=ax+b의 형태로 나타나게 됩니다. 결국 선형 회귀의 임무는 계수 a랑 상수 b를 찾아내는 것입니다. 2. 가설 함수 표현법 문제를 단순화하기 위해서 입력 변수가 하나라고 가정을 합니다. 하지만 집 가격을 예측하는데 집의 크기 ..

1. 선형 회귀 (Linear Regresison) 선형 회귀는 데이터를 가장 잘 대변해 주는 선을 찾아내는 것 입니다. 이 데이터에 가장 잘 맞는 가장 적절한 하나의 선을 찾아내는 것입니다. 통계학에서는 이 선을 최적선 (line of best fit) 이라고 합니다. 데이터에 잘 맞는 최적선을 찾았다고 가정해봅시다. 만약, 우리가 50평인 집의 가격을 알고 싶으면 이 선에서 찾으면 됩니다. 이 선에 의하면, 50평인 집은 약 20억원이라고 할 수 있습니다. 그리고 30평인 집은 약 10억 5천만원이라고 할 수 있는 것입니다. 2. 변수 선형 회귀에서 우리는 어떤 정보(집 크기)를 갖고, 어떤 답(집 가격)을 예측하려고 하는 것입니다. 우리가 맞추려고 하는 값을 '목표 변수(target variable..