일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 행렬
- 판다스
- 코딩공부
- 윈도우함수
- 결정트리
- 런던
- 다항회귀
- 유학생
- 오늘도코드잇
- 머신러닝
- 코드잇TIL
- HTML
- 코딩독학
- 코드잇
- sql연습문제
- 영국석사
- 코딩
- SQL
- 로지스틱회귀
- matplotlib
- numpy
- 코드잇 TIL
- 선형회귀
- 데이터분석
- CSS
- for반복문
- 나혼자코딩
- Seaborn
- 경사하강법
- 파이썬
- Today
- Total
목록코딩공부 (179)
영국 척척석사 유학생 일기장👩🏻🎓
1. numpy로 행렬 사용하기 먼저, numpy를 불러옵니다. array(행렬)을 이용하여 리스트를 불러줍니다. 행렬을 만들고 싶으면 2차원 배열을 만들어 줍니다. 2차원 배열이라는 것은 리스트 안에 리스트가 있다는 뜻입니다. 4x3 행렬을 만들어 보겠습니다. 위와 같이 입력하면 아래와 같은 행렬이 만들어집니다. 그럼, 3x2행렬을 만들어 볼까요? 2. 행렬에 랜덤한 값 넣기 그럼 3x5 행렬에 랜덤한 값을 넣어보겠습니다. 아래와 같이 랜덤한 값들이 행렬로 나옵니다. 3. 모든 원소의 값이 0인 행렬 모든 원소의 값이 0인 행렬은 zeros를 입력하면 됩니다. 2x4행렬을 만들어 보겠습니다. 여기서 주의할 점은 괄호를 두 번 써넣어야 한다는 점입니다. 4. i행 j열 원소 추출하기 파이썬에서는 0부터 ..
1. 선형 대수학 : 일차식(가장 높은 차수가 1인 다항식)이나 일차 함수(ex. y=3x+6)를 공부하는 학문입니다. 2. 머신러닝에 쓰이는 선형 대수학 개념 1) 행렬(Matrix) : 수를 직사각형 형태로 나열한 것 아래 행렬에서 A에는 12개의 수가 직사각형의 형태로 나열되어 있습니다. 여기서 이 하나하나를 A의 원소라고 부릅니다. 행렬의 가로줄을 행(row)라고 부릅니다. A에는 총 3개의 행이 있는데 위에서부터 1행, 2행, 3행이라고 부릅니다. 행렬의 세로줄을 열(column)이라고 부릅니다. A에는 총 4개의 열이 있는데 왼쪽에서 부터 1열, 2열, 3열, 4열이라고 부르면 됩니다. 프로그래밍을 할 때 배열이나 리스트의 인덱스를 1이 아니라 0부터 세기 때문에 헷갈릴 수 있습니다. 행렬에서..
1. 지도학습 (Supervised learning) 1) '답'이 있고 이 답을 맞추는 게 학습의 목적입니다. (지도학습과 비지도 학습의 주요 차이점) ex) 스팸 메일 분류 프로그램은 머신러닝 중 지도학습에 해당됩니다. ex) 아파트 가격 예측 프로그램도 아파트의 가격을 맞추는 것이기 때문에 지도학습입니다. 2) 지도학습은 분류와 회귀로 나뉩니다. 분류(Classfication) 회귀(Regression) ex) 스팸메일 프로그램 (스팸인지, 아닌지 분류) 결과값이 무수히 많고 연속적 ex) 아파트 가격 예측 (1억~1억20만) 3) 지도 학습을 할 때는 지도학습에 대한 답을 꼭 알려줘야 합니다. => 프로그램에게 수많은 문제와 그 문제에 대한 답을 가르쳐줍니다. (지도합니다.) 2. 비지도 학습 (..
Machine Learning 기계학습 : 기계가 학습을 통해 발전 => 경험을 통해서 스스로 업무 능력 향상 1. Program 과 Machine Learning Program 의 차이 Program Machnine Learning Program 인간이 직접 컴퓨터에게 규칙을 알려줘야 함 컴퓨터가 직접 규칙을 찾음 기계가 학습한다는 건, 프로그램이 특정 작업(T)를 하는 데 있어서 경험(E)을 통해 작업의 성능(P)을 향상시키는 것 2. 머신 러닝이 떠오르는 이유 머신러닝은 수십년 전부터 연구해 온 학문입니다. 하지만, 최근 들어 핫해진 이유는 무엇일까요? 1) 사용할 수 있는 데이터가 많아졌습니다. (위에서 언급한 경험(E)은 데이터라는 것이기 때문입니다.) 2) 컴퓨터 성능이 좋아졌습니다. : 의미..
1) Q1, Q3 구하기 데이터의 50% 지점을 의미하는 것이 중간값입니다. 이를 이용하면 Q1(데이터의 25%지점), Q3(데이터의 75%지점) 을 구할 수 있습니다. 예를 들어, 아래의 데이터에서 중간값은 86 입니다. 32, 48, 56, 78, 86, 96, 100, 120, 156 이 데이터를 중간값을 기준으로 둘로 나누었을 때, 첫번째 값부터 중간 값까지, 중간 값부터 마지막 값까지 둘로 나누었을 때, 왼쪽 묶음에서 의 중간값인 56이 25%에 해당하는 Q1값이라고 볼 수 있습니다. 반대로 오른쪽 묶음에 있는 중간값 100은 75% 지점, 즉 Q3이 됩니다. 하지만, 아래와 같이 Q1, Q2, Q3의 위치를 딱 정할 수 없는 경우도 있습니다. 데이터의 개수가 짝수일 때 중간값(Q2)를 구하려면..
이름으로 인덱싱하기 기본 형태 단축 형태 하나의 row 이름 df.loc["row4"] row 이름의 리스트 df.loc[["row4", "row5", "row3"]] row 이름의 리스트 슬라이싱 df.loc["row2":"row5"] df.["row2":"row5"] 하나의 column 이름 df.loc[:, "col1"] df["col1"] column 이름의 리스트 df.loc[:, ["col4", "col6", "col3"] df[["col4", "col6", "col3"]] column 이름의 리스트 슬라이싱 df.loc[:, "col2":"col5"] 위치로 인덱싱하기 기본 형태 단축 형태 하나의 row 위치 df.iloc[8] row 위치의 리스트 df.iloc[[4, 5, 3]] row ..
pandas DataFrame에는 다양한 종류의 데이터를 담을 수 있습니다. dtypes를 사용해서 각 column이 어떤 데이터 타입을 보관하는지 확인할 수 있습니다. import pandas as pd two_dimensional_list = [['dongwook', 50, 86], ['sineui', 89, 31], ['ikjoong', 68, 91], ['yoonsoo', 88, 75]] my_df = pd.DataFrame(two_dimensional_list, columns=['name', 'english_score', 'math_score'], index=['a','b','c', 'd']) print(my_df.dtypes) name object english_score int64 math_..
1. 최댓값, 최솟값 max 메소드와 min 메소드를 사용하면 numpy array의 최댓값과 최솟값을 구할 수 있습니다. import numpy as np array1 = np.array([14, 6, 13, 21, 23, 31, 9, 5]) print(array1.max()) #최댓값 print(array1.min()) # 최솟값 31 5 2. 평균값 mean 메소드를 사용하면 numpy array의 평균값을 구할 수 있습니다. import numpy as np array1 = np.array([14, 6, 13, 21, 23, 31, 9, 5]) print(array1.mean()) #평균값 15.25 위 예시에서 총 합(14+6+13+21+23+31+9+5)을 총 개수(8)로 나누면 15.25 입..
1. numpy array를 만드는 방법 1) 파이썬 리스트를 통해 생성 numpy 모듈의 array 메소드에 따라 파라미터로 파이썬 리스트를 넘겨주면 numpy array가 리턴됩니다. array1 = numpy.array([2, 3, 5, 7, 11, 13, 17, 19, 23, 29, 31]) print(array1) [2 3 4 7 11 13 17 19 23 29 31] 2) 균일한 값으로 생성 numpy 모듈의 full 메소드를 사용하면, 모든 값이 같은 nupmy array를 생성할 수 있습니다. array1 = numpy.full(6, 7) print(array1) [7 7 7 7 7 7] (1) 모든 값이 0인 numpy array 생성 모든 값이 0인 numpy array를 생성하기 위해..
데이터 사이언스의 단계 1. 문제 정의하기 2. 데이터 모으기 3. 데이터 다듬기 4. 데이터 분석하기 5. 데이터 시각화 및 커뮤니케이션 1) 문제 정의하기 해결하고자 하는 문제를 정의합니다. 이 단계에서는 해결하고자 하는 게 무엇인지, 언제까지 어떤 결과물을 얻을 것인지, 어떤 방식으로 데이터를 활용할 것인지 등을 설정합니다. => 목표 설정/ 기간 설정/ 평가 방법 설정/ 필요한 데이터 설정 2) 데이터 모으기 필요한 데이터를 모을 수 있는 방법을 찾습니다. 누군가 이미 모아 놓은 데이터를 그대로 사용할 수도 있고, 공공 기관 등에서 배포한 자료를 찾아 볼 수도 있고, 혹은 웹사이트에서 직접 데이터를 수집할 수도 있습니다. => 웹 크롤링/ 자료 모으기/ 파일 읽고 쓰기 3) 데이터 다듬기 데이터의..