일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 머신러닝
- 선형회귀
- matplotlib
- 데이터분석
- HTML
- 코딩공부
- SQL
- 코드잇
- CSS
- numpy
- 로지스틱회귀
- 코드잇TIL
- sql연습문제
- 런던
- 코딩독학
- Seaborn
- 결정트리
- 윈도우함수
- 경사하강법
- 코드잇 TIL
- 영국석사
- 파이썬
- 다항회귀
- 오늘도코드잇
- 나혼자코딩
- 행렬
- 판다스
- 유학생
- for반복문
- 코딩
- Today
- Total
목록2024/05 (54)
영국 척척석사 유학생 일기장👩🏻🎓
지난 글에서 설명드린 여러 가지 Window 함수 중 PARTITION BY, OVER에 대해 자세히 알아보겠습니다. 🔻(참고)Window 함수 종류🔻 (SQL) 윈도우 함수 (Window Fuction) 개념 및 종류이번 글에서는 다음 두 가지 경우에서 유용한 함수인 윈도우 함수에 대해 알아보겠습니다.1) 데이터의 행 또는 레코드에 대한 추세 또는 변화를 측정하려는 경우2) 활동 또는 우선순위에 대해 열life-of-nomad.tistory.com 1. PARTITION BY를 사용하는 경우PARTITION BY는 OVER 절의 하위 절입니다.OVER 구문은 윈도우 함수를 적용할 함수의 바로 뒤, PARTITION BY의 앞에 나옵니다.윈도우 함수는 데이터베이스 전체의 변화 양상을 추적하거나 모든 ..
이번 글에서는 다음 두 가지 경우에서 유용한 함수인 윈도우 함수에 대해 알아보겠습니다.1) 데이터의 행 또는 레코드에 대한 추세 또는 변화를 측정하려는 경우2) 활동 또는 우선순위에 대해 열의 순위를 지정하려는 경우 1. Window 함수Window 함수는 현재 행과 어떤 식으로든 관련이 있는 테이블의 행 집합에 대한 계산입니다.현재 행을 통합하는 누계 계산 현재 행을 포함하여 행 전체에서 레코드 순위 지정Window 함수는 group by 절과 결합된 집계 함수와 유사하지만 중요한 차이점이 있습니다.Window 함수는 입력 테이블과 출력 테이블 사이의 총 행의 수를 유지합니다.만약 원래의 데이터세트가 10개의 행으로 구성된다면 윈도우 함수의 출력도 마찬가지로 10개의 행으로 구성되며 각 행에서는 누적 ..
1. COALESCE 함수목록에서 null이 아닌 첫 번째 값을 반환합니다. 구문은 아래와 같이 COALESCE를 쓰고 이후에 원하는 인수를 얼마든지 추가할 수 있습니다.대표적으로 사용되는 경우는 단 하나의 열에만 null이 아닌 값이 존재하는 여러 개의 열을 비교할 때 입니다.아래의 예시 처럼 세 가지의 급여 지급 조건을 사용해서 전체 급여 필드를 계산해야 한다고 가정해봅시다.위의 표에서 세가지 방법으로 급여가 지급되고 있습니다.첫 번째는 시급, 두 번째는 월급, 세 번째는 매출입니다.직원별로 단 하나의 열에만 null이 아닌 값이 존재하기 때문에 COALESCE 함수를 사용하기 좋습니다.COALESCE 함수 안에는 세 개의 서로 다른 인수가 존재합니다. hourly_wage*40*52, salary*..
지난 글에서 알아본 LEFT, RIGHT, SUBSTR 함수에 이어 같이 쓰면 편리한 POSITION, STRPOS 함수에 대해 알아보겠습니다. 🔻(참고)LEFT, RIGHT, SUBSTR함수🔻 (SQL) LEFT, RIGHT, SUBSTR 함수 및 연습문제1. LEFT, RIGHTLEFT : 왼쪽에서부터 지정된 개수의 문자를 추출하는 함수RIGHT : 오른쪽에서부터 지정된 개수의 문자를 추출하는 함수하나의 열에 너무 많은 정보가 섞여있을때 사용됩니다.즉, 필요한life-of-nomad.tistory.com 1. POSITION문자 열에서 특정 문자열이 처음 나타나는 위치를 반환하는 함수입니다.추출하려는 문자열을 지정한 다음 IN을 붙이고 그 뒤에 문자열 이름, 열 이름 또는 원하는 정보를 추출해낼 ..
지난 글에서 CONCAT 함수에 대해 알아보았습니다.이번 글에서는 특정 값을 다른 데이터 유형으로 변환하는 CAST 함수에 대해 알아보겠습니다. 1. CAST 함수CAST 는 미가공 데이터가 문자열 유형으로 지정되어 있을 때 각 데이터의 성격을 살펴서 문자열을 적절한 유형으로 변환해아 하는 상황에서 사용합니다. CAST 는 두 개의 인수를 갖습니다. 첫 번째 인수는 변환할 열의 이름 이며 AS 뒤에는 변형할 데이터 유형이 입력됩니다.예시를 들어보겠습니다.학생 정보로 구성된 테이블에서 salary를 숫자형 데이터로 변환함으로써 학생 데이터베이스 전반에 걸쳐 MIN, MAX, AVG 등의 계산을 수행할 수 있도록 만들고자 합니다. 문자열 데이터로는 이러한 계산이 불가능하므로 해당 정보를 숫자형이나 정수형으로..
이변량 데이터의 관계를 탐색할 때는 다양한 조합의 이변량 데이터를 살펴볼 수 있습니다. 이때, 서로 다른 조합을 하나씩 살펴볼 수 도 있지만 다변량 차트가 아니라도 다양한 이변량 데이터의 조합을 동시에 살펴 볼 수 있는 기법인 차트 행렬 입니다. 이번 글에서는 차트 행렬에 대해 알아보겠습니다. 1. 차트 행렬 : 차트를 성분으로 갖는 행렬각 subplot이 데이터의 부분 집합에 기반하는 면 분할(Faceting) 차트와는 달리 차트 행렬의 각 subplot은 전체 데이터에 기반 하지만 각 축에 두 개의 서로 다른 변수를 나타냅니다. 각 행과 열은 하나의 변수에 대응합니다. 차트 행렬을 보면 두 변수 사이에 존재하는 관계를 한눈에 확인할 수 있습니다. 이때 각 subplot의 크기는 작은 편이므로 차트 ..
이번 글에서는 이변량 차트의 응용 방법에 대해 알아보겠습니다. 1. 차급과 변속기 종류에 따른 다변량 연비 차트먼저 필요한 라이브러리를 불러오고 연비 데이터 세트를 가져오고 변속기 종류를 추출하겠습니다.import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsdf = pd.read_csv('../data/fuel-econ/csv')df['trans_type'] = df['trans'].apply(lambda x:x.split()[0])seaborn 차트에 색상을 추가할 때는 매개변수 hue를 추가하면 됩니다. sns.pointplot(data=df, x='VClass', y='comb', hue='tr..
지난 글에서 seaborn으로 히스토그램으로 패싯팅(면 분할, Faceting)하는 방법에 대해 알아보았습니다.이번 글에서는 다변량 데이터에서 두 가지 방향으로 패싯팅하는 방법에 대해 알아보겠습니다.두가지 방향으로 면 분할을 하고 각 면에 이변량 차트를 나타내면 다변량 자료를 만들 수 있습니다. 🔻(참고)Faceitng🔻 (데이터분석) seaborn으로 히스토그램 faceting(면 분할) 하기두 개 이상의 변수를 나타내는 차트를 다룰 때 일반적으로 사용되는 시각화 기법중 하나인 면 분할(Faceting)에 대해 알아보겠습니다. 🔻(참고자료) 바이올린 플롯🔻 (데이터분석) seaborn으로 Viollife-of-nomad.tistory.com 1. 차급에 따른 연비의 산점도 먼저, 필요한 라이브..
지난 글에서 LEFT, RIGHT, SUBSTR 함수를 이용해서 문자열을 분리하는 방법에 대해 알아보았습니다. 이번 글에서는 두 개 이상의 표현식을 연결하는 CONCAT 함수에 대해 알아보고 이를 활용하여 문제를 풀어보겠습니다. 🔻(참고)LEFT,RIGHT,SUBSTR🔻 (SQL) LEFT, RIGHT, SUBSTR 함수 및 연습문제1. LEFT, RIGHTLEFT : 왼쪽에서부터 지정된 개수의 문자를 추출하는 함수RIGHT : 오른쪽에서부터 지정된 개수의 문자를 추출하는 함수하나의 열에 너무 많은 정보가 섞여있을때 사용됩니다.즉, 필요한life-of-nomad.tistory.com 1. CONCAT CONCAT은 고유 식별자를 만들어야 하는데 고유 식별자가 여러 열에 걸쳐서 쪼개져 있는 상황에서 자..
지난 글에서 이변량 변수를 나타낼 때 자주 쓰이는 산점도에 대해 알아보았습니다. 이번 글에서는 세개 이상의 변수를 나타낼 때 쓰는 방법에 대해 알아보겠습니다. 🔻(참고)산점도(scatterplot)🔻 (데이터분석) 산점도(scatterplots) 개념 및 matplotlib, seaborn으로 그리기두 숫자 변수 사이에 존재하는 관계를 조사할 때 대표적으로 활용하는 차트는 산점도입니다.이번 글에서는 산점도와 matplotlib으로 그리는 방법에 대해 알아보겠습니다. 1. 산점도산점도에서life-of-nomad.tistory.com 1. 세 개의 변수세 개의 변수를 차트에 나타내는 경우는 크게 네 가지가 존재합니다.세 개의 숫자 변수두 개의 숫자 변수와 한 개의 범주형 변수한 개의 숫자 변수와 두 ..