일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 |
- 오늘도코드잇
- 코드잇TIL
- sql연습문제
- 코딩공부
- 윈도우함수
- 나혼자코딩
- 서브쿼리
- 코딩
- CSS
- 행렬
- for반복문
- pandas
- Seaborn
- 메소드
- 결정트리
- 데이터분석
- matplotlib
- 파이썬
- 경사하강법
- 판다스
- 다항회귀
- 선형회귀
- 코딩독학
- 코드잇
- 코드잇 TIL
- 머신러닝
- SQL
- 로지스틱회귀
- numpy
- HTML
- Today
- Total
목록전체 글 (179)
Coding Diary.
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/cmyR7Y/btsHEPiSGi8/xmRdHmm312jDDPlJkJmlv1/img.png)
지난 글에서 seaborn으로 히스토그램으로 패싯팅(면 분할, Faceting)하는 방법에 대해 알아보았습니다.이번 글에서는 다변량 데이터에서 두 가지 방향으로 패싯팅하는 방법에 대해 알아보겠습니다.두가지 방향으로 면 분할을 하고 각 면에 이변량 차트를 나타내면 다변량 자료를 만들 수 있습니다. 🔻(참고)Faceitng🔻 (데이터분석) seaborn으로 히스토그램 faceting(면 분할) 하기두 개 이상의 변수를 나타내는 차트를 다룰 때 일반적으로 사용되는 시각화 기법중 하나인 면 분할(Faceting)에 대해 알아보겠습니다. 🔻(참고자료) 바이올린 플롯🔻 (데이터분석) seaborn으로 Viollife-of-nomad.tistory.com 1. 차급에 따른 연비의 산점도 먼저, 필요한 라이브..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bkhGO7/btsHEmgpTdx/kxhK0ekhLNMME0qg3fX0aK/img.png)
지난 글에서 LEFT, RIGHT, SUBSTR 함수를 이용해서 문자열을 분리하는 방법에 대해 알아보았습니다. 이번 글에서는 두 개 이상의 표현식을 연결하는 CONCAT 함수에 대해 알아보고 이를 활용하여 문제를 풀어보겠습니다. 🔻(참고)LEFT,RIGHT,SUBSTR🔻 (SQL) LEFT, RIGHT, SUBSTR 함수 및 연습문제1. LEFT, RIGHTLEFT : 왼쪽에서부터 지정된 개수의 문자를 추출하는 함수RIGHT : 오른쪽에서부터 지정된 개수의 문자를 추출하는 함수하나의 열에 너무 많은 정보가 섞여있을때 사용됩니다.즉, 필요한life-of-nomad.tistory.com 1. CONCAT CONCAT은 고유 식별자를 만들어야 하는데 고유 식별자가 여러 열에 걸쳐서 쪼개져 있는 상황에서 자..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/eoEh3k/btsHDcZILfH/dDrsK57ebKCJSKQLk1ZSek/img.png)
지난 글에서 이변량 변수를 나타낼 때 자주 쓰이는 산점도에 대해 알아보았습니다. 이번 글에서는 세개 이상의 변수를 나타낼 때 쓰는 방법에 대해 알아보겠습니다. 🔻(참고)산점도(scatterplot)🔻 (데이터분석) 산점도(scatterplots) 개념 및 matplotlib, seaborn으로 그리기두 숫자 변수 사이에 존재하는 관계를 조사할 때 대표적으로 활용하는 차트는 산점도입니다.이번 글에서는 산점도와 matplotlib으로 그리는 방법에 대해 알아보겠습니다. 1. 산점도산점도에서life-of-nomad.tistory.com 1. 세 개의 변수세 개의 변수를 차트에 나타내는 경우는 크게 네 가지가 존재합니다.세 개의 숫자 변수두 개의 숫자 변수와 한 개의 범주형 변수한 개의 숫자 변수와 두 ..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/AfEbU/btsHExuOowi/PabkVuaPMWCE9eVjabmtV1/img.png)
1. 선도표선도표는 하나의 숫자 변수가 두 번째 변수에 따라서 변화하는 동향을 나타내기 위해 자주 사용되는 차트입니다.모든 데이터 포인터가 표시되는 산점도와 달리 선도표는 모든 고유의 x값 혹은 x의 계급에 대해 오직 하나의 점만 차트에 표시됩니다. x의 계급에 여러 개의 관찰값이 존재할 때는 해당 계급 내 데이터의 평균이나 중앙값과 같은 요약 통계를 y축 값으로 차트에 표시합니다.x변수가 시간을 나타낼 때는 해당 데이터를 나타낸 선도표를 시계열 차트라고 부릅니다. ex) 주가나 환율을 나타내는 차트는 각 시점에 오직 하나의 관찰값만 표시됩니다. 선도표는 Matplotlib으로 나타낼 수 있습니다. 2. matplolib으로 나타내기점 사이 선을 표시하는 matplotlib의 error bar 함수를 ..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/AjZc1/btsHCqckGHd/K7RtON75Fz39dL8RoDKKR0/img.png)
두 개 이상의 변수를 나타내는 차트를 다룰 때 일반적으로 사용되는 시각화 기법중 하나인 면 분할(Faceting)에 대해 알아보겠습니다. 🔻(참고자료) 바이올린 플롯🔻 (데이터분석) seaborn으로 Violin plot(바이올린 플롯) 나타내기🔻(지난글) 지터형 산점도🔻 (데이터분석) seaborn의 투명도, 지터링으로 산점도 과다중첩 해결하기차트에 과도하게 많은 점이 존재하거나 주어진 숫자 변수가 불연속적일 경우, 주어진 그대로life-of-nomad.tistory.com 🔻(참고자료) 상자 그림🔻 (데이터분석) seaborn으로 상자 그림(box plot) 나타내기지난 글에서 숫자 데이터와 범주형 데이터 사이의 관계를 표현할 수 있는 바이올린 플롯에 대해 알아보았습니다.이번 글에서는 숫자..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/TFA76/btsHCAZSqpC/V8IOvMQ2keuGhi29XD8RW0/img.png)
단변량 막대 그래프 그리는 방법에 이어 병렬 막대 그래프 그리는 방법에 대해 알아보겠습니다. 🔻(지난글) 단변량 막대그래프🔻 (데이터분석) 불연속 데이터에서의 히스토그램, 막대그래프 나타내기지난 글에 이어 이번에는 불연속 데이터의히스토그램, 막대그래프를 나타내는방법에 대해 알아보겠습니다. 🔻막대그래프🔻 (데이터분석) seaborn과 matplotlib으로 막대그래프 작성하기1. Seabornlife-of-nomad.tistory.com 1. 병렬 막대 그래프병력 막대 그래프를 사용하면 두 개의 정성적 변수 간의 관계를 나타낼 수 있습니다. 하지만 이를 위해서는 두 번째 변수를 가공하여 y축을 따라 정량적 값으로 표시되게 해야 합니다.단변량 막대 그래프와 마찬가지로 그룹별 데이터 포인트의 개수를 나..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bch8ir/btsHBM1aroF/J5KsETskNha0y6scceUtb1/img.png)
지난 글에서 숫자 데이터와 범주형 데이터 사이의 관계를 표현할 수 있는 바이올린 플롯에 대해 알아보았습니다.이번 글에서는 숫자 데이터와 범주형 데이터 사이의 관계를 나타내는 또 다른 방법인 상자 그림에 대해 알아보겠습니다 . 🔻(지난글)바이올린 플롯🔻 (데이터분석) seaborn으로 Violin plot(바이올린 플롯) 나타내기🔻(지난글) 지터형 산점도🔻 (데이터분석) seaborn의 투명도, 지터링으로 산점도 과다중첩 해결하기차트에 과도하게 많은 점이 존재하거나 주어진 숫자 변수가 불연속적일 경우, 주어진 그대로life-of-nomad.tistory.com 1. 상자 그림(box plot)상자 그림은 평균, 중앙값, 사분위수 같은 주요 요약 통계를 간결하게 나타냅니다.중앙선 : 중앙값상자의 위쪽..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/ut82g/btsHCblQi45/05zJf1BgV2KDiX6Pv10qA1/img.png)
🔻(지난글) 지터형 산점도🔻 (데이터분석) seaborn의 투명도, 지터링으로 산점도 과다중첩 해결하기차트에 과도하게 많은 점이 존재하거나 주어진 숫자 변수가 불연속적일 경우, 주어진 그대로 산점도를 그려서 정보를 확인하기 어려울 수 있습니다. 차트 상에서 너무 많은 데이터 포인트가 겹life-of-nomad.tistory.com 지난 글에서 지터형 산점도에 비해 알아보았습니다. 이번 글에서는 지터형 산점도에 비교하여 분포를 비교하기가 더 쉬운 바이올린 플롯에 대해 알아보겠습니다.아래 그림과 같이 뚜렷한 곡선로 표현하면 변수가 범주형이어서 비교하기가 더 쉽습니다.1. Violin plot (바이올린 플롯)바이올린 플롯은 정량적 변수와 정성적 변수 간의 관계를 나타낼 떄 보편적으로 사용됩니다.바이올린 ..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/kPcPn/btsHD7ozHgH/DKXDLRJ0lEQKPeK4ZgWBKK/img.png)
1. 히트맵히트맵은 일종의 이차원 히스토그램으로 산점도를 대체할 수 있는 차트입니다.두 숫자 변수의 값들이 두 개의 축을 기준으로 평면에 표시된다는 점에서 산점도와 유사합니다.한편, 데이터 포인트가 표시되는 영역은 격자 모양으로 분할되며, 각각의 격자 셀에는 그 안에 존재하는 점의 개수가 표시된다느 ㄴ점에서 히스토그램과 유사합니다.하지만, 히트맵에는 막대의 높이를 표현할 공간이 없으며 격자 셀의 색상을 통해 그 안에 존재하는 점의 개수를 나타냅니다.히트맵은 matplotlib의 hist2d() 함수를 사용해 작성할 수 있습니다.히트맵을 사용하는 경우는 아래의 두 가지입니다.1) 두 가지 불연속 변수를 나타내는 차트를 작성할 때2) 대량의 데이터 포인트가 존재할 때 투명도 대신 사용 2. 예시1) Matp..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/CpUoW/btsHDfnhWpY/JZr5OevKdpOZKLxByWAwfK/img.png)
차트에 과도하게 많은 점이 존재하거나 주어진 숫자 변수가 불연속적일 경우, 주어진 그대로 산점도를 그려서 정보를 확인하기 어려울 수 있습니다. 차트 상에서 너무 많은 데이터 포인트가 겹치면서 과다 중첩(Overplotting)되어 변수들 간의 관계를 파악하기 어려워지기 때문입니다. 지난 글에 이어 산점도에서 과다 중첩을 해결하는 방법에 대해 알아보겠습니다. 🔻(지난 글) 산점도 그리기🔻 (데이터분석) 산점도(scatterplots) 개념 및 matplotlib, seaborn으로 그리기두 숫자 변수 사이에 존재하는 관계를 조사할 때 대표적으로 활용하는 차트는 산점도입니다.이번 글에서는 산점도와 matplotlib으로 그리는 방법에 대해 알아보겠습니다. 1. 산점도산점도에서life-of-nomad...
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/wsZjh/btsHCokJz3b/MOJLRgcGUkj42oreVZEWxK/img.png)
두 숫자 변수 사이에 존재하는 관계를 조사할 때 대표적으로 활용하는 차트는 산점도입니다.이번 글에서는 산점도와 matplotlib으로 그리는 방법에 대해 알아보겠습니다. 1. 산점도산점도에서 각 데이터 포인트는 하나의 점으로 표현되며, x축과 y축에서의 위치는 각각 서로 다른 변수에 따라 결정됩니다.산점도는 두 개의 정량적 변수 간에 존재하는 관계를 나타낼 때 사용합니다.이 때 두 변수는 각각 x축과 y축을 통해 표시됩니다.산점도를 작성하면 두 변수 사이에 존재하는 상관관계를 분명하게 확인할 수 있습니다. 2. 상관관계두 변수 사이에 존재하는 상관관계의 강도는 상관계수로 나타냅니다. 피어슨 상관관계 (Pearson correlation coefficient) : 선형적인 관계를 반영하며 그 값은 최소 ..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/NuoAb/btsHBDin316/BZNu6ma3NGBKUGWzl70Fik/img.png)
1. LEFT, RIGHTLEFT : 왼쪽에서부터 지정된 개수의 문자를 추출하는 함수RIGHT : 오른쪽에서부터 지정된 개수의 문자를 추출하는 함수하나의 열에 너무 많은 정보가 섞여있을때 사용됩니다.즉, 필요한 정보가 해당 열에서 왼쪽이나 오른쪽에 존재할 때 사용됩니다.첫번째 인수 : 분리할 열 그 자체 두번째 인수 : 해당 문자열로부터 추출하려는 문자의 개수 예시 : 학생들의 행동을 분석하기 위해 학생 ID와 급여 정보 추출하기student_information3839581, F, san francisco, 3.7, 1000002842940, M, chicago, 3.8, 1500002842940, F, new york city, 3.9, 2000002849201, M, boston, 3.5, 1250..