일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- HTML
- 코드잇TIL
- matplotlib
- 코딩독학
- 유학생
- 다항회귀
- 데이터분석
- 코드잇
- 선형회귀
- 영국석사
- 코딩
- Seaborn
- 머신러닝
- SQL
- 결정트리
- 윈도우함수
- 코딩공부
- 런던
- 코드잇 TIL
- numpy
- for반복문
- 판다스
- 행렬
- CSS
- 파이썬
- 오늘도코드잇
- 나혼자코딩
- 로지스틱회귀
- sql연습문제
- 경사하강법
- Today
- Total
목록데이터분석 (37)
영국 척척석사 유학생 일기장👩🏻🎓
단변량 막대 그래프 그리는 방법에 이어 병렬 막대 그래프 그리는 방법에 대해 알아보겠습니다. 🔻(지난글) 단변량 막대그래프🔻 (데이터분석) 불연속 데이터에서의 히스토그램, 막대그래프 나타내기지난 글에 이어 이번에는 불연속 데이터의히스토그램, 막대그래프를 나타내는방법에 대해 알아보겠습니다. 🔻막대그래프🔻 (데이터분석) seaborn과 matplotlib으로 막대그래프 작성하기1. Seabornlife-of-nomad.tistory.com 1. 병렬 막대 그래프병력 막대 그래프를 사용하면 두 개의 정성적 변수 간의 관계를 나타낼 수 있습니다. 하지만 이를 위해서는 두 번째 변수를 가공하여 y축을 따라 정량적 값으로 표시되게 해야 합니다.단변량 막대 그래프와 마찬가지로 그룹별 데이터 포인트의 개수를 나..
지난 글에서 숫자 데이터와 범주형 데이터 사이의 관계를 표현할 수 있는 바이올린 플롯에 대해 알아보았습니다.이번 글에서는 숫자 데이터와 범주형 데이터 사이의 관계를 나타내는 또 다른 방법인 상자 그림에 대해 알아보겠습니다 . 🔻(지난글)바이올린 플롯🔻 (데이터분석) seaborn으로 Violin plot(바이올린 플롯) 나타내기🔻(지난글) 지터형 산점도🔻 (데이터분석) seaborn의 투명도, 지터링으로 산점도 과다중첩 해결하기차트에 과도하게 많은 점이 존재하거나 주어진 숫자 변수가 불연속적일 경우, 주어진 그대로life-of-nomad.tistory.com 1. 상자 그림(box plot)상자 그림은 평균, 중앙값, 사분위수 같은 주요 요약 통계를 간결하게 나타냅니다.중앙선 : 중앙값상자의 위쪽..
🔻(지난글) 지터형 산점도🔻 (데이터분석) seaborn의 투명도, 지터링으로 산점도 과다중첩 해결하기차트에 과도하게 많은 점이 존재하거나 주어진 숫자 변수가 불연속적일 경우, 주어진 그대로 산점도를 그려서 정보를 확인하기 어려울 수 있습니다. 차트 상에서 너무 많은 데이터 포인트가 겹life-of-nomad.tistory.com 지난 글에서 지터형 산점도에 비해 알아보았습니다. 이번 글에서는 지터형 산점도에 비교하여 분포를 비교하기가 더 쉬운 바이올린 플롯에 대해 알아보겠습니다.아래 그림과 같이 뚜렷한 곡선로 표현하면 변수가 범주형이어서 비교하기가 더 쉽습니다.1. Violin plot (바이올린 플롯)바이올린 플롯은 정량적 변수와 정성적 변수 간의 관계를 나타낼 떄 보편적으로 사용됩니다.바이올린 ..
1. 히트맵히트맵은 일종의 이차원 히스토그램으로 산점도를 대체할 수 있는 차트입니다.두 숫자 변수의 값들이 두 개의 축을 기준으로 평면에 표시된다는 점에서 산점도와 유사합니다.한편, 데이터 포인트가 표시되는 영역은 격자 모양으로 분할되며, 각각의 격자 셀에는 그 안에 존재하는 점의 개수가 표시된다느 ㄴ점에서 히스토그램과 유사합니다.하지만, 히트맵에는 막대의 높이를 표현할 공간이 없으며 격자 셀의 색상을 통해 그 안에 존재하는 점의 개수를 나타냅니다.히트맵은 matplotlib의 hist2d() 함수를 사용해 작성할 수 있습니다.히트맵을 사용하는 경우는 아래의 두 가지입니다.1) 두 가지 불연속 변수를 나타내는 차트를 작성할 때2) 대량의 데이터 포인트가 존재할 때 투명도 대신 사용 2. 예시1) Matp..
차트에 과도하게 많은 점이 존재하거나 주어진 숫자 변수가 불연속적일 경우, 주어진 그대로 산점도를 그려서 정보를 확인하기 어려울 수 있습니다. 차트 상에서 너무 많은 데이터 포인트가 겹치면서 과다 중첩(Overplotting)되어 변수들 간의 관계를 파악하기 어려워지기 때문입니다. 지난 글에 이어 산점도에서 과다 중첩을 해결하는 방법에 대해 알아보겠습니다. 🔻(지난 글) 산점도 그리기🔻 (데이터분석) 산점도(scatterplots) 개념 및 matplotlib, seaborn으로 그리기두 숫자 변수 사이에 존재하는 관계를 조사할 때 대표적으로 활용하는 차트는 산점도입니다.이번 글에서는 산점도와 matplotlib으로 그리는 방법에 대해 알아보겠습니다. 1. 산점도산점도에서life-of-nomad...
두 숫자 변수 사이에 존재하는 관계를 조사할 때 대표적으로 활용하는 차트는 산점도입니다.이번 글에서는 산점도와 matplotlib으로 그리는 방법에 대해 알아보겠습니다. 1. 산점도산점도에서 각 데이터 포인트는 하나의 점으로 표현되며, x축과 y축에서의 위치는 각각 서로 다른 변수에 따라 결정됩니다.산점도는 두 개의 정량적 변수 간에 존재하는 관계를 나타낼 때 사용합니다.이 때 두 변수는 각각 x축과 y축을 통해 표시됩니다.산점도를 작성하면 두 변수 사이에 존재하는 상관관계를 분명하게 확인할 수 있습니다. 2. 상관관계두 변수 사이에 존재하는 상관관계의 강도는 상관계수로 나타냅니다. 피어슨 상관관계 (Pearson correlation coefficient) : 선형적인 관계를 반영하며 그 값은 최소 ..
지난 글에서 설명한 축(axis)범위 변경에 이어 축의 척도(scale) 변환하는 방법에 대해 알아보겠습니다. 🔻seaborn, matplotlib 축 변환하기🔻 (데이터분석) seaborn, matplotlib으로 axis(축) 범위 변경지난 글에 이어 seaborn과 matplotlib에서axis(축) 범위를 변경하는 방법과 outlier(이상치)의 존재여부를 알아보겠습니다. 🔻seaborn, matplolib 히스토그램 작성법🔻 (데이터분석) seaborn과 matplotlib으로life-of-nomad.tistory.com 1. Scales and Transformations먼저, 필요한 라이브러리와 데이터세트를 불러옵니다.import numpy as npimport pandas as pd..
지난 글에 이어 이번에는 불연속 데이터의히스토그램, 막대그래프를 나타내는방법에 대해 알아보겠습니다. 🔻막대그래프🔻 (데이터분석) seaborn과 matplotlib으로 막대그래프 작성하기1. Seaborn으로 막대 그래프 작성하기도수를 나타내는 기본적인 막대 그래프는 seaborn의 countplot함수를 사용하여 작성할 수 있습니다.seaborn.countplot(*, x=None, y=None, data=None, order=None, orient=None, color=None)life-of-nomad.tistory.com🔻히스토그램🔻 (데이터분석) seaborn과 matplotlib으로 히스토그램 나타내기히스토그램은 숫자 변수의 분포를 나타낼 때 사용합니다. 막대 그래프를 정량적 변수에 적용..
지난 글에서 설명한 matplotlib에 이어figure, axes, subplots에 대해 알아보겠습니다. (데이터분석) seaborn과 matplotlib으로 히스토그램 나타내기히스토그램은 숫자 변수의 분포를 나타낼 때 사용합니다. 막대 그래프를 정량적 변수에 적용한 것과 같습니다.하지만 하나의 막대로 각 고유 범주에 속하는 값의 개수를 나타내는 대신, 값을life-of-nomad.tistory.com 먼저, seaborn은 matplotlib을 기반으로 구축되었습니다. 알려드릴 내용은 seaborn에도 적용됩니다. 참고로, seaborn을 이용하면 더욱 간단하게 할 수 있습니다.1. Figures, Axes, and Subplots먼저, 데이터를 불러오겠습니다.import numpy as npim..
히스토그램은 숫자 변수의 분포를 나타낼 때 사용합니다. 막대 그래프를 정량적 변수에 적용한 것과 같습니다.하지만 하나의 막대로 각 고유 범주에 속하는 값의 개수를 나타내는 대신, 값을 연속적인 계급으로 나눈 다음 하나의 막대로 각 계급에 속하는 값의 개수를 나타냅니다. seaborn과 matplotlib으로 나타낼 수 있습니다.1. Matplotlib.pyplot.hist()import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsdf = pd.read_csv('diamonds.csv')df.shapedf.head(5)다이아몬드의 x,y,z축 길이를 확인하려고 합니다.이 값은 mm단위로 입력되어 있습니다..