일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 머신러닝
- 데이터분석
- sql연습문제
- 코드잇
- 로지스틱회귀
- 판다스
- 다항회귀
- 오늘도코드잇
- 행렬
- 코딩공부
- matplotlib
- 나혼자코딩
- 경사하강법
- 코드잇 TIL
- for반복문
- 윈도우함수
- 파이썬
- HTML
- 런던
- 유학생
- 코딩
- CSS
- Seaborn
- SQL
- numpy
- 결정트리
- 코딩독학
- 코드잇TIL
- 선형회귀
- 영국석사
- Today
- Total
목록데이터분석 (37)
영국 척척석사 유학생 일기장👩🏻🎓
1. 원 그래프 작성 방법1) matplotlib.pyplot.pie()원 그래프는 matplotlib의 matplotlib.pyplot.pie() 함수로 작성할 수 있습니다.matplotlib.pyplot.pie(x_data, labels, colors, startangle, counterclock, wedgeprops)2) matplotlib.pyplot.axis()축의 속성 설정하기 위해서는 matplotlib.pyplot.axis() 함수를 적용하면 됩니다.*args : 함수에 전달할 인수**kwargs : 딕셔너리 형태로 전달되는 키워드 인수3) 원 그래프 예시sorted_counts = df['clarity'].value_counts()#첫번째 부채꼴이 수직으로 위쪽을 향하게, 정렬된 범주가 ..
🔻지난글🔻에서 seaborn과 matplotlib으로 막대그래프 나타내는 방법을 알아보았습니다.이번 글에서는 절대도수와 상대도수의 막대그래프를 나타내는 방법에 대해 알아보겠습니다. (데이터분석) seaborn과 matplotlib으로 막대그래프 작성하기1. Seaborn으로 막대 그래프 작성하기도수를 나타내는 기본적인 막대 그래프는 seaborn의 countplot함수를 사용하여 작성할 수 있습니다.seaborn.countplot(*, x=None, y=None, data=None, order=None, orient=None, color=None)life-of-nomad.tistory.com1. 절대 도수를 나타내는 수평 막대 그래프 작성하기먼저, 필요한 패키지를 불러오고, csv 파일을 읽습니다.i..
데이터의 문제점을 해결하고 나서는 바로 시각적 방식이나 프로그래밍 방식의 평가를 통해서 정제 작업이 성공적이었다는 것을 확인해야 합니다. 즉, 평가 및 테스트의 워크플로를 효과적으로 구성해야 합니다.* Test-Driven development(테스트 주도 개발) : 소프트웨어 개발을 완료하기 전에 지속적인 테스트를 수행하여 소프트웨어의 효과성을 검증하는 것이 글에서는 데이터 정제 작업의 효과를 평가하는 방법을 알아보겠습니다. 1. Heatmap 이용하기먼저, .head() 나 .tail()을 이용해서 데이터를 시각적으로 살펴볼 수 있습니다.#import librariesimport pandas as pdimport numpy as npimport seaborn as sns#Read the .json ..
파이썬의 datetime 이용해서 time series(시계열) 데이터를 정제해보겠습니다.time series는 시간에 따른 데이터를 저장할 때 자주 사용되는 데이터 형식입니다. 이는 일정한 시간 간격으로 수집한 일련의 데이터 포인트들로써 시간에 따른 추세, 패턴을 분석하거나 예측하는 데 사용됩니다.이 글에서는 pandas에서 날짜 데이터를 처리하고 시계열 데이터를 정제하는 방법을 알아보겠습니다.time series(시계열) datetime 모듈에 대한 참고자료는 아래와 같습니다. (파이썬 코딩일기) datetime 모듈import datetime스탠다드 라이브러리에 있는 datetime 모듈은 '날짜'와 '시간'을 다루기 위한 다양한 '클래스'를 갖추고 있습니다. 1. datetime 값 생성2020..
지난 글에 이어서 간단한 예시로 텍스트 데이터를 정제해보겠습니다. (데이터분석) 파이썬으로 텍스트 데이터 정제 함수 만들기1. 텍스트 데이터 정제 함수 만들기import nltkfrom nltk.tokenize import word_tokenizefrom collections import Counterfrom text import TEXTnltk.download('punkt')corpus = TEXTtokenized_words = word_tokenized(corpus)#등장 빈도 기준 정제 함life-of-nomad.tistory.com import pandas as pdtxt_data = pd.read_csv('text_data.csv') 1. Nomalize data 정규화txt_data.head(..
사이킷런으로 할 수 있는 전처리 도구에 대해 몇 가지 알아보겠습니다. 1. Scikit-learn Pre-processing 사이킷런 불러오기import sklearnimport numpy as mpfrom sklearn.preprocessing import OneHotEncoder, StandardScaler, OrdinalEncoderfrom sklearn.imput import SimpleImputerfrom sklearn import set_config#sklearn 패키지의 transform과 fit_transform 함수가 pandas DataFrame 형식으로 결과를 출력하게 하는 설정set_config(transform_output = "pandas") 2. Scaling (데이터 표준화)..
데이터 품질을 점검할 때는 일반적으로 완전성 문제를 먼저 처리하는 것이 좋습니다. 그러면 이후에 누락 데이터로 인한 정제 과정을 반복할 필요가 없기 때문입니다. * 결측 데이터 및 데이터 정돈 문제문제 1) 하나의 열에 여러 개의 변수 존재문자열 처리 및 unpivoting을 통해 해결합니다.(step 1) 결측 데이터 처리하기 (Clean Missing Data)#데이터 불러오기import pandas as pdimport numpy as nppatients = pd.read_csv('patients.csv')treatments = pd.read_csv('treatment.csv')adverse_reactions = pd.read_csv('adverse_reaction.csv')#결측값 존재 확인 및..
import pandas as pdimport numpy as np#read dataframedf = pd.read_csv('assessment.csv')#Drop a rowsdf.head()df.describe()df.info()df.sample(5, random_state = 70)df.loc[df['assessment score 2'].isin(['#'])]df['assessment score 2'] = df['assessment score 2'].replace({'#':np.nan})dfdf.loc[df['assessment score 2'].isin(['#'])]df.isna().sum() Option 1 : drop rowscleaned_df = df.dropna()cleaned_df.desc..
#import pandas and numpyimport pandas as pdimport numpy as np#Load small test scores dataframetest_scores = pd.read_csv('test_scores.csv')#Make a copy of the dataframeclean_scores = test_scores.copy()clean_scores.head()if_duplicated = clean_scores.duplicated(['Name', 'Age'])if_duplicated Get duplicated rows#Access the duplicated rows for duplicates in the Name and Age columnduplicate_rows = clea..
웹사이트에서 데이터에 액세스하기 어려울때, 코드를 사용하는 웹 스크래핑을 통해서 데이터를 추출해보겠습니다. 웹사이트 데이터는 태그를 사용해 페이지의 구조를 지정하는 하이퍼텍스트 마크업 언어(HyperText Markup Language, HTML)로 작성됩니다. 구문 분석기를 사용하여 액세스할 수 있습니다. BeautifulSoup를 사용하면 더욱 편리합니다.* BeautifulSoup : 파이썬 언어로 작성된 HTML 구문 분석기 1) BeautifulSoup 라이브러리 불러오기 2) language_of_flowers.html 을 fp라는 파일 객체로 열기3) Beautiful 생성자에 전달하고 그 결과를 flower_soup 변수에 할당하기 4) flower_soup 결과 확인하기 5) prett..