일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- matplotlib
- 결정트리
- 경사하강법
- 로지스틱회귀
- CSS
- 다항회귀
- 윈도우함수
- sql연습문제
- 나혼자코딩
- 행렬
- 코딩독학
- Seaborn
- 오늘도코드잇
- 판다스
- HTML
- SQL
- 파이썬
- for반복문
- numpy
- 영국석사
- 유학생
- 코딩
- 코드잇
- 런던
- 코드잇TIL
- 머신러닝
- 데이터분석
- 코드잇 TIL
- 코딩공부
- 선형회귀
- Today
- Total
목록2024/05/20 (3)
영국 척척석사 유학생 일기장👩🏻🎓
지난 글에 이어서 간단한 예시로 텍스트 데이터를 정제해보겠습니다. (데이터분석) 파이썬으로 텍스트 데이터 정제 함수 만들기1. 텍스트 데이터 정제 함수 만들기import nltkfrom nltk.tokenize import word_tokenizefrom collections import Counterfrom text import TEXTnltk.download('punkt')corpus = TEXTtokenized_words = word_tokenized(corpus)#등장 빈도 기준 정제 함life-of-nomad.tistory.com import pandas as pdtxt_data = pd.read_csv('text_data.csv') 1. Nomalize data 정규화txt_data.head(..
1. 텍스트 데이터 정제 함수 만들기import nltkfrom nltk.tokenize import word_tokenizefrom collections import Counterfrom text import TEXTnltk.download('punkt')corpus = TEXTtokenized_words = word_tokenized(corpus)#등장 빈도 기준 정제 함수def clean_by_freq(tokenized_words, cut_off_count): #파이썬의 Counter 모듈을 통해 단어의 빈도수 카운트하여 단어 집합 생성 vocab = Counter(tokenized_words) #빈도수가 cut_off_count 이하인 단어 set 추출 uncommon_wo..
사이킷런으로 할 수 있는 전처리 도구에 대해 몇 가지 알아보겠습니다. 1. Scikit-learn Pre-processing 사이킷런 불러오기import sklearnimport numpy as mpfrom sklearn.preprocessing import OneHotEncoder, StandardScaler, OrdinalEncoderfrom sklearn.imput import SimpleImputerfrom sklearn import set_config#sklearn 패키지의 transform과 fit_transform 함수가 pandas DataFrame 형식으로 결과를 출력하게 하는 설정set_config(transform_output = "pandas") 2. Scaling (데이터 표준화)..