'2024/05/20 글 목록

250x250

Notice

Recent Posts

Recent Comments

Link

« 2024/05 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록2024/05/20 (3)

영국 척척석사 유학생 일기장👩🏻‍🎓

(데이터분석) 파이썬으로 텍스트 데이터 정제하기

지난 글에 이어서 간단한 예시로 텍스트 데이터를 정제해보겠습니다. (데이터분석) 파이썬으로 텍스트 데이터 정제 함수 만들기1. 텍스트 데이터 정제 함수 만들기import nltkfrom nltk.tokenize import word_tokenizefrom collections import Counterfrom text import TEXTnltk.download('punkt')corpus = TEXTtokenized_words = word_tokenized(corpus)#등장 빈도 기준 정제 함life-of-nomad.tistory.com import pandas as pdtxt_data = pd.read_csv('text_data.csv') 1. Nomalize data 정규화txt_data.head(..

코딩공부/Data analysis 2024. 5. 20. 13:52

(데이터분석) 파이썬으로 텍스트 데이터 정제 함수 만들기

1. 텍스트 데이터 정제 함수 만들기import nltkfrom nltk.tokenize import word_tokenizefrom collections import Counterfrom text import TEXTnltk.download('punkt')corpus = TEXTtokenized_words = word_tokenized(corpus)#등장 빈도 기준 정제 함수def clean_by_freq(tokenized_words, cut_off_count): #파이썬의 Counter 모듈을 통해 단어의 빈도수 카운트하여 단어 집합 생성 vocab = Counter(tokenized_words) #빈도수가 cut_off_count 이하인 단어 set 추출 uncommon_wo..

코딩공부/Data analysis 2024. 5. 20. 13:14

(데이터분석) Scikit-Learn 사이킷런으로 데이터 전처리하기

사이킷런으로 할 수 있는 전처리 도구에 대해 몇 가지 알아보겠습니다. 1. Scikit-learn Pre-processing 사이킷런 불러오기import sklearnimport numpy as mpfrom sklearn.preprocessing import OneHotEncoder, StandardScaler, OrdinalEncoderfrom sklearn.imput import SimpleImputerfrom sklearn import set_config#sklearn 패키지의 transform과 fit_transform 함수가 pandas DataFrame 형식으로 결과를 출력하게 하는 설정set_config(transform_output = "pandas") 2. Scaling (데이터 표준화)..

코딩공부/Data analysis 2024. 5. 20. 11:16

이전 Prev 1 Next 다음

목록2024/05/20 (3)

영국 척척석사 유학생 일기장👩🏻‍🎓

티스토리툴바