Coding Diary.

(데이터분석) 데이터 사이언스 프로세스 본문

Coding/Data analysis

(데이터분석) 데이터 사이언스 프로세스

life-of-nomad 2023. 5. 25. 06:49
728x90
반응형

데이터 사이언스의 단계

1. 문제 정의하기

2. 데이터 모으기

3. 데이터 다듬기

4. 데이터 분석하기

5. 데이터 시각화 및 커뮤니케이션

 

1) 문제 정의하기

해결하고자 하는 문제를 정의합니다. 이 단계에서는 해결하고자 하는 게 무엇인지, 언제까지 어떤 결과물을 얻을 것인지, 어떤 방식으로 데이터를 활용할 것인지 등을 설정합니다. 

=> 목표 설정/ 기간 설정/ 평가 방법 설정/ 필요한 데이터 설정

 

2) 데이터 모으기

필요한 데이터를 모을 수 있는 방법을 찾습니다. 누군가 이미 모아 놓은 데이터를 그대로 사용할 수도 있고, 공공 기관 등에서 배포한 자료를 찾아 볼 수도 있고, 혹은 웹사이트에서 직접 데이터를 수집할 수도 있습니다.

=> 웹 크롤링/ 자료 모으기/ 파일 읽고 쓰기

 

3) 데이터 다듬기

데이터의 퀄리티를 높여서 의미 있는 분석이 가능하게끔 합니다. 일반적으로 우리가 수집한 데이터에는 수많은 문제점들이 있습니다. 이런 문제점들로 인해 분석 자체가 불가능할 수도 있고, 혹은 분석을 하더라도 잘못된 결론으로 이어질 수도 있습니다. 

=> 데이터 관찰하기/ 데이터 오류 제거/ 데이터 정리하기

 

4) 데이터 분석하기

준비된 데이터로부터 의미를 찾습니다. 이 과정은 통계를 이용해서 수치적으로 할 수도 있고, 수십 가지의 그래프를 그려보면서 탐색할 수도 있습니다. 우리가 처음 설계했던 방식대로 데이터를 활용해서 원하는 결과를 도출해 내야 합니다.

=> 데이터 파악하기/ 데이터 변형하기/ 인사이트 발견/ 의미 도출

 

5) 커뮤니케이션

분석 결과를 다른 사람들에게 전달합니다. 어떤 문제를 해결하려 했는지, 어떻게 데이터를 모았는지, 어떤 방식으로 어떤 인사이트를 얻었는지 등을 다른 사람들에게 전달해야 합니다. 적절한 시각화를 통해 소통을 원활히 할 수 있습니다.

=> 다양한 시각화/ 커뮤니케이션/ 리포트

728x90
반응형