일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 투자도서
- 컨버티드
- MySQL
- 데이터리안
- 데벨챌
- 중개보조인
- 데이터분석
- 부동산
- 데이터분석준전문가
- 이달의책
- 마케팅
- 데이터분석전문가
- 통계독학
- sql
- 데이터사이언스
- 부읽남
- ADsP
- 마케팅책
- 투자마인드
- 데이터넥스트레벨챌린지
- 데이터분석마인드셋
- ADP
- 데이터과학을위한통계
- 코세라
- 부동산투자수업기초편
- 부동산투자수업
- boostcourse
- 통계
- 프로젝트로 배우는 데이터사이언스
- 데이터분석가
- Today
- Total
하파와 데이터
[Day1] Chapter1. EDA(p.20~32) 본문
Chatper1.
1.1 정형화된 데이터의 요소
1.2 테이블 데이터
1.3 위치 추정
1.4 변이 추정
1.5 데이터 분포 탐색하기
1.6 이진 데이터와 범주 데이터 탐색하기
1.7 상관관계
1.8 두 개 이상의 변수 탐색하기
1.9 마치며
0. EDA(탐색적 데이터 분석)가 필요한 이유
EDA( Exploratory Data Analysis)는 데이터를 분석하거나 ML에서 학습시키는 등의 작업 전에 이루어진다.
탐색적 데이터분석이라고 불리우는 EDA를 통해 우리는 현재 내가 보유하고 있는 데이터의 유형, 형태, 위치, 변이, 분포 등 다양한 특징들을 파악하게 된다.
그럼 EDA는 왜, 즉 왜 데이터의 특징을 파악하는 것일까?
그것은 데이터의 특징에 따라 우리가 적용하고 사용할 유형과 방법이 상이하기 때문이다.
범주형 데이터에 적합한 방법을 연속형 데이터에 접목하는 것은 잘못된 결과를 도출하거나
성능이 좋지 않은 결과를 만들어낼 수 있다. 그렇기 때문에 우리는 본격적인(?) 작업 전에
데이터를 파악하고, 어떤 전략으로 데이터를 다루고 활용할지 구상해야한다! 이를 위해 필요한 것이 바로 EDA이다!
1. 데이터의 구분
데이터는 여러가지 방식으로 나눌 수 있다. 크게는 수치형과 범주형으로 나눌 수 있고,
다시 수치형은 데이터가 끊기지 않는 연속형과 구간이 끊김이 있는 이산형으로 나눌 수 있다.
범주형은 이진 데이터와 순서형으로 나눌 수 있다. 이진 데이터는 2개의 값 중에 하나를 선택하는 값(예 또는 아니오 등)이고 순서형은 리커트 척도처럼 1~5의 숫자가 단순히 구분자일 뿐 아니라 순서가 의미가 있는 경우를 뜻한다.
이러쿵 저러쿵, 데이터가 이거고 저거고 인게 뭐가 중요한가 라는 생각이 든다면 오산이다.
앞서 EDA의 의의를 본 것처럼 내가 다루는 데이터가 무엇인지 부터 확인하는게 첫번째이다.
그래야 내가 어떤 분석을 시도할 것인지, 어떤 모델링을 활용할 것인지 정할 수 있기 때문이다.
2. 위치 추정(평균, 중앙값 등)
수많은 데이터를 보면, 이게 도통 뭔지 알기 어렵다. 그래서 Python 에서 pandas를 활용해서 데이터를 열고 난 뒤 가장 처음하는게 아마 이게 아닐까 싶다.
df.info() # 데이터 구조와 유형 파악
df.shape() # 데이터의 컬럼별 값의 수 확인
df.describe() # 데이터의 기술통계 확인
df.head() # 가장 상단의 row 10개 확인
즉, 내가 다룰 데이터가 어떻게 생겼고, 뭐가 무슨 값이 있는지 등 말이다.
그중에서 지금 보고자 하는 것은 기술통계 부분이다.
우리가 다루는 데이터에 대해서 "이 데이터는 어느정도의 값을 가지고 있는 것일까?" 라는 질문을 던지는 것이다.
값들의 위치를 파악하는 것은 다양한 방법이 있다.
평균 / 절사평균 / 가중평균
중앙값
평균은 전체 데이터들의 값을 더한 뒤 개수로 나눈다. 가장 쉽고 편리하다. 다만 특이값, 극단값에 영향을 받기 때문에 로버스트 하지 않은 특징으로 데이터 자체의 신뢰도가 낮을 수 있다.
절사평균은 평균이 특이값, 극단값의 영향을 받는다는 점을 고려하여 상위/하위 데이터 중 p개를 제거하고 평균을 구하는 방법이다. 만일 n개의 데이터가 있고, 상위에서 p개, 하위에서 p개를 제거한다면, 아래와 같은 수식으로 값을 구할 수 있다.
세번째 가중평균은 아래와 같다.
데이터를 단순 평균을 내지 않고, 가중치를 곱한 값으로 평균을 낸다. 이러한 방법은
1. 어떤 값이 다른 값에 비해 큰 변화량을 가질때, 가중치를 이용해 각 변화의 정도를 표준화하는데 사용된다.
2. 여러 데이터를 가지고 있는 경우, 데이터 가운데 특정 데이터의 수가 부족한 경우 가중치를 두어 데이터의 영향력을 동등하게 만드는 것을 목적으로 사용한다.
중앙값(Median)
중앙값는 말 그대로 데이터를 정렬했을 때, 그 가운데에 있는 값을 뜻한다.
그렇기 때문에 다른 값들이 가운데 위치한 값으로 부터 얼마나 떨어졌는지 등에 대한 것이 중요하지 않다.
전체를 기준으로 가운데에 위치한 값이 어느 것인지 명확하게 보여준다.
이를 조금 어려운?표현으로는 데이터 민감도가 낮다라고 표현하고,
조금 더 어렵게 표현하면 데이터가 로버스트(Roburst)하다 라고 표현한다.
즉, 중앙값은 상위의 극단값이 얼마든지, 하위의 극단값이 얼마든지 데이터의 영향을 받지 않는다.
그저 내가 가지고 있는 데이터가 정렬이 되었을때, 가운데 어떤 값이 위치했는지만을 알려주기 때문이다.
'스터디 > [독학]데이터분석을 위한 통계' 카테고리의 다른 글
[Day2] Chapter1. EDA(p.32~47) (1) | 2024.09.13 |
---|---|
[Day0] 데이터 과학을 위한 통계, 책을 꺼내들어보자 (0) | 2024.09.10 |