반응형
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 컨버티드
- 빅데이터분석기사실기
- sql
- 데이터분석마인드셋
- 데이터분석가
- BNK저축은행
- 빅분기
- 데이터리안
- 메타코드
- 데이터넥스트레벨챌린지
- 빅분기실기
- 빅분기 실기
- 데이터자격증
- 메타코드m
- 통계독학
- 정처기
- 우리금융캐피탈면접
- 실기1유형
- 투자도서
- MySQL
- 데이터분석전문가
- 빅데이터분석기사
- 우금캐면접
- 우리금융캐피탈
- boostcourse
- 투자마인드
- 데이터분석
- 빅데이터분석기사 실기
- 우금캐
- 빅분기1유형
Archives
- Today
- Total
하파와 데이터
[빅분기] 실기 1유형- 상관계수 본문
오늘 상관계수까지 해서, 가장 기본인 데이터를 이리저리 둘러보는 작업을 끝낸다.
즉, 수치형 데이터들 분석하는 것을 마스터 해버린다 이말씀이다.
0. 전제
jupyter notebook 을 실행한 폴더 내 data 폴더가 있고 그 안에 iris.csv 파일이 있다.
1. 상관계수
상관계수는, 각 컬럼이 다른 컬럼과 어느정도의 상관성이 있는지를 보여주는거다.
이는 서로의 상관도가 어느정도인지 보고,
가시적으로 보기 좋게 하기 위해서 바로 히트맵을 찍는 경우가 대다수이다.
빅분기 실기에서는 히트맵을 찍으라고 안하겠지만, 나는 그냥 그거까지 해버리련다.
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
# 데이터 불러오기
df = pd.read_csv('data/iris.csv')
# 상관계수 계산
col = df.corr(numeric_only = True)
# 특정컬럼 기준 상관계수 계산
df.corrwith(df['sepal_length'], numeric_only= True) # sepal_length를 기준으로 다른 컬럼과의 상관계수를 출력
# 히트맵 구성
plt.figure(figsize = (8,6)) # 히트맵 크기 조정
sns.heatmap(col, annot = True, fmt = '.2f', cmap = 'Blues', cbar = True)
# heatmap 옵션 설명
# heatmap(상관계수데이터,
# annot = 각 셀에 값 표시 여부,
# fmt = .2f는 소수점 2째자리까지 표시,
# cmap = 히트맵 색상 설정,
# cbar = 컬러바 표시 여부)
# 히트맵 출력
plt.title('iris correlation heatmap') # 원하는 타이틀 입력
plt.show()
반응형
'자격증 > DATA' 카테고리의 다른 글
[빅분기] 실기 1유형- 데이터선택2; loc와 iloc (0) | 2024.11.27 |
---|---|
[빅분기] 실기 1유형- 데이터 선택; 부분집합(SUBSET) (0) | 2024.11.27 |
[빅분기] 실기 1유형- 수치형 데이터 분석(개수, 최소, 최대, 평균, 합계, 중앙값, 4분위, 분산, 표준편차,왜도, 첨도) (0) | 2024.11.27 |
[빅분기] 실기 1유형- 결측치 찾기, 고유값 확인, 값 개수 찾기 (0) | 2024.11.27 |
[빅분기] 실기 1유형- 읽기, 쓰기, Transpose (1) | 2024.11.26 |