하파와 데이터

[빅분기] 실기 1유형- 상관계수 본문

자격증/DATA

[빅분기] 실기 1유형- 상관계수

hhpp 2024. 11. 27. 01:16

오늘 상관계수까지 해서, 가장 기본인 데이터를 이리저리 둘러보는 작업을 끝낸다. 

즉, 수치형 데이터들 분석하는 것을 마스터 해버린다 이말씀이다.

 

0. 전제

jupyter notebook 을 실행한 폴더 내 data 폴더가 있고 그 안에 iris.csv 파일이 있다. 

 

1. 상관계수

상관계수는, 각 컬럼이 다른 컬럼과 어느정도의 상관성이 있는지를 보여주는거다. 

이는 서로의 상관도가 어느정도인지 보고, 

가시적으로 보기 좋게 하기 위해서 바로 히트맵을 찍는 경우가 대다수이다. 

빅분기 실기에서는 히트맵을 찍으라고 안하겠지만, 나는 그냥 그거까지 해버리련다. 

 

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns


# 데이터 불러오기
df = pd.read_csv('data/iris.csv')

# 상관계수 계산
col = df.corr(numeric_only = True)

# 특정컬럼 기준 상관계수 계산
df.corrwith(df['sepal_length'], numeric_only= True)  # sepal_length를 기준으로 다른 컬럼과의 상관계수를 출력

# 히트맵 구성
plt.figure(figsize = (8,6))  # 히트맵 크기 조정
sns.heatmap(col, annot = True, fmt = '.2f', cmap = 'Blues', cbar = True)

# heatmap 옵션 설명
# heatmap(상관계수데이터, 
#         annot = 각 셀에 값 표시 여부, 
#         fmt = .2f는 소수점 2째자리까지 표시, 
#         cmap = 히트맵 색상 설정,
#         cbar = 컬러바 표시 여부)


# 히트맵 출력
plt.title('iris correlation heatmap')  # 원하는 타이틀 입력
plt.show()

Iris 데이터의 컬럼별 상관계수 히트맵

반응형