하파와 데이터

return으로 데이터 바로 분할하기(return_X_y=True) 본문

Development/Python

return으로 데이터 바로 분할하기(return_X_y=True)

hhpp 2024. 1. 12. 17:40

 

DF에서 많은 예시로 사용하는 df 가운데 iris(붓꽃)데이터가 있다. 

iris 데이터는 sklearn에서 제공하는 데이터셋으로 머신러닝 초반부터 많은 예시로 활용되고 있다. 

 

우선 iris 데이터를 불러오고 어떤 형태로 되어있는지 보자 

 

from sklearn.datasets import load_iris

iris = load_iris()
iris

 

iris데이터프레임의 data와 target

 

iris 데이터를 출력하면, 아래와 같이 행렬의 구조인 data와 벡터형태인 target 2가지로 구성되어있는 것을 확인할 수 있다. 

이에 보통 iris데이터를 위와같이 로드를 한 뒤, data와 target으로 각기 나눠서 저장한다.

iris_data = iris['data']
iris_target = iris['target']

 

헌데, 이를 처음부터 나눠서 불러오는 방법이 있다. 

 

from sklearn.datasets import load_iris

X, y = load_iris(return_X_y=True)

이렇게 처리하면, X에 data의 행렬이, y에는 target벡터 데이터가 들어가게 된다. 

 

아주 편리하게 데이터를 분할해서 넣을 수 있다. 

한줄이라도 코드를 줄여서 쓸 수 있다면 얼마나 좋은가 !