일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 메타코드m
- 투자마인드
- 데이터분석마인드셋
- boostcourse
- 빅분기 실기
- 실기1유형
- 우금캐
- 정처기
- 빅분기실기
- 통계독학
- 빅데이터분석기사
- 우리금융캐피탈
- 데이터분석가
- 우금캐면접
- 데이터분석전문가
- BNK저축은행
- 우리금융캐피탈면접
- 데이터자격증
- 빅데이터분석기사실기
- 컨버티드
- 빅분기1유형
- 데이터넥스트레벨챌린지
- 빅데이터분석기사 실기
- 빅분기
- 데이터리안
- MySQL
- sql
- 투자도서
- 데이터분석
- 메타코드
- Today
- Total
목록빅분기1유형 (5)
하파와 데이터

지금까지 우리는 수치형 분석, 부분집합 등에 대해서 배웠다. 이제 생각해보자. 그것을 왜 배웠을까? 어디에 써먹으려고?? 아직은 나도 초심자기 때문에 정확하지는 않지만데이터를 가지고 이래저래 전처리를 하는 과정은 분석에 있어서, 모델링에 있어서 매우나 중요하다. 일명 Garbege in, Garbege out이라고, 쓰레기가 들어가면 쓰레기가 나온다. 그렇기 때문에 우리는 모델을 구축하기 전에, 좋은 데이터를 넣을 수 있도록 각고의 노력을 기울여야하는 것이다. 그래서 수치형 데이터를 분석하면서, 무언가를 찾아내고부분집합 등을 활용해서 특정 데이터들을 바꾸거나 수정하거나, 조합하여 새로운 더미변수를 만들거나 하는 과정을 해야하는 것이다. 이에, 이번에는 데이터를 변경하는 과정을 배워보자!! 0. ..

이전에는 컬럼이름 또는 리스트형태의 컬럼이름으로 데이터의 부분집합을 보았다. 그렇다면, 특정 조건을 통해서 데이터를 추출하는것은 가능할까? 예를들면, 100번행부터 150번행까지만 보고싶을때, 또는 'A'컬럼의 값중 양수를 갖는 데이터만을 보고싶을때 이럴때 사용하는 것이 loc, iloc이다. 이 둘은 서로 용법과 방법이 매우 비슷한데, 아주 작은 차이만 가지고 있다. 그래서 이름도 i 하나만 차이가 나지 않은가! 0. 전제jupyter notebook이 실행된 위치에 data라는 폴더가 있고, 그 안에 iris.csv라는 파일이 존재한다. 1. loc을 이용해서 문자 또는 조건으로 데이터를 선택! (라벨 기반 접근)loc는 행 또는 열의 이름을 기반으로 데이터에 접근한다. import pand..

빅분기에서 데이터를 다루다보면, 특정한 컬럼만을 선택해야하는 때가 온다. 즉, 전체 데이터 집합 중 부분집합만을 추출해야할 때가 오는데, 그때 여러가지 방법을 활용해서 추출할 수 있다. subset, loc, iloc, query 등으로! 이번엔 그중 subset의 활용에 대해서 알아본다. 0. 전제 jupyter notebook을 실행시킨 폴더 내 data 폴더가 있고, 그 안에 iris.csv 파일이 존재한다. 1. 열 또는 열의 집합을 이용한 데이터 선택import pandas as pd# load the iris datadf = pd.read_csv('data/iris.csv')print(df.head()) # check the data a few# print the 'sepal_leng..

오늘 상관계수까지 해서, 가장 기본인 데이터를 이리저리 둘러보는 작업을 끝낸다. 즉, 수치형 데이터들 분석하는 것을 마스터 해버린다 이말씀이다. 0. 전제jupyter notebook 을 실행한 폴더 내 data 폴더가 있고 그 안에 iris.csv 파일이 있다. 1. 상관계수상관계수는, 각 컬럼이 다른 컬럼과 어느정도의 상관성이 있는지를 보여주는거다. 이는 서로의 상관도가 어느정도인지 보고, 가시적으로 보기 좋게 하기 위해서 바로 히트맵을 찍는 경우가 대다수이다. 빅분기 실기에서는 히트맵을 찍으라고 안하겠지만, 나는 그냥 그거까지 해버리련다. import pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns# 데이터 불러오기df = pd..

오늘은 수치형 데이터의 기본을 분석하는 여러가지를 한번에 때려배워보자 역시나 엄청난 판다스에 의해서, 모든 것들은 한줄에 끝난다. 나머지는 이미 영어로 단어를 다들 잘 알고 있을테니, 왜도와 첨도의 스펠링만 주의깊게 외우면 모든 것은 일사천리로 끝나버린다!! 빅분기 부셔버리자!!! 0. 전제현재 Jupyter notebook을 켠 폴더 내 data라는 폴더가 있고, 그 안에 iris.csv라는 파일이 있다. 1. 수치형 데이터 분석(개수~첨도)import panda as pd# 데이터 불러오기df = pd.read_csv('data/iris.csv')# 개수 df.count() # 각 컬럼별 NaN을 제외한 데이터 수# 최소값df.min(numeric_only = True)# 최대값df.max(nu..