일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 데이터리안
- 우리금융캐피탈면접
- 메타코드
- boostcourse
- 빅분기 실기
- 빅분기1유형
- 데이터넥스트레벨챌린지
- 데이터분석전문가
- 빅데이터분석기사 실기
- 투자마인드
- 정처기
- 빅분기실기
- 실기1유형
- BNK저축은행
- 우리금융캐피탈
- 빅분기
- 데이터자격증
- 우금캐면접
- 컨버티드
- 데이터분석마인드셋
- 메타코드m
- 우금캐
- 데이터분석가
- 빅데이터분석기사
- 데이터분석
- MySQL
- 통계독학
- 투자도서
- sql
- 빅데이터분석기사실기
- Today
- Total
목록자격증 (20)
하파와 데이터
며칠 전 빅분기 필기를 다녀오고나서부터, 내가 요즘 듣고 있는 강의는 메타코드 m에서 장학생 선발을 통해 강의를 들을 수 있는정보처리기사 100% 환급과정이다. 그래도 기사 자격증인데 어렵지 않을까? 사실 기사 자격증은 다른 자격증에 비해 무게감이 있는게 사실이다. 그렇기 때문에 혼자 여유로운 마음으로 준비를 하는 것은 좀 무리가 있다. 특히 비전공자로 학습을 할때, 분량은 많은데 무엇이 중요한지 알기 어렵고 무엇을 중점으로 공부해야하는지 감이 오지 않는다. 특히 시험시간의 단축과, 난이도 조정으로 어려움이 있을 수 있다. 우리는 그렇기에 도움을 받을 수 있는 곳에 확실한 도움을 받아야한다. 나의 경험상 메타코드의 강의는 그런면에서 큰 도움이 된다. 그럼 이 강의를 한번 보자. 우선, 강의는 내용 자..
오늘은 메타코드의 강의를 처음으로 듣는 날이다. 처음 강의를 등록하면서, 강의를 시작하는 가장 기초의 소개강의는 이미 들어두었고이제는 시험을 준비하는 강의로서는 처음이다. 메타코드 장학생으로, 강의를 들으면서 내가 들은 내용을 기록하고, 향후에는 이 기록이 메타코드의 강의를 듣는 사람들을 위한 기록이되고또는 정처기 자체를 공부하는 사람들에게도 의미있는 글이 되기를 바라면서, 서투루고 미숙한 글을 작성해본다. 참고로 아래처럼 메타코드 홈페이지에 접속하면, 빅데이터 관련 자격증 교육을 많이 가지고 있다. 내가 데이터 관련해서 엄청 잘나가는건 아니지만, 나도 저기있는 모든 자격증이 다있다. 정처기 빼고 그래서 이제 정처기를 취득해보고자 한다..! 0. 1주차 강의를 들으며 든 생각- 현재 강의를 약..
이제는 앞서 배웠던 것들을 실습해보자!! Q) iris데이터에서 sepal_width, petal_width를 삭제하시오import pandas as pddf = pd.read_csv('data/iris.csv')df1 = df.copy()df1.drop(['sepal_width', 'petal_length'], axis=1, inplace = True)print(df1)Q) iris 컬럼의 이름을 다음과 같이 변경하고 df_kor에 저장하시오df2 = df.copy()df_kor = df2.rename(columns = {'sepal_length':'꽃받침길이', 'sepal_width':'꽃받침너비', ..
데이터에서 가장 큰 골치거리가 결측지다. 하나만 비어있을때는 전체를 날리지도 못하고, 너무 무의미한 데이터가 많다면, 결측치가 많은 컬럼 자체를 날려야하는 경우도 있다. 즉, 우리의 필요에 따라서 우리는 결측된 데이터들을 제거하거나, 보완하는 방법을 알아야 한다. 우리는 그중에서 우선 간단한 방법인 평균으로 결측을 보완하는 방법과아예 결측치를 제거하는 방법에 대해서 알아본다. 나아가, 유니크한 값을 구하는 다른 방법인 중복값들을 제거하는 방법도 배워본다! 0. 전제우리만의 DataFrame을 만든다. import pandas as pdimport numpy as npdates = pd.date_range('20241129', periods= 6)df = pd.DataFrame(np.random.r..
인코딩은 대체로 str로 되어있는 데이터를 유의미하게 사용하기 위해서 전처리하는 방법중 하나이다. 예를들어, Setosa, Virginica 등이 문자로 있는 것은 의미가 없고, 이걸 이해하는 것도 어렵기때문에, 0,1,2 등의 숫자로 그 단어를 대체하는 것이다. 또는 10~19세를 0, 20~29를 1 등으로 변경하는 것도 동일한 방법이다. 사실 간단한 값들만 존재한다면, replace, map을 이용해서 내가 직접 인코딩과 같은 절차를 거칠 수도 있다. 하지만 그 값이 너무도 많다면?? 그럴때 사용하는 것이 인코딩 기술이다. 이러한 인코딩에 대해서 배워보자 0. 전제jupyter notebook 실행한 위치에 data라는 폴더가 있고, 그 안에 iris.csv가 존재한다. 1. Categoric..
데이터는 가지런할때, 예쁘다. 멀리서 보아도 그렇다. 우리는 데이터를 여러 측면에서 본다. 처음 주어진 그대로 살펴보기도 하지만, 그 데이터가 가진 방향성, 의미 등을 파악하기 위해서 정렬을 해보기도하고분포도를 보기도 하고 여러 방법을 택한다. 그중에 가장 쉽고 가볍게 해볼 수 있는 정렬을 해보자. 0. 전제(6,4) 임의의 난수를 가진 데이터프레임을 생성하여 활용함. import pandas as pdimport numpy as npdates = pd.date_range('20241129', periods=6)df = pd.DataFrame(np.random.randn(6,4), index = dates, columns = list('ABCD'))df1. 인덱스 정렬1.1. 행 인덱스 정렬예를들어..
데이터를 다루다보면, 현재 설정된 인덱스를 없애야할 수도 있고, 새롭게 다시 지정해야할 때도 있다. 즉, 우리는 인덱스로 수정할 수 있어야 하는 것이다. 1. reset_index()Reset_index는 말 그대로, 인덱스를 리셋하는 역할을 수행한다. 기존에 어떤 데이터, 값들이 인덱스에 있던지 무관하게 0부터 시작하는 정수의 인덱스를 새롭게 지정하는 과정이다. import pandas as pdimport numpy as npdates = pd.date_range('20241129', periods = 6)df = pd.DataFrame(np.random.randn(6,4), index = dates, columns = list('ABCD'))print(df)# reset indexingdf.re..
지금까지 우리는 수치형 분석, 부분집합 등에 대해서 배웠다. 이제 생각해보자. 그것을 왜 배웠을까? 어디에 써먹으려고?? 아직은 나도 초심자기 때문에 정확하지는 않지만데이터를 가지고 이래저래 전처리를 하는 과정은 분석에 있어서, 모델링에 있어서 매우나 중요하다. 일명 Garbege in, Garbege out이라고, 쓰레기가 들어가면 쓰레기가 나온다. 그렇기 때문에 우리는 모델을 구축하기 전에, 좋은 데이터를 넣을 수 있도록 각고의 노력을 기울여야하는 것이다. 그래서 수치형 데이터를 분석하면서, 무언가를 찾아내고부분집합 등을 활용해서 특정 데이터들을 바꾸거나 수정하거나, 조합하여 새로운 더미변수를 만들거나 하는 과정을 해야하는 것이다. 이에, 이번에는 데이터를 변경하는 과정을 배워보자!! 0. ..
오늘은 앞서 배운 loc와 iloc 관련 문제를 실습을 해보자!! 우선 문제가 어렵지 않으니 어서어서 해보자!! 0. 전제jupyter notebook이 실행된 위치 내 data폴더가 있고, 그 안에 iris.csv 파일이 존재함 Q) 행이 5 이상 10 미만이고, 컬럼이 sepal_width, petal_width, variety인 데이터 추출하기import pandas as pddf = pd.read_csv('data/iris.csv')# loc에서 행 범위는 마지막 값을 포함한다는 걸 잊지 말자! df.loc[5:9,['sepal_width', 'petal_width','variety']]Q) 'petal_width'import pandas as pddf = pd.read_csv('data/ir..
이전에는 컬럼이름 또는 리스트형태의 컬럼이름으로 데이터의 부분집합을 보았다. 그렇다면, 특정 조건을 통해서 데이터를 추출하는것은 가능할까? 예를들면, 100번행부터 150번행까지만 보고싶을때, 또는 'A'컬럼의 값중 양수를 갖는 데이터만을 보고싶을때 이럴때 사용하는 것이 loc, iloc이다. 이 둘은 서로 용법과 방법이 매우 비슷한데, 아주 작은 차이만 가지고 있다. 그래서 이름도 i 하나만 차이가 나지 않은가! 0. 전제jupyter notebook이 실행된 위치에 data라는 폴더가 있고, 그 안에 iris.csv라는 파일이 존재한다. 1. loc을 이용해서 문자 또는 조건으로 데이터를 선택! (라벨 기반 접근)loc는 행 또는 열의 이름을 기반으로 데이터에 접근한다. import pand..