일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- 데이터분석전문가
- 데이터사이언스
- ADP
- 부동산투자수업
- 이달의책
- 컨버티드
- boostcourse
- 오답노트
- 데벨챌
- ADsP
- 마케팅책
- MySQL
- 데이터리안
- 프로젝트로 배우는 데이터사이언스
- 투자마인드
- 통계
- 데이터분석준전문가
- 투자도서
- 데이터넥스트레벨챌린지
- 데이터분석가
- 데이터분석
- 딥러닝
- 통계독학
- 데이터분석마인드셋
- sql
- 코세라
- 부읽남
- 데이터과학을위한통계
- coursera
- 부동산투자수업기초편
- Today
- Total
목록Development (10)
하파와 데이터
일반적으로 데이터분석을 하거나, ML 등의 데이터를 기반으로 무언가를 작업할 때 데이터를 불러온 뒤 가장 처음하는 것이 데이터가 어떤 구조로 되어있는지? 살펴보는 것이다. 어려운 말로 하면 EDA (Exploratory Data Analysis, 탐색적 데이터 분석)라고 할 수 있다. 간단한 앞서 '의사결정나무(DecisionTree)'를 해본 실습에서 사용했던 Diabates 데이터를 기반으로 이를 간단히 해보겠다. 쉽게 해보는 실습은 아래 링크를 참조!(데이터파일도 아래 링크를 통해 kaggle에서 다운받을 수 있다. 2024.01.13 - [Development/Python] - 의사결정나무 쉽게 따라해보기!(plot_tree그리기, 중요 feature 파악하기) 의사결정나무 쉽게 따라해보기!(pl..
머신러닝에서 많이 사용되는 방법 중 '의사결정나무'가 있다. 의사결정 나무의 장점으로는 어떤 기준으로 분류를 하는지 명확하게 확인할 수 있다는 것이다. 이에 의사결정나무(DecisionTree)를 그려보는 것을 간단히 해보고자 한다. 본 연습은 naver connect재단에서 운영하는 boostcourse 강의 중 오늘 코딩 '박조은'님의 '프로젝트로 배우는 데이터사이언스'에서 학습한 내용을 토대로 한다. 아래의 실습을 따라하면, 간단하게 머신러닝을 실습해볼 수 있다. 활용데이터: Pima Indians Diabetes (출처: https://www.kaggle.com/datasets/uciml/pima-indians-diabetes-database) 환경: jupyter notebook 1. 데이터 구..
DF에서 많은 예시로 사용하는 df 가운데 iris(붓꽃)데이터가 있다. iris 데이터는 sklearn에서 제공하는 데이터셋으로 머신러닝 초반부터 많은 예시로 활용되고 있다. 우선 iris 데이터를 불러오고 어떤 형태로 되어있는지 보자 from sklearn.datasets import load_iris iris = load_iris() iris iris 데이터를 출력하면, 아래와 같이 행렬의 구조인 data와 벡터형태인 target 2가지로 구성되어있는 것을 확인할 수 있다. 이에 보통 iris데이터를 위와같이 로드를 한 뒤, data와 target으로 각기 나눠서 저장한다. iris_data = iris['data'] iris_target = iris['target'] 헌데, 이를 처음부터 나눠서 ..
DATE 형태 변형 MY SQL에서 자주보는 날짜 형식인 DATETIME타입은 YYYY-MM-DD hh:mm:ss 형식으로 나타난다. 초단위까지 있는 날짜를 BETWEEN 등으로 구간으로 설정한다면 DATETIME 그대로 사용하는데 큰 문제가 없는 경우도 있으나, 문제에서 연/월/일 까지만 출력하라고 요청할 때가 있다. 이럴때, DATE 또는 DATE_FORMAT('날짜컬럼','형식)을 입력해서 이를 수정할 수 있다. DATE 타입은 YYYY-MM-DD의 형식을 가진다. 만일 DAY라는 컬럼의 값이 '2023-08-08 01:48:10'라고 가정할때, DATE(DAY) 는 '2023-08-08'이 된다. 만일, 08-AUG-23으로 표현하거나, 다른 형식의 모양으로 연월일을 표시하고 싶다면 DATE_FO..
SQL에서 마주할 수 있는 다양한 숫자들과 문자형들이 있다. 데이터를 그대로 사용하기 보다, 내가 그 안에서 추출하고 싶은 값들이 있을때, 우리는 기본함수들을 이용해서 원하는 값을 찾아낼 수 있다. MYSQL의 함수는 아래 사이트를 통해 더 많이, 정확히 알아볼 수 있다. https://dev.mysql.com/doc/refman/8.0/en/numeric-functions.html SQL에도 여러가지 함수가 있다. 전부를 나열할 수 없기 때문에, 필요한 함수들을 몇가지 적어본다 . 숫자형 COUNT(*) -- NULL을 포함하여, 열의 총 갯수를 반환 -- count의 경우, 숫자 밸류가 아니더라도 그 값들을 셀 수 있다는게 특징이다. SUM('열이름') - 열에 있는 값들의 합계를 출력 AVG('열이..
더보기 [문제] Harry Potter and his friends are at Ollivander's with Ron, finally replacing Charlie's old broken wand. Hermione decides the best way to choose is by determining the minimum number of gold galleons needed to buy each non-evil wand of high power and age. Write a query to print the id, age, coins_needed, and power of the wands that Ron's interested in, sorted in order of descending power...
데이터를 분석하거나, 내용을 파악함에 있어서 기본적인 테이블의 구조가 불편한 경우가 있다. 세로의 형태로 놓았을때, 데이터를 더 분명하게 파악할 수 있거나, 나의 원하는 세부 항목으로 행을 만들었을때, 데이터 분석이 용이한 경우가 있다. 이럴때 우리는 PIVOT을 한다. PIVOT을 하는 다양한 방법이 있고, PIVOT 함수가 있는 것도 같은데 데이터리안 강의에서 배운 피봇의 방법은 조금 다르다. 그 방법을 설명하고자 한다. 데이터의 내용이 아래와 같을때, 아래의 SQL구문을 사용하면, SELECT CATEGORYID, PRICE FROM PRODUCTS GROUP BY CATEGORYID 아래와 같이 정보를 확인할 수 있다. 이런 형식이 아니라, 행에 각 카테고리 ID가 나오고, 금액을 확인할 수는 없..
SQL에서 숫자형 값을 출력 할때, 원하는 형태로 소수점을 처리할 수 있다. 올림, 반올림, 내림의 3가지 형태로 파이썬이나 엑셀 등에서는 ROUNDUP, ROUND, ROUNDDOWN 처럼 ROUND라는 명령어를 응용해서 사용하지만 SQL은 3가지 명령어가 모두 다르다 CEIL(,소수점자리) - 올림 A= 3.14 SELECT CEIL(A) 4 ROUND(,소수점자리) - 반올림 A= 3.14 SELECT ROUND(A) 3 FLOOR(,소수점자리) - 내림 A= 3.14 SELECT FLOOR(A) 3 아래의 데이터 셋을 기준으로 평균값을 각각에 맞게 구하면 아래와 같다. SELECT CEIL(AVG(PRICE),1), ROUND(AVG(PRICE),1), FLOOR(AVG(PRICE),1) FROM..
SQL에서 마주하는 데이터셋에는 NULL이 있는경우와 없는 경우가 있을 것이다. 사실 인위적인 데이터가 아니고서야 NULL이 없는 데이터가 없을 것이라고 예상이된다. 데이터를 분석하는 측면에서는 수집되지 않은 데이터를 어떻게 처리할 것인지 0으로 처리할 것인지 또는 아예 그 데이터셋 자체를 삭제하고 데이터를 분석할 것인지 등을 고민해야할텐데 그를 위해선, SQL에서 집계함수를 사용할때 어떤 방법을 사용했을때 NULL을 무시할 수 있는지 또는 NULL을 0처럼 인식해서 값을 얻을 수 있는지 알아야하겠다. 예시 데이터 집계함수 SQL에서 숫자형 데이터를 분석해주는 다양한 집계함수들을 볼 수 있다. COUNT(*) - 데이터의 갯수를 출력 SUM(*) - 데이터 값의 합계를 출력 AVG(*) - 데이터 값의 ..
Python에는 여러가지 형태들이 존재한다. 형태에 따라서 적용되는 함수가 있고, 적용이 불가능한 함수들이 있다. 이에 데이터 분석을 위해선 자료가 어떤 형태를 가지고 있는지 파악하고, 내가 필요한 형태로 변경하는 처리작업이 필요하다. 숫자형을 문자형으로, 문자형을 날짜형으로 바꾸는등 데이터 분석에 적합하게 변경하는 전처리 작업을 해야 내가 원하는 작업들을 수월하게 할 수 있다. 다양한 형태 중 가장 기본인 자료형부터! 자료형 int(정수) a= 3 float(실수) b=3.14 str(문자열) c= 'Python' # Python에서는 대소문자를 구분한다! list(리스트) d= [1,2,3,4,5] #리스트 안에는 정수, 실수, 문자 모두 들어갈 수 있다. 여러개를 묶음으로 저장할때 사용! dict(..