일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 |
- 데이터넥스트레벨챌린지
- 데벨챌
- 데이터분석전문가
- 데이터리안
- 자격증
- metacodem
- 티아고포르테
- 데이터분석가
- 컨버티드
- 데이터애닐러틱스
- 법무법인데이터분석가
- 마케팅
- 마케팅책
- 데이터분석
- 자연어처리입문
- 딥러닝
- MySQL
- 오답노트
- 프로젝트로 배우는 데이터사이언스
- 코세라
- ADP
- 데이터분석마인드셋
- 데이터분석준전문가
- ADsP
- sql
- 이달의책
- 메타코드서포터즈
- coursera
- boostcourse
- 데분
- Today
- Total
목록전체 글 (23)
하파와 데이터
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/cRVLqx/btsDA4XcJwE/coA5KDK0ZZc4A0fZKkCWAK/img.jpg)
데이터리안에서 진행하는 데벨첼의 일환으로 PART1이 종료된 후, PART2를 잽싸게 시작했다. 2024.01.14 - [독서] - [데이터x마케팅] 오늘은 고객의 마음을 훔치는 대화를 나눴나요? '컨버티드;마음을 훔치는 데이터분석의 기술' PART.1을 읽고 [데이터x마케팅] 오늘은 고객의 마음을 훔치는 대화를 나눴나요? '컨버티드;마음을 훔치는 데이 데이터리안에서 SQL 데이터분석캠프 실전반을 듣고난지 언 4개월째. 최근에는 SQL보다는 PYTHON으로 하는 데이터 분석과 ML, NLP 쪽을 하고 있어서 SQL에 많은 관심을 갖지는 못하고 있었다. 하지만 우 hhpp.tistory.com 개인적으로는 PART1보다 PART2의 내용이 더욱 흥미로웠다. PART1의 내용이 마음가짐, 즉 마인드셋과 태도..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/RIB7y/btsDwESmM2y/w1qikqSjTIFVnyB2fsTbAK/img.png)
일반적으로 데이터분석을 하거나, ML 등의 데이터를 기반으로 무언가를 작업할 때 데이터를 불러온 뒤 가장 처음하는 것이 데이터가 어떤 구조로 되어있는지? 살펴보는 것이다. 어려운 말로 하면 EDA (Exploratory Data Analysis, 탐색적 데이터 분석)라고 할 수 있다. 간단한 앞서 '의사결정나무(DecisionTree)'를 해본 실습에서 사용했던 Diabates 데이터를 기반으로 이를 간단히 해보겠다. 쉽게 해보는 실습은 아래 링크를 참조!(데이터파일도 아래 링크를 통해 kaggle에서 다운받을 수 있다. 2024.01.13 - [Development/Python] - 의사결정나무 쉽게 따라해보기!(plot_tree그리기, 중요 feature 파악하기) 의사결정나무 쉽게 따라해보기!(pl..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bfupv8/btsDqaqLguZ/d6kkwIaabAc8AeKkEAxIk0/img.jpg)
데이터리안에서 SQL 데이터분석캠프 실전반을 듣고난지 언 4개월째. 최근에는 SQL보다는 PYTHON으로 하는 데이터 분석과 ML, NLP 쪽을 하고 있어서 SQL에 많은 관심을 갖지는 못하고 있었다. 하지만 우리는 누구인가. 새해가 되면 12월 31일과는 크게 다르지 않음에도 올해는 작년과 다르지 않을까라는 큰 기대감과 함께 새로운 목표를 세우지 않는가. 나도 "24년에는 더 부지런하고 열심히 살아야지"라는 매년하던 그런 생각을 하던 중, 데이터리안 슬랙에 나를 자극하는 공지사항이 나오게 되었다. 성장을 하려고 노력은 하지만, 구체적이고, 타인과 함께 동기부여를 하며 성장할 수 있도록 데이터리안에서 온라인 기반으로 독서모임?을 진행하는 것이었다. 24년을 알차게 보내고 싶은 마음에 호기롭게 신청을 했고..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/sYal8/btsDrGPuyMM/7k4NyEU17xiv9x103udLb0/img.png)
머신러닝에서 많이 사용되는 방법 중 '의사결정나무'가 있다. 의사결정 나무의 장점으로는 어떤 기준으로 분류를 하는지 명확하게 확인할 수 있다는 것이다. 이에 의사결정나무(DecisionTree)를 그려보는 것을 간단히 해보고자 한다. 본 연습은 naver connect재단에서 운영하는 boostcourse 강의 중 오늘 코딩 '박조은'님의 '프로젝트로 배우는 데이터사이언스'에서 학습한 내용을 토대로 한다. 아래의 실습을 따라하면, 간단하게 머신러닝을 실습해볼 수 있다. 활용데이터: Pima Indians Diabetes (출처: https://www.kaggle.com/datasets/uciml/pima-indians-diabetes-database) 환경: jupyter notebook 1. 데이터 구..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bRvmSX/btsDqj1vQvj/VRKk5439bAylrsGkWFXFK1/img.png)
DF에서 많은 예시로 사용하는 df 가운데 iris(붓꽃)데이터가 있다. iris 데이터는 sklearn에서 제공하는 데이터셋으로 머신러닝 초반부터 많은 예시로 활용되고 있다. 우선 iris 데이터를 불러오고 어떤 형태로 되어있는지 보자 from sklearn.datasets import load_iris iris = load_iris() iris iris 데이터를 출력하면, 아래와 같이 행렬의 구조인 data와 벡터형태인 target 2가지로 구성되어있는 것을 확인할 수 있다. 이에 보통 iris데이터를 위와같이 로드를 한 뒤, data와 target으로 각기 나눠서 저장한다. iris_data = iris['data'] iris_target = iris['target'] 헌데, 이를 처음부터 나눠서 ..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/FTgEE/btsqvi8mOEd/JODsC0iLWwMfVCerYdRb5k/img.png)
DATE 형태 변형 MY SQL에서 자주보는 날짜 형식인 DATETIME타입은 YYYY-MM-DD hh:mm:ss 형식으로 나타난다. 초단위까지 있는 날짜를 BETWEEN 등으로 구간으로 설정한다면 DATETIME 그대로 사용하는데 큰 문제가 없는 경우도 있으나, 문제에서 연/월/일 까지만 출력하라고 요청할 때가 있다. 이럴때, DATE 또는 DATE_FORMAT('날짜컬럼','형식)을 입력해서 이를 수정할 수 있다. DATE 타입은 YYYY-MM-DD의 형식을 가진다. 만일 DAY라는 컬럼의 값이 '2023-08-08 01:48:10'라고 가정할때, DATE(DAY) 는 '2023-08-08'이 된다. 만일, 08-AUG-23으로 표현하거나, 다른 형식의 모양으로 연월일을 표시하고 싶다면 DATE_FO..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/owVr9/btsqj3KhcSh/gllMngHe1WnsdvXkUfz7Tk/img.png)
SQL에서 마주할 수 있는 다양한 숫자들과 문자형들이 있다. 데이터를 그대로 사용하기 보다, 내가 그 안에서 추출하고 싶은 값들이 있을때, 우리는 기본함수들을 이용해서 원하는 값을 찾아낼 수 있다. MYSQL의 함수는 아래 사이트를 통해 더 많이, 정확히 알아볼 수 있다. https://dev.mysql.com/doc/refman/8.0/en/numeric-functions.html SQL에도 여러가지 함수가 있다. 전부를 나열할 수 없기 때문에, 필요한 함수들을 몇가지 적어본다 . 숫자형 COUNT(*) -- NULL을 포함하여, 열의 총 갯수를 반환 -- count의 경우, 숫자 밸류가 아니더라도 그 값들을 셀 수 있다는게 특징이다. SUM('열이름') - 열에 있는 값들의 합계를 출력 AVG('열이..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/uzJQ5/btspOB8Ho5L/ghStH1InEweHtO6KAqO2mk/img.png)
더보기 [문제] Harry Potter and his friends are at Ollivander's with Ron, finally replacing Charlie's old broken wand. Hermione decides the best way to choose is by determining the minimum number of gold galleons needed to buy each non-evil wand of high power and age. Write a query to print the id, age, coins_needed, and power of the wands that Ron's interested in, sorted in order of descending power...
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bRNqk3/btspFldOjS9/k9KlCFsUOwmRyTFdVzYKXK/img.png)
데이터를 분석하거나, 내용을 파악함에 있어서 기본적인 테이블의 구조가 불편한 경우가 있다. 세로의 형태로 놓았을때, 데이터를 더 분명하게 파악할 수 있거나, 나의 원하는 세부 항목으로 행을 만들었을때, 데이터 분석이 용이한 경우가 있다. 이럴때 우리는 PIVOT을 한다. PIVOT을 하는 다양한 방법이 있고, PIVOT 함수가 있는 것도 같은데 데이터리안 강의에서 배운 피봇의 방법은 조금 다르다. 그 방법을 설명하고자 한다. 데이터의 내용이 아래와 같을때, 아래의 SQL구문을 사용하면, SELECT CATEGORYID, PRICE FROM PRODUCTS GROUP BY CATEGORYID 아래와 같이 정보를 확인할 수 있다. 이런 형식이 아니라, 행에 각 카테고리 ID가 나오고, 금액을 확인할 수는 없..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bFvCCq/btsoxcQODqo/tw79G91KaHHe4uM7BJHeo1/img.png)
SQL에서 숫자형 값을 출력 할때, 원하는 형태로 소수점을 처리할 수 있다. 올림, 반올림, 내림의 3가지 형태로 파이썬이나 엑셀 등에서는 ROUNDUP, ROUND, ROUNDDOWN 처럼 ROUND라는 명령어를 응용해서 사용하지만 SQL은 3가지 명령어가 모두 다르다 CEIL(,소수점자리) - 올림 A= 3.14 SELECT CEIL(A) 4 ROUND(,소수점자리) - 반올림 A= 3.14 SELECT ROUND(A) 3 FLOOR(,소수점자리) - 내림 A= 3.14 SELECT FLOOR(A) 3 아래의 데이터 셋을 기준으로 평균값을 각각에 맞게 구하면 아래와 같다. SELECT CEIL(AVG(PRICE),1), ROUND(AVG(PRICE),1), FLOOR(AVG(PRICE),1) FROM..