본문 바로가기

서비스 기획/☁️ 데이터 분석 공부18

[코드잇] 2. 데이터 분석과 시각화: 타이타닉 EDA 퀴즈 데이터 분석과 시각화 과정 중 EDA(탐색적 데이터 분석) 수업 마지막에는 "타이타닉 EDA 퀴즈"가 있다. titanic.csv 데이터를 탐색한 후, 보기 7개 중에서 맞는 것 고르는 퀴즈를 풀기 위해 답을 찾은 방법을 정리했다. 1) 타이타닉 승객은 30대와 40대가 가장 많다 (X) - 나이대별 히스토그램으로 시각화했다. - 기존 파일에는 "나이대" 컬럼이 존재하지 않아 'Age_cat' 컬럼을 만들어서 추가했다. #1. 20,30이 제일 많음 ==> X sns.distplot(df['Age_cat']) - 나이대 구분 컬럼인 'Age_cat' 만든 방법 #나이대 가져오는 함수 만들기 def age_cat(age): age = (age//10)*10 return age Age_cat = df.Age.. 2022. 7. 14.
[코드잇] 1. 데이터 프레임 다루기 코드잇 "데이터 사이언스 입문" 과정을 수강 중이다. 해당 코스 "2강 데이터 프레임 다루기"의 마지막 퀴즈 3개는 갑자기 높아진 난이도를 자랑한다. 😅 이틀에 걸쳐서 여러 가지 방법을 찾으면서 공부한 내용을 정리했다. 1. DataFrame 조건에 맞는 행의 값만 변경하기 1.1. 조건에 맞는 행의 특정 열의 값 변경하기 #너무 길면 헷갈리니까 조건은 미리 정의하기 condition = (df['course name'] == 'information technology') & (df['year']==1) #조건에 맞는 값만 변경하기 df.loc[condition,'status']= 'not allowed' #df.loc[조건, '열 이름'] = '바꿀 값' 1.2. 조건에 맞는 행의 모든 값 변경하기 #.. 2022. 7. 5.
데이터 분석 - 대검찰청의 범죄자 전과 데이터 (2019) 전체 161개 범죄 중 범죄자수 합계 Top-15 범죄 대상으로 데이터 분석 흥미로운 사실 - 전과 9범 이상이 생각보다 굉장히 많음 - 전과 9범 이상 범죄자가 초범보다 많은 범죄는 "근로기준법"과 "신용업무경매" - 다만, 전과 9범 이상은 10범, 11범 등 다량의 범죄 이력이 있는 사람을 모두 합친 숫자라는 점을 고려해야 함 - 초범 비율이 가장 높은 범죄는 "성폭력", "전자금융거래법", "교통사고처리특례법" - 해당 범죄는 재범률이 낮지만, 범죄를 저지를만해 보이지 않는 일반인 같은(?) 사람도 저지를 수 있는 범죄라고도 해석할 수 있음 원본 데이터 1. 각 범죄 분류 별 범죄자수 합계 (barplot) 합계 열 'total'을 추가한 후에 해당 열의 값으로 그래프 그림 2. 히트맵 (seab.. 2022. 6. 13.
딥러닝 CDS 교육 후기 교육 기간: 총 4일 (22.05.23-22.05.26) 교육명: 딥러닝 기초 교육 개요: - 딥러닝 개요 - DNN, CNN, RNN 1일 차에 배운 것: - 딥러닝 기초 수학 (경사하강법) - 딥러닝 프로세스: 데이터 전처리 > 모델 생성 (모델 정의, compile) > 모델 학습 (fit) > 모델 평가 (evaluate) > 모델 예측 - DNN 사용해보기 (Squential API), 손글씨 분류 모델 만들기 2일 차에 배운 것: - CNN으로 말/사람 구분하는 모델 만들기 - CNN으로 개/고양이 구분하는 모델 만들기 - 전이학습으로 개/고양이 구분하는 모델 만들기 2일 차까지의 후기: - 지난번 파이썬/머신러닝 CDS 수업보다 재미있다. - 지난번 수업은 2주에 걸쳐서 방대한 분량을 배우느.. 2022. 5. 24.
SQL 퀴즈/실습 사이트 추천 1. 프로그래머스 SQL 고득점 키트 한국어로 된 SQL 퀴즈 사이트입니다. 약간 아쉬운 건 퀴즈 수량이 29개뿐이라는 점입니다. 또한, 문제를 다 풀더라도 별도의 증명서(certification)를 제공하지 않습니다. 프로그래머스를 통한 SQL 공부는 아래 링크에 자세히 정리되어 있습니다. 기획자의 SQL 공부 기록 (프로그래머스 SQL 고득점 Kit) API에 대한 내 브런치 글이 프로그래머스라는 사이트로부터 유입이 생겼다. "엥, 나는 기획자인데 웬 프로그래머?"라는 생각에 궁금해서 프로그래머스 사이트에 들어가 봤다. 프로그래머스는 코 rbworld.tistory.com 2. HackerRank SQL을 포함한 다양한 언어의 코딩 퀴즈를 무료로 제공하는 사이트입니다. 현재까지 1,800만이 넘는 사.. 2022. 2. 27.
데이터 분석 시간 줄이는 방법 데이터 분석에 시간이 오래 걸린다. 타임 트래커 기록을 보니 적어도 4시간이 걸렸다. 왜 이렇게 오래 걸렸는지 원인을 분석하면 추후 분석 시간을 줄일 수 있을 것이다. 가장 큰 이유는 분석을 재수행했기 때문이다. 재수행을 줄이기 위해 아래의 검토 과정이 필요하다. 1. 대량의 데이터는 기획자가 직접 추출하기 어려울 때가 있다. 2. 데이터 개발자에게 데이터 추출을 요청할 경우, 전달 받은 데이터가 맞는지 샘플링해서 검수부터 해야 한다. 3. 처음부터 내가 의도한대로 필터가 걸렸다고 생각하면 안 된다. 모든 필터가 제대로 걸렸는지 다 확인해봐야 한다. - 일정 수준의 데이터는 기획자도 직접 필터링해서 뽑을 수 있다. - 내가 뽑은 데이터와 개발자가 준 데이터를 1:1 매칭해서 검수해야 한다. - 적은 숫자.. 2022. 1. 17.
파이썬 데이터 사이언티스트 교육 후기 교육 기간은 총 2주. 1주에는 파이썬을 배우고, 2주 차에는 머신 러닝을 배움. 2주 차 4일째부터 마지막 날까지 미니 프로젝트 (실습)을 함. 마지막 날 마지막 1시간 동안 퀴즈를 봄. 미니 프로젝트가 가장 도움이 많이 됨. 실제 데이터를 가지고 전처리도 돌리고, 분석도 했기 때문. Test 데이터를 돌렸을 때 가장 낮은 에러 점수 (RMSLE)를 낸 사람부터 차례대로 정렬됨. 같은 반 학생들의 점수가 바로바로 눈에 보이고 업데이트돼서 경쟁심이 자극됨. 그래서 모델도 여러 개 써보고, 전처리도 여러 방법으로 하면서 적극적으로 교육에 참여함. 심지어는 교육 시간 외에도 밤늦게까지 혼자 계속 모델을 수정함. 나에게 잘 맞는 교육 방식이었음. 교육 기간이 1주만 더 있어서 마지막 한 주간 Kaggle 프로.. 2021. 12. 6.
파이썬 배우는 일기 (엘리스 파이썬 교육) 21.11.25 요즘 나는 파이썬을 배우고 있다. 회사에서 보내는 교육이다. 11/22부터 다음 주 12/3까지 매일 6~7시간씩 화상으로 교육을 받는다. 사용하는 툴은 엘리스(ELICE)인데, 아래와 같이 생겼다. 선생님이 코드를 열어놓고 실시간으로 설명하는 화면이 메인이다. 탭을 하나 더 열어서 더블 모니터에 띄워놓은 주피터 실습 화면에 똑같이 따라서 쓴다. 이런 컴퓨터 교육은 직접 만나서 보다 화상으로 하는 게 더 나은 것 같다. 학생들이 무거운 노트북을 다 들고 다닐 필요도 없고 더블 모니터도 사용할 수 있고. 옛날에 비해 화상 기술도 발전해서 전혀 끊기지 않는다. (물론 사람마다 다르다.) 약간 불편한 부분은, 카메라를 꼭 키고 있어야 되는데 ZOOM처럼 배경을 가릴 수 없다. 집에서 수업을 듣.. 2021. 11. 25.
기획자의 SQL 공부 기록 (프로그래머스 SQL 고득점 Kit) API에 대한 내 브런치 글이 프로그래머스라는 사이트로부터 유입이 생겼다. "엥, 나는 기획자인데 웬 프로그래머?"라는 생각에 궁금해서 프로그래머스 사이트에 들어가 봤다. 프로그래머스는 코딩 테스트, 프로그래밍 강의, 프로그래머 채용을 동시에 서비스하는 회사다. 사이트 구경 중에 "코딩 테스트 연습"이라는 메뉴가 눈에 들어왔다. SQL은 그래도 한 번 공부했고 다른 언어보다 쉬우니까 풀어보자고 마음을 먹었다. 총 27개의 문제를 이틀에 걸쳐 풀었고, 2개만 Q&A를 참고했다. (이틀이나 걸린 이유는 JOIN이 너무 어려워 보여서 다음 날로 넘긴 탓이다.) 당연히 SQL 문법을 다 외우진 못한다. 구글링의 도움으로 문제를 풀었다. 올해 초 코세라에서 SQL 강의를 들었지만 문제를 많이 풀진 않았다. 코세라.. 2021. 11. 3.