분류 전체보기142 [췻쉿] 결측값 처리 Pandas DataFrame cheatsheet 데이터 분석을 한층 편리하게 해 줄 여러 가지 기능들 내가 아직 외우지 못한 기능을 한 번에 찾을 수 있게 모아놨다. 결측값 처리 방법 4가지 참고 자료: 한양사이버대학교 데이터사이언스개론 0) null이 있는 열 확인 #컬럼별 확인 df.isna().sum().reset_index() #각 컬럼별 결측치의 비율 df.isna().sum() / len(df) 1) 삭제하기 drop_missing_data = rawData.dropna() #axis=0: null값이 있는 행 삭제 / axis=1: null값이 있는 열 삭제 #how='any': null값이 하나라도 있으면 삭제 / how='all': 모든 값이 null이면 삭제 2) 0으로 채우기 fil.. 2023. 3. 25. '나는 왜 데이터 분석을 하고 싶을까?'에 관한 생각 PM이 된 지도 벌써 만 4년이 지났다. 기획자에게 데이터 분석 역량이 중요하다는 사실을 줄곧 들었다. 그래서 데이터 분석 공부를 천천히 시작했고, 이제 실무에 적용할 수준의 실력으로 발전했다. 작년부터 본격적으로 데이터 분석 업무를 하며 이 일이 내 적성에 맞다고 생각했다. 앞으로 데이터 분석을 더 깊게 배우고 싶기도 하다. 그런데 나는 왜 데이터 분석을 하고 싶을까? 내가 기획자의 길을 선택한 이유는 창의적인 일을 하고 싶어서였고, 분석은 내 적성에 맞지 않다고 생각했는데. 게다가 데이터 분석은 숫자, 그러니까 수학과 가까이 있는 존재가 아닌가. 나는 분명 수학과 사이가 그리 좋지 않았다. 그래서 생각해 보기로 했다. 내가 데이터 분석을 하고 싶은 이유. 1. 서비스의 성과를 데이터를 통해 확인할 수.. 2023. 3. 18. [췻쉿] query, assign, type, 문자열, print Pandas DataFrame cheatsheet 데이터 분석을 한층 편리하게 해 줄 여러 가지 기능들 내가 아직 외우지 못한 기능을 한 번에 찾을 수 있게 모아놨다. 데이터프레임 복사본 만들기: df.copy() df_new = df_raw.copy() 원하는 조건으로 추출하기: df.query() 아래 두 개는 동일한 결과를 만드나, query를 쓰면 "df."를 컬럼 앞에 항상 붙일 필요가 없다는 장점이 있음. #1 df.query('컬럼명>10') #2 df[df.컬럼명>10] 여러 파생변수 한 번에 추가하기: df.assign() df.assign(뉴컬럼명 = df.컬럼1 + df.컬럼2, 뉴컬럼명2 = (df.컬럼1 + df.컬럼2) / 2) #lamdba로 더 간단히 쓰고 싶을 경우 df.a.. 2023. 2. 26. 나의 2022년 회고 (갓생의 의미 찾기) 이 글은 저의 2022년 회고입니다. 우리는 회고를 할 때 연초에 세웠던 목표를 이루었는지, 부족한 점이 있다면 앞으로 어떻게 개선해야 하는지 생각합니다. 그러니까 회고는 나를 개선하기 위한 생각입니다. 그런데 글쎄, 나를 꼭 개선해야 할까요? 그러니까 갓생을 살 필요가 있을까요? 지금껏 매년 의례적으로 연초 계획을 세웠으나 한 번도 "왜"에 관한 생각 없이 한 해 목표를 정했어요. 내가 왜 이런저런 목표를 만들었는지 한 번쯤 곱씹어봐야겠다는 생각이 들었습니다. 올해는 이유를 갖고 2023년 목표를 정하려고 해요. 이번 회고에는 2022년 목표를 되돌아보고, 내가 각각의 목표를 어떤 이유로 계획했는지에 대해 생각하기로 했습니다. 먼저 저의 2022년 목표를 보여드릴게요. 크게 세 가지, 1) 움직이기, .. 2023. 1. 17. 미국 데이터 분석 석사 선수과목 채우기 올 초 미국 데이터 분석 석사를 알아보았는데, 돈만 낸다고 쉽게 갈 수 있는 게 아니었다. 본인 학력에 공학 베이스가 없다면 공학 관련 수업을 들어서 선수과목을 채워야 한다. 미국 데이터 분석 석사 지원 시 채워야 하는 선수과목은 대략 이러하다. 필수: Calculus (미적분), Linear Algebra(선형대수), Statistics (통계학), Intro to CS or Programming (컴퓨터공학 기초) + 하면 좋음: 이산수학, 자료구조 우리나라에서 미국 데이터 분석 석사를 지원하신 분들은 사이버대학교, 방송통신 대학교에서 학점을 받아 선수과목을 채우는 것 같아 그 길을 따르기로 했다. 해외 대학 수업도 온라인으로 들을 수 있지만 가격이 만만치 않아 포기했다. Coursera 등 온라인 .. 2022. 12. 27. [췻쉿] DataFrame으로 모든 데이터 모으는 방법 Pandas DataFrame cheatsheet 데이터 분석을 한층 편리하게 해 줄 여러 가지 기능들 내가 아직 외우지 못한 기능을 한 번에 찾을 수 있게 모아놨다. 1) DataFrame을 합친 후 (merge 전/후) 중복 제거하기: df.drop_duplicates() df.drop_duplicates(subset=['user_id','content_id','date'], keep='first', inplace=True) drop_duplicates subset = [열1, 열2, ...] 어떤 열을 기준으로 중복을 검사할 것인지 정하기. 여러 개 설정 가능. 디폴트는 전체 열 keep = {‘first’, ‘last’, False} 중복값이 있을 경우 어떤 값을 살릴 것인지 False = 중복값.. 2022. 12. 24. 나의 영어 원서 읽기 프로젝트 올해 4월부터 영어 원서를 읽기 시작했다. 현재 약 8개월째 꾸준히 읽은 결과, 총 11권의 원서를 읽었다. 왜 읽기 시작했나? 나는 꽤 오랫동안 영어에 자신이 있는 사람이었다. 어릴 때부터 영어 학원을 오래 다닌 결과, 나는 내가 영어 천재인 줄 알고 학교를 다녔다. 그 결과 나는 대학교도 영어영문학과로 입학했다. 대학원에 다닐 때까지만 해도 논문을 읽어야 하니 영어와 접점이 있었으나, 취업 후에는 영어를 들을 일도, 읽을 일도 없었다. 그래도 지금껏 나의 자부심이었던 영어 실력을 놓을 수 없다고 생각했다. 나의 미래가 어디로 어떻게 향할지 모르니 더 큰 기회를 잡기 위해 미리 준비하자고 생각했다. 어떤 책을 읽을지 어떻게 정했죠? 구글 수석 디자이너 김은주 님의 "생각이 너무 많은 서른 살에게"라는 .. 2022. 12. 15. 주니어 PM의 SQL & 파이썬 실무 적용기 올해 8월, 지금껏 배웠던 SQL & 파이썬을 실무에 적용할 기회가 왔습니다. 약 4개월간의 저의 SQL & 파이썬 실무 적용기를 하나의 글로 정리해보고자 합니다. 초보의 관문을 지난 지 오래인 전문가는 모르는 초심자의 고민을, 다른 초심자는 답할 수 있다고 생각해요. 초보의 관문을 지나는 저와 다른 모든 PM 동료에게 이 글을 바칩니다. 이 글은 두 가지 질문에 답변을 드려요. Q1. PM이 SQL & 파이썬을 배우면 뭐가 좋아요? Q2. SQL은 그렇다 쳐도... 파이썬까지 알아야 할까요? 저도 1년 넘게 사내/사외 교육으로 SQL & 파이썬을 배우면서, '내가 굳이 시간을 들여서 이걸 공부할 필요가 있을까?'라는 고민이 있었어요. 배운 걸 바로 실무에 적용할 일이 없었기 때문이죠. 사내 데이터 분석.. 2022. 11. 21. 초보PT일기: 태어나 처음으로 어깨 운동을 하다 태어나서 처음 하는 PT 3회 차. 태어나서 처음으로 어깨 + 팔 뒷면 운동을 했다. 새로운 운동은 즐겁다. 몸을 움직이는 새로운 방식을 알게 되어서 신기하고, 내가 몰랐던 나를 발견하는 느낌. 어깨 근력 운동을 시작하기 전에 스트레칭을 했다. 1) 폼롤러로 하는 광배 스트레칭 곡소리 나올 정도로 아프다. 올록볼록한 폼롤러로 했는데, 만약 내일 광배가 뭉친다면 근력 운동 때문이 아니라 폼롤러 때문일 것이라는 의심이 들 정도이다. 눈을 감고 꾸욱 참으면서 간신히 5회씩 돌렸다. 너무 아파서 거의 울면서 했다. (ㅠㅠ) 2) 두 팔을 쭉 펴고 초록색 밴드 스트랩을 뒤로 넘기는 스트레칭. 이건 그래도 할만하다. 이유는 모르겠지만 평소에 스트레칭을 안 해도 날개뼈와 어깨는 유연하다. 고관절, 뒷 허벅지 근육보다.. 2022. 11. 18. 이전 1 2 3 4 5 6 ··· 16 다음