Part 2. 데이터를 기반한 의사 결정
2-1. 데이터 문해력 퀴즈 리뷰
1. 데이터 웨어하우스는 반드시 빅데이터 기반의 데이터베이스를 뜻하는 것은 아니다.
2. 이상적인 데이터 조직의 발전 단계의 첫 번째는 데이터 엔지니어를 팀에 영입해 데이터 인프라부터 만드는 것이다.
3. 그 다음 데이터 분석가가 데이터 지표를 만들고 시각화, 데이터 과학자가 모델링 하는 것
ETL(Extract, Transform, Load) : 데이터 파이프라인으로 불리며, 데이터 엔지니어가 데이터 시스템 밖에 있는 데이터를 안으로 가져오는 것
4. 스케줄러로는 Airflow를 가장 많이 사용함
5. ETL vs. ELT
ETL(Extract, Transform, Load) : 데이터 엔지니어가 데이터 시스템 밖에 있는 데이터소스에서 데이터를 추출, 변환, 데이터 웨어하우스에 테이블 형태로 적재하는 것. 요청에 따라서 하는 경우가 많음
ELT() : 데이터 분석가가 데이터 웨어하우스/레이크에 있는 데이터를 사용하기 쉽게 전환하는 것. SQL의 join 같은 형태. DBT라는 툴이 사용됨
6. 많이 사용되는 데이터 웨어하우스 기술이 아닌 것은?(오라클 데이터베이스, AWS의 Redshift, 구글클라우드의 Big Query, Snowflake)
7. 요즘 데이터팀의 개발 방식은?
폭포수(waterfall) 개발 방식 vs. 애자일(agile) 개발 방식
8. 현재 추세는 데이터 과학자도 코딩을 할 줄 알아야 한다.
9. 데이터 분석가가 하는 일이 아닌 것 : 중요 지표 정의, 시각화 대시보드 구현, 데이터 웨어하우스 구축
10. 데이터 과학자들이 꼭 기억해야 하는 것이 아닌 것은? : 솔루션을 간단할수록 좋다, 머신러닝을 쓴다면 딥러닝이 가장 좋다, 무슨 일을 하건 내 일의 성공여부를 결정해주는 지표를 생각해야 한다.
11. 데이터 일을 하는 사람들이 꼭 알아야 할 기술을 하나 꼽는다면? SQL, 파이썬, 머신러닝
12. A/B 테스트가 무엇인가? 어떤 새로운 기능을 만들었을 때 정말 의미가 있는지 실제 사용자들에게 노출시켜 판단하는 것. 100% 유저 중 50%는 기존 기능을 노출시키고, 나머지에게는 새로운 기능을 노출시켜 기능을 비교함. 랜덤하게 50:50으로 나눠서 바이어스가 없게 해야함
2-2. 데이터 기반 의사결정이란?
두 가지 형태의 데이터 기반 의사 결정
- Data Driven Decision : 데이터가 하라는대로 결정하는 것
- Data Informed Decision : 데이터로 기록한 일이 없을 때, 기존의 데이터를 참고하여 결정하는 것
- 데이터는 과거의 기록이니, 과거의 기록을 보고 더 좋은 선택하는 것은 최적화하여 개선하는 것이다.
- 꼭 데이터 기반으로 가는 것만이 좋은 것은 아님
데이터에서 인사이트 찾기
데이터 기반으로 중요 지표를 정의하고 시각화하기
데이터 분석 케이스들 살펴보기
고객 이탈률/잔존률 분석 : 보통 코호트 분석으로 진행. 어떤 기준으로 나누는지가 중요함.
코호트 : 동일한 특성을 갖는 그룹으로, 사람들이 처음으로 우리 서비스의 회원이 된 연도/월 기준으로 다음 달에 얼마나 재방문하는지의 형태로, 사용자의 공통된 특성을 가지고 분석하는 것.
마케팅 관점에서는 어떤 마케팅 채널을 통해 서비스를 가입한 사람들이 오래 이용하는지, 어떤 사람들이 구매로 이어지는지 분석할 수 있음
데이터 분석 예
고객 이탈률 - 킥보드 어플 회원탈퇴, 고객용 대시보드 - 비대면 애견 진료, 마케팅 기여도 분석 - 화장 스타트업 광고, 고객 불만과 이탈률 간의 관계 - 서비스에 진심인 사람들이 불만을 더 제기
데이터 분석가의 역할
- 비즈니스 인텔리전스를 책임짐. -> 중요 지표 정의 ,이를 대시보드 형태로 시각화. 대시보드 툴로는 Tableau, Looker가 흔하게 사용되고 오픈소스로는 Superset이 많이 사용됨
- 반복적 질문을 어떻게 셀프서비스로 만들 수 있느냐가 관건
- 궁금한 사람들이 대시보드만 보고 원하는 답을 얻을 수 있게 해야 함
데이터 분석가의 스킬셋
- SQL, Python
- ELT(툴 : dbt), 데이터 모델링
- 통계적 지식 및 A/B 테스트 지식과 경험
- 지표 정의와 대시보드(Tableau, Looker, Power BI) 사용 경험
- 비즈니스 도메인에 관한 깊은 지식
2-3. 조직 구조의 중요성과 트렌드
3가지 데이터 팀 조직 구조
- 중앙 집중 구조 : 데이터 엔지니어/과학자/분석가가 한 팀에 속해서 일함
일의 우선 순위는 중앙의 데이터 팀이 최종 결정
장점 : 데이터 팀원들 간의 협업이 증가
단점 : 현업 부서들의 만족도는 떨어짐
- 분산 구조 : 데이터 팀이 현업 부서별로 존재
- 기존 중앙 집중 구조에서 조직 변경을 통해 분산 구조화 된 경우
- 자생적으로 데이터 분석을 알아서 분산 구조가 된 경우
일의 우선 순위는 각 팀별로 결정
장점 : 현업 부서들의 만족도 증가
단점 : 데이터 일을 하는 사람들 간의 지식/경험 공유가 힘들고 데이터 인프라나 데이터 공유가 힘들어짐
서로 다른 데이터 전략, 회사 전체로 볼 때 불완전한 데이터셋, 중복 투자, 보안/규제 관련 이슈 발생 가능성 증가
- 하이브리드 구조 : 모든 데이터 조직원들이 한 팀에 소속되지만 일 할 땐 파견, 임베드 형태로 현업 부서와 같이 일하는 것
중앙 집중과 분산이 합쳐진 구조
- 기존 중앙 집중 구조에서 조직 변경을 통해 분산 구조화 된 경우
- 자생적으로 데이터 분석을 알아서 분산 구조가 된 경우
데이터 메쉬(Data Mesh)
중앙 관리와 표준을 염두에 둔 데이터 분산 데이터 아키텍처
마이크로서비스와 아주 흡사한 원칙을 갖고 있음.
마이크로서비스란, 웹 서비스를 다수의 작은 서비스(microservice)들로 구현하는 방식으로, 각 서비스들은 팀 단위로 원하는 언어/기술로 개발하는 자율성을 가짐. 각 서비스들은 계약 관계로 지켜야 하는 책임이 있고 서비스 정보를 등록해야 함
2-4. 데이터 조직의 일주일 살펴보기
세상이 빠르게 변화하며 미리 SW 요구사항을 알 수 없음
폭포수 모델이 아닌 애자일 방법론이 대세가 됨
애자일 방법론
짧은 사이클(스프린트, 1주~3주)이 특징임. 매 사이클마다 바로 쓸 수 있는 기능을 구현
매 스프린트마다 아래 스텝들을 반복
- 플래닝 미팅 : 스프린트 동안 무엇을 할지 결정
- 매일 스탠드업 미팅 : 매일 짧게 모두 만나서 경과보고
- 데모/회고 미팅 : 스프린트의 마지막에 성과 공유 후 토론
월요일
지난 스프린트에 한 일들을 리뷰 : 각자 자기가 한 일을 데모
회고 미팅 : 뭐가 잘 되었고, 뭐가 더 잘 될 수 있었고, 기타 논의할 점이 있는지?
새로운 한 주 계획
이번 주에 무엇을 할지 결정, 미팅 제외 하루 5시간 일한다 가정, 30%의 시간은 유지보수에 사용
화요일
매일 스탠드업 미팅(Daily Standup) : 5분 정도 모두 모여 어제 무슨 일을 했는지, 오늘 무슨 일을 하는지, 어제 오늘 일하면서 어떤 문제가 있는지 이야기 함
수요일/목요일
스탠드업 미팅
중요 지표 리뷰 미팅 : 대시보드를 보면서 중요 지표에 어떤 변화가 있는지 살펴봄
머신로닝 모델 개발 리뷰 미팅
금요일
스탠드업 미팅
데이터팀 주간 스태프 미팅
중요 지표와 회사/팀 목표 리뷰 : ETL 성공/실패 비율 리뷰
2-5. 좋은 지표(KPI)란?
KPI(Key Performance Indicator) : 조직 내에서 달성하고자 하는 중요한 목표로, 보통 정량적인 숫자가 선호됨
예를 들면 매출액 혹은 유료 회원의 수/비율
명확한 정의가 중요함.
KPI의 수는 적을수록 좋음
잘 정의된 KPI는 현재 상황을 알고 더 나은 계획 수립을 가능하게 한다.
지표(Metrics)가 더 큰 집합이며 이 안에 KPI가 있음
KPI 기준
KPI는 보통 후행지표(Lagging indicator) : 모든 일이 벌어지고 나서 최종적인 결과를 보여주는 지표
선행지표(Leading indicator) : 매출액이 후행지표이면, 고객의 수에 따라 매출에 영향을 줄 때, 고객의 수가 선행지표임
좋은 지표의 특성
3A(Accessible, Actionable, Auditable)
쉽게 볼 수 있고 : Accessible
실행가능한 통찰력이 제공되어야 하고 : Actionable
감사가 가능해야 : Auditable
Next Dashboard Fallacy(의사 결정 장애) : 기존 지표 기반 결정을 못하고 대시보드를 계속해서 만드는 현상. 지금 결정을 못하고 더 나은 결정을 위해 시간을 낭비하는 것
2-6. KPI와 선행/후행 지표 예
선행지표 : 체중에 영향을 주는 식단과 운동
후행지표 : 체중 감소 후 내 체중 유지하는 것
인풋 지표 : 아웃풋 지표를 움직이는 지표로, 직접 통제가 가능한 지표(예: 제품 다양성, 가격, 편의성, 새로운 강의들) - 선행지표
아웃풋 지표 : 인풋 지표의 결과로, 직접 통제가 불가능한 것(MAU, 판매량, 계약건수, 매출, 이익) - 후행지표
선행지표를 잘 찾아내고 tracking해야함
2-7. 시각화 대시보드 툴 소개
시각화 툴이란?
대시보드 혹은 BI(Business Intelligence) 툴이라고 불림
KPI(Key Performance Indicator), 지표, 중요한 데이터 포인트들을 데이터를 기반으로 계산/분석/표시해주는 것
Excel, Google Spreadsheet : 사실강 가장 많이 쓰이는 시각화 툴
Python : 데이터 특성 분석(EDA: Exploratory Data Analysis)에 더 적합
Looker(구글)
Tableau(세일즈포스)
Power BI(마이크로소프트)
Apache Superset(오픈소스)
Looker
2012년 미국 캘리포니아 산타크루즈에서 시작
- LookML이 자체언어로 데이터 모델을 만드는 것으로 시작
- 내부 고객 뿐만 아니라 외부 고객을 위한 대시보드 작성 가능
- 고가의 라이센스 정책을 갖고 있으나 굉장히 다양한 기능 제공
Tableau
2002년 미국 캘리포니아 마운틴뷰에서 시작하여 2013년 상장
- 다양한 제품군 보유, 일부는 무료 사용 가능
- 제대로 배우려면 시간이 필요하지만 강력한 대시보드 작성 가능
- Looker가 뜨기 전까지 오랫동안 마켓 리더로 군림
어떤 시각화 툴을 선택할 것인가?
- Looker or Tableau가 가장 많이 사용되는 추세
- 두 툴 모두 처음 배우는데 시간이 필요함
- Tableau의 가격이 더 싸고 투명하며 무료 버전이 존재하여 공부가 가능
- 중요판 포인트는 셀프서비스 대시보드를 만드는 것
- 60~70&의 질문을 셀프서비드 대시보드로 할 수 있다면 대성공
사용하기가 쉬워야 더 많은 현업 인력들이 직접 대시보드를 만들 수 있
- 데이터 민주화(Data Democratization), 데이터 탈중앙화(Data Decentralization)
- 데이터 품질이 더욱 중요해지며 데이터 거버넌스가 필요한 이유가 됨
2-8. [실습] 지표 정의하고 차트 만들어보기
Tableau Public
무료로, Tableau의 기능을 학습하는 용도로 사용 가능
제약점 : Tableau는 데이터를 테이블 형태로 다운받아 시각화 하는데, Public은 csv, json 파일을 업로드하고 그걸 가지고 정적인 형태로 대시보드를 만듦. 읽어올 수 있는 최대 레코드 수가 1500만개로 제한되어 있음
전체 과정 설명
1. user_sessing_summary.csv 파일 다운 a. user_id, ts, channel, session_id
2. 이를 Table Public으로 업로드
3. 멀티라인 MAU(Monthly Active User) 차트 생성
4. 이를 가지고 대시보드 생성
5. 대시보드 저장

빨간 동그라미인 시트1을 누르면 이렇게 화면이 바뀌는데, 여기서 대시보드 생성 가능
열(columns)에는 dimensions(수치를 어떻게 볼건지), 행(rows)에는 measuer(수치)가 들어가야 함
대시보드는 차트의 집합
Tableau에서 차트란 시트라는 이름으로 주고 있다!
열(columns)에 Ts(연월로 변경)
행(row)에 userid(카운트(고유)로 변경)
Marks 아래에 Channel
Filters에도 Channel, 우클릭, show filter해서 보고 싶은것만 보기