본문 바로가기
카테고리 없음

데이터분석 > 1주차 > 파트 04 > 0813

by 나는야석사 2024. 8. 14.

강의 목표 : 데이터를 활용하는 방법들에 대한 탐색

데이터를 활용하는 것이 의미하는 것

- 데이터를 기반한 의사 결정
- 데이터 기반 서비스, 제품의 기능 개선


데이터 조직의 미션

신뢰할 수 있는 데이터를 바탕으로 부가 가치를 생성하는 것

데이터 조직이 하는 일 1 - Decision Science
고품질 데이터 기반으로 의사 결정권자에게 입력 제공
데이터를 고려한 결정(data informed decisions) - 내가 가는 방향이 있고 데이터를 참고하겠다. 

vs. 데이터 기반 결정(data driven decisions) - 내 생각은 별로 없고 데이터 기반으로 하겠다.

data informed decisions가 더 좋음. 데이터는 현재, 미래가 아니고 과거의 기록이기 때문에 기록만으로 결정을 내리는 것보다 생각을 첨가하여 최적화한 결정을 내리는 것이 좋음

과거의 기록이 있다면 data informed diecisons
그렇지 않고 내가 일을 잘 못한다면 data driven decisions


데이터 조직이 하는 일 2 - Product Science

고품질 데이터를 기반으로 사용자의 서비스 경험을 개선하거나 서비스 운영하는 과정(프로세스)을 최적화하는 것
데이터 기반 제품/프로세스 개선


데이터 문해력이란?

데이터팀의 발전 단계 - 데이터 인프라
데이터 팀의 첫번째 이상적인 발전 단계는 데이터 인프라를 만드는 것
대부분의 경우에는 데이터 인프라를 만들어야 하는 것을 이해하지 못해 인프라 없이 데이터 분석가/과학자를 채용함
데이터 엔지니어가 데이터를 수집하는 것이 가장 먼저 해야 할 일
데이터 웨어하우스 : 수집된 데이터들이 저장된 곳
다양한 소스에서 다양한 데이터를 수집하여 정제하고 적재해주는 프로세스를 데이터 파이프라인 혹은 ETL(Extract Trasform Load)이라고 부름
ETL : 데이터 소스에서 데이터를 추출하고 원하는 형태로 변환하고 최종적으로 데이터 웨어하우스에 적재하는 것! -> 보통 관계형 데이터베이스
데이터 크기가 커지면 Pandas로 transform이 불가하기 때문에 빅데이터 분산 처리 기술(Spark)이 필요함

데이터 웨어하우스 : 회사에 필요한 모든 데이터를 모아놓은 중앙 데이터베이스(SQL 기반의 관계형 데이터베이스)
클라우드 기반 : AWS Redshift, 구글 클라우드의 BigQuery, Snowflake 등
오픈소스 기반 : 하둡 기반의 Hive, Presto
데이터 분석을 위한 별도의 데이터베이스를 만들고 그곳으로 적재하는 것이 필요함
데이터 분석을 위한 별개의 데이터베이스를 데이터 웨어하우스로 부름


데이터 레이크 vs. 데이터 웨어하우스

- 데이터 레이크(Data Lake)
구조화 데이터 + 비구조화 데이터
이벤트, 로그와 같은 목적이 불분명한 데이터들을 데이터 웨어하우스에 저장하는 것은 경제성에 맞지 않아 데이터 레이크에 저장
보존 기한이 없는 모든 데이터를 원래 형태대로 보존하는 스토리지에 가까움
데이터 웨어하우스에 비해 적은 비용, 큰 저장 공간


Decision Science

데이터 분석가 - 지표를 사용하여 보기 쉽게 시각화하여 대쉬보드를 만들고 리포트를 만들어 결정권자들이 더 나은 결정을 하기 위해 도와줌
데이터 웨어하우스에 적재된 데이터를 사용함
ETL을 통해 데이터를 추출해 변환하고 테이블 형태로 데이터 웨어하우스에 적재함
ETL로 복제된 테이블을 이해하고 쓰는게 불가능해지기 때문에 ETL로 적재된 테이블들을 사용하기 쉽게 정제된 형태로 join하여 새로운 형태의 테이블을 또 만들고 사용하는 것이 일반적임. 이 과정은 ELT
ELT : 데이터 웨어하우스, 데이터 레이크에 있는 데이터를 사용하기 쉽게 만드는 과정
데이터 분석가가 하는 일 중에 중요한 것들 중 하나임


KPI(Key Performance Indicator)란? 

> 조직 내에서 달성하고자 하는 중요한 목표로, 매출액같은 정량적 숫자가 선호됨

명확한 정의가 무엇인지 이해하는 것이 중요함
KPI의 수는 적을수록 좋음
잘 정의된 KPI는 현재 상황을 알고 더 나은 계획 수립이 가능함
OKR(Objective and Key Results)과 같은 목표 설정 프레임워크의 중요한 포인트임

1-5.

시각화 대시보드란? 

> 보통 중요한 지표를 시간의 흐름을 함께 보여주는 것이 일반적

지표의 경우 3A(Accessible, Actionable, Auditable)가 중요. 중요 지표 예: 매출액, 월간/주간 액티브 사용자수

가장 널리 사용되는 대시보드
세일즈포스의 태블로(Tableau), 마이크로소프트의 파워 BI, 구글 클라우드의 룩커(Looker)

데이터 엔지니어 : 데이터 인프라(데이터 웨어하우스 ETL, 데이터 파이프라인 구축하여 여러 데이터를 수집, 변환하여 데이터 웨어하우스/데이터 레이크에 적재)생성, 데이터 웨어하우스에 적재된 ETL 테이블을 분석하기 쉬운 ELT 거침.
데이터 분석가 : 위 데이터를 바탕으로 지표를 정의하고 시각화하며 리포트 작성. 데이터 기반의 의사결정(Decision Science)을 할 수 있게 해줌
데이터 과학자 : 데이터 기반으로 패턴을 찾아서 제품 기능 개선 > 머신러닝을 통해 진행


1-6. 클라우드란?

컴퓨팅 자원(HW, SW)을 네트워크를 통해 서비스 형태로 사용하는 것
서버 같은 자원을 필요한만큼 실시간으로 할당하고 사용한만큼 지불하는 것


클라우드의 장점

- 초기 투자 비용이 크게 줄어듬
- 리소스 준비를 위한 대기시간 대폭 감소
- 노는 리소스 제거로 비용 감소
- 글로벌 확장 용이
- 소프트웨어 개발 시간 단축(SaaS 이용)

구조화된 데이터를 다룸에 있어서 SQL이 기본


데이터 엔지니어

Python, SQL, Airflow, Spark를 알아야 함. 데이터 웨어하우스/레이크와 ETL 같은 데이터 인프라 구축
내부/외부 데이터를 데이터 웨어하우스로 가져오는 역할 수행
보통 외부 요청에 의해 새로운 데이터 소스를 추가


데이터 분석가 

데이터 웨어하우스의 데이터를 기반으로 지표를 만들고 시각화
ELT를 수행해 새로운 데이터 생성
DBT 같은 툴 사용하는 것이 일반적


ETL  vs. ELT

ETL : 데이터 엔지니어가 데이터 시스템 밖에 있는 데이터를 안으로 가져오는 것
ELT : 데이터 분석가가 데이터 웨어하우스/레이크 안에 있는 데이터를 조합해 사용하기 쉽게 새로운 데이터를 만드는 것


데이터 과학자

과거 데이터를 기반으로 개인에게 최적화된 형태로 미래를 예측하는 머신러닝 모델 생성
훈련 데이터에 왜곡이 있는지, 개인 정보를 사용하고 있는지에 대해 점검이 필요
모델 만들고 테스트하고 배포하고 모니터링하는 게 MLOps 직군


A/B 테스트 = 실험

새로운 기능을 만들었을 때 실제 사용자에게 노출을 시켜보고 기존 기능 보다 좋은지 확인하는 것
기존 버전과 하나 이상의 테스트로 구성됨


데이터 문해력(Data Literacy)이란?

데이터를 이해하고 활용할 수 있는 능력으로, 데이터 기반 의사 결정/제품 개선, 데이터(Gen AI) 기반 생산성 증대가 있음

데이터 거버넌스란?

구글의 정의 : 데이터의 보안, 개인정보 보호, 정확성, 가용성, 사용성을 보장하기 위해 수행하는 모든 작업. 여기에는 사람들이 취해야 하는 조치, 따라야 하는 프로세스, 데이터 수명 주기 절반에 걸쳐 이를 지원하는 기술이 포함됨.
>> 데이터의 잘못된 사용으로 인한 패널티가 있기 때문에 데이터 품질관리, 활용 프로세스 전반에 걸친 정책이 필요하다는 것