데이터분석 > 2주차 > 파트 06 > 0822~0823
Part 1 첫 발 내딛기
데이터란 무엇인가
데이터란?
영화, 게임 아이템 목록 등 이론을 세우는 데 기초가 되는 사실, 또는 바탕이 되는 자료
데이터 : 영어 표준점수 141점, 과탐 표준점수 53점
정보 : 영어 1등급, 과탐 4등급
지식 : 비교적 수준이 높다, 비교적 수준이 낮다
지혜 : 다른 과목을 공부해야겠다, 과탐 공부를 더 해야겠다
데이터 : 정보를 얻을 수 있는 수치화/계량화 된 것
데이터의 종류 및 실습
- 숫자 데이터 : 숫자로 이루어진 데이터
숫자와 화폐기호, 수식, 소수점, %, 지수 등으로 이루어진 데이터
- 문자 데이터 : 핸드폰 번호, 주민번호, 숫자, 기호, 명칭과 같은 데이터
문자와 숫자가 혼합된 데이터
수식이 불가능할 수도 있음
010-1234-5678에서 - 을 뺄셈으로 생각할수도 있음
- 날짜 데이터 : 년,월, 일 등 날짜를 표시하기 위한 데이터, -(하이픈), 슬래시(/)로 표현 가능
2023-10-02 +2 하면 10/4로 적용 가능함
도메인 지식 습득하기
도메인 지식 : 특정한 전문화된 학문/분야의 지식
데이터 분석가에게는 프로그래밍, 통계학, 도메인지식이 필요함
-----------------------------------
데이터분석 > 2주차 > 파트 07 > 0823
-논리 데이터
- True(1), False(0)
- 참이나 거짓을 표시하는 데이터
- 논리 함수에 주로 사용됨
- 수식 데이터
- =1+2+3, =SUM(A1, A2)
- 함수 혹은 수식으로 구성된 데이터
- 논리 함수
- 주어진 조건에 따라 참 또는 거짓을 반환
- IF, AND, OR, NOT 함수 등이 포함
- 집계 함수
- 여러 개의 입력을 받아 하나의 결과물 출력
- SUM, MAX, MIN, AVERAGE 등의 함수
알아두면 좋은 엑셀 집계 함수
- SUM
- 모든 범위 값의 합계를 계산
- SUM(A1:A4) : A1~A4까지 범위 값을 합 출력
- MAX
- 모든 범위 중 최대값 검색
- MAX(A1:A4) A1~A4 중 가장 큰 값 출력
- MIN
- 모든 범위 값 중 최소값 검색
- MIN(A1:A4) : A1~A4 중 가장 작은 값 출력
- AVERAGE
- 모든 범위값의 평균값 계산
- AVERAGE(A1:A4) A1~A4의 평균값 출력
=AND(필기>60, 실기>60)
=OR(필기>60, 실기>60)
=IF(조건, TRUE, FALSE)
=IF(평균>70, "참", "거짓")
# 평균이 70 초과만 참 출력 아니면 거짓 출력
=IF(AND(필기>60, 실기>60), "합격", "불합격")
# 필기>60, 실기>60을 모두 만족해야 합격, 하나라도 불만족하면 불합격 출력
엑셀에서 IF문만을 사용해 데이터분석을 한 것
결측치와 강의 정리
1. 결측치
2, 결측값 대체하기
3. 배운 내용 정리
- 결측치란?
0이 아닌 값으로 NA, NaN, Null 등 다양한 이름으로 불림
- 결측치가 발생하는 이유
- 실제로 값을 입력하지 않음
- 설문조사 등 특정 질문에 미응답
- 데이터의 오류
- 결측치를 대체하는 이유
- 결측치는 데이터의 손실을 불러올 수 있음
- 결측치 대체에 따라 데이터 편향이 생길 수 있음
- 결측치 처리에 따라 분석 결과가 매우 달라질 수 있음
- 결측값 대체하기
- 평균으로 대체하기
- 변수의 결측값을 평균값으로 대체
- 특정 정보가 존재하지 않을 경우, 평균값이 가장 좋은 샘플이라는 논리에 기인
- 정보의 손실은 줄어들 수 있으나 결측치에 대한 불확싱설을 고려하지 못함
- 완전제거하기
- 결측치가 포함된 값을 분석 대상에서 제거하기
- 분석에서 편향 발생할 가능성 적음
- 정보의 손실 및 검정력 약화 문제 야기 가능성 존재
- 회귀대체법
- 회귀 방정식을 통해 결측값을 예측값으로 대체하는 방법
- 변수의 특성에 따라 회귀식을 구성해 예측력 향상을 꾀함