카테고리 없음

데이터분석 > 2주차 > 파트 06 > 0822~0823

나는야석사 2024. 8. 22. 20:47

Part 1 첫 발 내딛기

데이터란 무엇인가

데이터란?

영화, 게임 아이템 목록 등 이론을 세우는 데 기초가 되는 사실, 또는 바탕이 되는 자료

 

데이터 : 영어 표준점수 141점, 과탐 표준점수 53점

정보 : 영어 1등급, 과탐 4등급

지식 : 비교적 수준이 높다, 비교적 수준이 낮다

지혜 : 다른 과목을 공부해야겠다, 과탐 공부를 더 해야겠다

 

데이터 : 정보를 얻을 수 있는 수치화/계량화 된 것

데이터의 종류 및 실습

- 숫자 데이터 : 숫자로 이루어진 데이터

숫자와 화폐기호, 수식, 소수점, %, 지수 등으로 이루어진 데이터

 

- 문자 데이터 : 핸드폰 번호, 주민번호, 숫자, 기호, 명칭과 같은 데이터

문자와 숫자가 혼합된 데이터

수식이 불가능할 수도 있음

010-1234-5678에서 - 을 뺄셈으로 생각할수도 있음

 

- 날짜 데이터 : 년,월, 일 등 날짜를 표시하기 위한 데이터, -(하이픈), 슬래시(/)로 표현 가능

2023-10-02 +2 하면 10/4로 적용 가능함

도메인 지식 습득하기

도메인 지식 : 특정한 전문화된 학문/분야의 지식

데이터 분석가에게는 프로그래밍, 통계학, 도메인지식이 필요함

-----------------------------------

데이터분석 > 2주차 > 파트 07 > 0823

-논리 데이터

  • True(1), False(0)
  • 참이나 거짓을 표시하는 데이터
  • 논리 함수에 주로 사용됨

 

- 수식 데이터

  • =1+2+3, =SUM(A1, A2)
  • 함수 혹은 수식으로 구성된 데이터

 

- 논리 함수

  • 주어진 조건에 따라 참 또는 거짓을 반환
  • IF, AND, OR, NOT 함수 등이 포함

 

- 집계 함수

  • 여러 개의 입력을 받아 하나의 결과물 출력
  • SUM, MAX, MIN, AVERAGE 등의 함수

알아두면 좋은 엑셀 집계 함수

 

- SUM

  • 모든 범위 값의 합계를 계산
  • SUM(A1:A4) : A1~A4까지 범위 값을 합 출력

- MAX

  • 모든 범위 중 최대값 검색
  • MAX(A1:A4) A1~A4 중 가장 큰 값 출력

- MIN

  • 모든 범위 값 중 최소값 검색
  • MIN(A1:A4) : A1~A4 중 가장 작은 값 출력

-  AVERAGE

  • 모든 범위값의 평균값 계산
  • AVERAGE(A1:A4) A1~A4의 평균값 출력
=AND(필기>60, 실기>60)
=OR(필기>60, 실기>60)

=IF(조건, TRUE, FALSE)

=IF(평균>70, "참", "거짓")
# 평균이 70 초과만 참 출력 아니면 거짓 출력

=IF(AND(필기>60, 실기>60), "합격", "불합격")
# 필기>60, 실기>60을 모두 만족해야 합격, 하나라도 불만족하면 불합격 출력

 

집계함수, 논리함수.xlsx
0.03MB

 

엑셀에서 IF문만을 사용해 데이터분석을 한 것

train - train.csv
0.08MB
test - test.csv
0.03MB
gender_submission - gender_submission.csv
0.00MB

 

결측치와 강의 정리

1. 결측치

2, 결측값 대체하기

3. 배운 내용 정리

 

- 결측치란?

0이 아닌 값으로 NA, NaN, Null 등 다양한 이름으로 불림

 

- 결측치가 발생하는 이유

  • 실제로 값을 입력하지 않음
  • 설문조사 등 특정 질문에 미응답
  • 데이터의 오류

- 결측치를 대체하는 이유

  • 결측치는 데이터의 손실을 불러올 수 있음
  • 결측치 대체에 따라 데이터 편향이 생길 수 있음
  • 결측치 처리에 따라 분석 결과가 매우 달라질 수 있음

- 결측값 대체하기

  • 평균으로 대체하기
    • 변수의 결측값을 평균값으로 대체
    • 특정 정보가 존재하지 않을 경우, 평균값이 가장 좋은 샘플이라는 논리에 기인
    • 정보의 손실은 줄어들 수 있으나 결측치에 대한 불확싱설을 고려하지 못함
  • 완전제거하기
    • 결측치가 포함된 값을 분석 대상에서 제거하기
    • 분석에서 편향 발생할 가능성 적음
    • 정보의 손실 및 검정력 약화 문제 야기 가능성 존재
  • 회귀대체법
    • 회귀 방정식을 통해 결측값을 예측값으로 대체하는 방법
    • 변수의 특성에 따라 회귀식을 구성해 예측력 향상을 꾀함