Notice
Recent Posts
Recent Comments
Link
«   2025/04   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30
Archives
Today
Total
관리 메뉴

jh-data1og 님의 블로그

패스트캠퍼스 ㅣ 데이터분석 부트캠프 18기 2주차 본문

카테고리 없음

패스트캠퍼스 ㅣ 데이터분석 부트캠프 18기 2주차

jh-data1og 2025. 3. 9. 22:46

 

 

 

 

 

 

실무 엑셀 데이터분석_이동훈 강사님

 

 

지난 1주차에 이어서 진행되었던 엑셀을 활용한 데이터 분석 공부를 했습니다.

 

PART 6. 데이터 분석 및 모델링

 

귀무가설

- 기본적으로 참으로 추정되며 처음부터 버릴 것으로 예상하는 가설

 

▶ 대립가설

- 귀무 가설에 대립하는 명제
- 보통 독립 변수와 종속 변수 사이에 어떤 특정한 관련이 있다는 결과가 도출됨
- 귀무가설을 기각하는 반증의 과정을 거쳐 참이라고 받아들여질 수 있음

 

▶ P-VALUE(유의확률)

- 귀무 가설이 맞다는 전제 하에, 표본에서 실제로 관측된 통계치와 '같거나 더 극단적인' 통계치가 관측될 확률

 

▶ t-test

- 두 집단(또는 한 집단의 전/후)의 평균에 통계적으로 유의미한 차이가 있는지를 검정

 

▶F-검정

- 두 집단의 분산에 통계적으로 유의미한 차이가 있는지를 검정

 

f-검정의 귀무 가설
p >= 유의수준일 때,

두 집단의 분산에 유의미한 차이가 없다.
f-검정의 대립 가설

p < 유의수준일 때,
두 집단의 분산에 유의미한 차이가 있다. 

 

 

▶ 회귀분석

- 두 개 이상의 연속형 변수인 종속 변수와 독립 변수 간의 관계를 파악하는 분석

 

▶ 시계열 데이터 분석

- 시간의 흐름에 따라 발생된 데이터를 분석하는 기법

- 정상 시계열 데이터 or 비정상 시계열 데이터로 구분

 

- 지수평활법

: 현재 시점에 가까운 시계열 자료에 큰 가중치를 주고, 과거 시계열 데이터일수록 작은 가중치를 주어

미래 시계열 데이터를 예측하는 기법

 

=FORECAST.ETS($B41,$E$5:$E$40,$B$5:$B$40)

 

 

PART7. 데이터 시각화

 

▶ 차트 만들기

- 차트를 그릴 때 고민해야하는 3가지

1) 어떤 숫자로 차트를 그릴 것인가?

2) 어떤 차트가 숫자를 가장 잘 설명하는가?

3) 차트를 어떻게 디자인하는게 가장 효과적인가?

 

 

 

 

 

깊이있는 데이터분석을 위한 기초수학 및 통계

 

 

▶통계학이란?

- 산술적 방법을 기초로, 다량의 데이터를 관찰하고 정리 및 분석하는 방법을 연구하는 학문

 

▶탐색적 데이터 분석 (EDA)

- 기초적인 통계개념으로 데이터 전체를 파악

- 데이터의 형질에 대한 도메인 개념을 축적

- 전처리의 방향성을 제시

 

▶기술 통계

- 요약된 정보를 담고있는 통계량과 시각화를 바탕으로 데이터를 탐색

- 관측된 데이터의 특성을 파악

- 수치로 요약

 

▶추론 통계

- 추출한 표본의 통계량 관찰 및 분석기법을 활용해 모집단을 추론

- p-value 등을 활용해 추론의 신뢰도를 확보

- 점 추정, 구간 추정하거나 가설을 검정함

 

▶데이터 탐색 과정의 목적

- 어떠한 변수가 결론에 많은 영향을 미치는지

1) 유의미한 변수를 탐색

2) 변수 간의 독립성 확보

3) 의미없는 데이터를 제거

 

- 변수의 분포에 따라 사용할 수 있는 통계적 방법론이 다름

 

▶ 기초통계

 

- 변량: 자료의 수치 = 데이터 값

- 계급 : 변량을 일정한 간격으로 나눈 구간, 계급을 정할 때 변량의 최소 및 최대를 고려함.

- 도수 : 각 계급에 속하는 변량의 개수

- 상대도수 : 각 계급에 속하는 변량의 비율

 

- 평균 (Mean)  : 변량의 합을 변량의 수로 나눈 값

=MEAN

- 분산 (Variance) : 변량이 평군에서 얼마나 떨어져있는지 보기위한 통계량

=VAR.S

- 편차 (Deviation) : 변량에서 평균을 뺀 값

- 표준편차(Standard deviation) : 분산의 제곱근, 관찰값들이 얼마나 흩어져있는지 하나의 수치로 나타내는 통계량

=STDEV.S

 

- 모집단: 조사대상이 되는 전체 집합

- 표본: 모집단을 대표하는 모집단의 일부

- 모수 : 모집단에 대한 요약된 수치

 

- 모평군: 모집단의 평균

=AVERAGE

- 모분산: 모집단의 분산

=VAR.P

- 모표준편차

=STDEV.P

 

- 표본평균: 모집단의 일부인 표본에 대한 평균

=AVERAGE

- 표본분산 : 모집단의 일부인 표본에 대한 평균

=VAR.S

- 표본표준편차

=STDEV.S

 

- 신뢰도: 값이 알맞은 모평균이라고 믿을 수 있는정도, 주로 95%나 99%를 사용

- 신뢰구간: 모평균의 추정구간, 신뢰도에 따라, 표본의 수에 따라 정해짐

 

- 첨도: 데이터 분포의 뾰족한 정도를 파악하는 지표, 이상치 영향받음 O

(첨도 = 3 : 정규분포, 첨도 > 3 : 납작한 분포, 첨도 < 3 : 뾰족한 분포)

- 왜도 : 데이터 분포의 좌우 비대칭성 정도를 나타내는 지표

(평균 = 중앙값: 왜도 = 0, 왜도 >0 : 오른쪽으로 꼬리가 긴 분포, 왜도 < 0 : 왼쪽으로 꼬리가 긴 분포)

 

- 최빈값 : 가장 빈번하게 나타나는 값, 특히 범주형 자료에서 대표값으로 주로 사용

- 중앙값 (Median): 자료의 크기 순으로 나열했을 때 가운데 위치하는 값, 순서형 자료의 대표값으로 적합, 이상치에 크게 영향받지않음 X

- 평균값

=> 중심경향성 나타내는 통계량

 

- 분산

- 표준편차

- 범위: 관측값에서 가장 큰 값과 가장 작은 값의 차이

- IQR: 제3사분위수 - 제1사분위수

=> 퍼짐정도를 나타내는 통계량

 

-공분산: 2개의 확률변수의 선형관계를 나타내는 값

              음의 상관관계: -, 상관관계 없음: 0, 양의 상관관계: +

 

 

 

ㄴ▷정규분포

: 연속확률분포 중 하나이며, 중심극한정리에 의해 독립적인 확률변수들의 평균은 정규분포에 가까워지는 성질이 있음.

 

=NORM.DIST

=NIRM.INV

 

- 정규분포의 특징

1. 중앙 부분이 평균이고, 평균을 기준으로 대칭임

2. 그래프가 종 모양을 띰.

3. 표준편차의 값에 따라 정규 분포의 높낮이가 변함.

 

- 정규분포의 중요성

: 많은 분야의 연속형 데이터들이 종모양의 형태를 띤다는 것을 확인

 

 

ㄴ▷표준정규분포

: 평균이 0이고, 표준편차가 1인 분포

 

=NORM.S.DIST

=NORM.S.INV

 

- 표준화

: 다양한 형태의 정규 분포를 표준정규분포로 변환하는 방법

 

- 표준화의 중요성

: 다양한 데이터를 균일한 기준으로 비교할 수 있음.

 

 

 

▶ 기술 통계 

- 데이터의 간결한 요약정보

- 수치적인 통계량 또는 시각화

- 데이터의 특징을 파악하는 관점

 

▶ 추론 통계

- 모집단으로부터 추출한 표본을 사용

- 모집단에 대한 특성 추론이 목적

- 전체 모집단을 조사할 수 없을 때 유용

- p-value를 구하는 등의 과정을 거쳐서 모집단에 대한 가설을 검정

 

▶ 회귀분석

: 변수사이의 모형을 구한 뒤 적합도를 측정해내는 분석 방법

- 둘 이상의 변수 간의 관계를 보여주는 통계적인 방법

- 종속변수에 영향을 미치는 독립변수의 영향력을 판단할 수 있음

- 그러나, 인과관계를 설명하지는 못함

 

 

 

 

 

 

QUIZ

 

 

2주차에는 이동훈 강사님과 함께하는 실시간 강의가 마무리되었는데

그와 동시에 바로 퀴즈 문제를 풀고 제출했습니다.

그동안 배운 내용을 복습하는 내용의 객관식 형태 문제들로 이루어졌고,

1시간 안에 풀이를 제출하는 형식이였습니다.

처음 진행하는 퀴즈 문제 풀이라서 조금 긴장도 했지만

난이도가 무난한 편이라서 괜찮았습니다.

 

 

 

 

 

부트캠프 활용법 특강

 

 

패스트캠퍼스 데이터분석 부트캠프를 수료하고,

비즈니스 데이터분석가로 근무하고 계시는 분이 강의를 해주셨습니다.

외국계 기업 업무가 이루어지는 과정, 취업 관련한 조언들을 들을 수 있었고.

 

데이터 분석을 할 때

1. 분석 절차를 생각하며 흐름을 기록하고,

2. 생성형 AI 서비스를 활용해서 다양한 데이터분석을 시도와 PBL을 해보며,

3. 지원자격과 우대사항을 염두에 두라는 조언도 해주셨습니다.

 

또한, 포트폴리오에 대한 몇가지 팁들을 주셨고,

부트캠프에서 진행하는 기업 연계 프로젝트와 현직자 멘토링,

그리고 취업서비스를 잘!! 활용하라고 알려주셨습니다.

이 부트캠프를 수강하면서 내가 얻을 수 있는 건 어떤게 있을까 머릿 속에서 정리되지않던 생각들이

수료생분의 강의를 들으며 이러한 생각을 정리가 되는 시간이었습니다.