01. ν΅κ³νμ΄λ?
- λ°μ΄ν° μμ§, μ 리, λΆμ, ν΄μ β κ²°κ³Ό μ μνλ νλ¬Έ
- μ£Όμ΄μ§ μλ£λ₯Ό ν λλ‘ λ³΄νΈ νλΉν μ΄λ‘ μ μΆλ‘ ν΄λ΄λ νλ¬Έ
Note
μλ£μ μμ§κ³Όμ μ μ€κ³ & μλ£λ₯Ό μμ½νκ³ ν΄μ β κ²°λ‘ λμΆ & μΌλ°ννλ μ 체μ μΈ μ리μ λ°©λ²λ‘ μ 곡
02. μλ£/λ°μ΄ν° λΆμ λ¨κ³
- 1λ¨κ³ : μλ£ μμ§ (Data Engineering)
- 2λ¨κ³ : μλ£ ν΄μ (λ°μ΄ν° νμ κ³Όμ - EDA)
- 3λ¨κ³ : μλ£λ‘λΆν° μ¬λ°λ₯Έ κ²°λ‘ λμΆ
03. Statistics
a. Descriptive Statistics (κΈ°μ ν΅κ³)
- μ£Όμ΄μ§ λ°μ΄ν°λ₯Ό μμ½νκ³ μ€λͺ νλ λ° μ€μ
- λ¨μν νμ¬ λ°μ΄ν°λ₯Ό μ€λͺ
b. Inferential Statistics (μΆλ¦¬ ν΅κ³)
- νλ³Έ λ°μ΄ν°λ₯Ό κΈ°λ°μΌλ‘ λͺ¨μ§λ¨μ λν κ²°λ‘ μΆλ‘
- Population : λͺ¨μ§λ¨
- Sample : νλ³Έ
04. ν΅κ³νμ λͺ©ν
- ν΅κ³νμ μλ£μ μΌλΆ (νλ³Έ)λ§μ μ΄μ©νμ¬ λͺ¨μ§λ¨ μ 체μ λν μΆλ‘ μ νλ―λ‘ νμ μ€λ₯μ κ°λ₯μ±μ΄ μ‘΄μ¬
- Random Samplingμ ν΅ν΄ μ€λ₯λ₯Ό μ΅μν
- λ°λΌμ νλ³Έ μΆμΆμ κ³Όμ κ³Ό λ²μλ₯Ό μ€κ³νκ³ νλ³Έμ ν¬ν¨λμ΄ μλ μ 보λ₯Ό λΆμνμ¬ λͺ¨μ§λ¨μ μ 보λ₯Ό μΆμΆνλ κ²μ΄ ν΅κ³νμ μ£Όλ λͺ©ν
05. λΉνμ μ¬κ³
- λ Όλ¦¬μ ν¨μ , μμ νλ³Έ, non-random νλ³Έμ μν κ²°λ‘
- μλͺ»λ νλ³Έ μΆμΆ, μ°κ΄μ±κ³Ό μΈκ³Όκ΄κ³ μ€λ₯, μ§λ¨ β κ°μΈμΌλ‘ μΌλ°ν μ€λ₯
- bias, μ μμ± (μ»μ κ²°κ³Όκ° μ°μ°μ΄ μλλΌλ μ¦κ±°)κ³Ό μ€μμ±
- ν΅κ³μ μΌλ‘ μ μνλ μ€μ λ‘ ν° λ³νλ μλ κ²½μ°
- μμ κ°μ μ£Όμμ μ λΉνμ μ¬κ³ κ° νμν¨