https://www.youtube.com/watch?v=pJCcGK5omhE&t=21s
https://www.youtube.com/watch?v=sGTWFCq5OKM
https://www.youtube.com/watch?v=Q81RR3yKn30
https://www.datasciencecentral.com/intuition-behind-bias-variance-trade-off-lasso-and-ridge/
회귀 모델의 오차는 다음과 같다.
$\begin{align}
Err(x) &= E[(Y – \hat{Y})^2] \\
&= (E[\hat{Y}] – \hat{Y})^2 + E[\hat{Y} – E[\hat{Y}]]^2 + \sigma^2 \\
&= Bias^2+ Variance + Irreducible Error
\end{align}$
오차를 줄이기 위해 bias와 variance를 줄여야 한다.
- Bias: 훈련 데이터 상에서 예측값과 실제값과의 차이
- Variance: 예측 오차의 확산 정도. 훈련 데이터의 fluctuation에 대한 sensitivity로 인해 발생.
그런데, bias와 variance는 trade-off 관계에 있다.
모델의 복잡도가 올라갈수록 bias는 낮아지는 대신 variance는 증가하며, 둘 사이의 균형을 이뤄야 예측 오차를 줄일 수 있다.
최소제곱법은 bias를 최소화하는 기법인데, 여기에 정규화(regularization)를 적용하여 bias를 조금 높이더라도 variance를 그 이상으로 줄이는 방법을 정규화 모델이라고 한다.
regularization은 다른 말로 desensitization이라고 할 수 있다.
Ridge Regression
최소제곱법에 L2 norm을 추가하여 정규화(regularization)한다.
정규화 하이퍼파라미터인 람다를 높일수록 계수가 작아지게 된다.
변수 간 상관관계가 높은 상황(collinearity)에서 예측 성능이 좋다.
LASSO
Least Absolute Shrinkage and Selection Operator
정규화를 위해 제곱 대신 절대값(L1 norm)을 사용한다.
절대값을 사용하면, 람다가 커짐에 따라 결과 예측에 상관이 적은 변수의 계수를 0으로 만들어 예측 모델에서 제외시킬 수 있다.
(Ridge Regression에서는 계수가 0에 가까워지기는 하지만 완전히 0이 되지는 않음)
변수 간 상관관계가 높은 상황(collinearity)에서 예측 성능 및 변수 선택 성능이 저하된다.
Elastic Net
Ridge + LASSO
LASSO의 collinearity 문제점을 개선
'AI,머신러닝' 카테고리의 다른 글
Support Vector Machine(SVM) Kernel trick (2) | 2023.11.29 |
---|---|
다중공선성(multicollinearity) 이슈 (0) | 2023.11.29 |
DecisionBoundaryDisplay에서 multiclass 확률 시각화 (0) | 2023.11.16 |
Gradient Boosting (XGBoost, LightGBM, CatBoost 비교) (0) | 2023.09.19 |
SHAP (ML 모델 피쳐 중요도 측정) (0) | 2023.09.04 |