728x90
반응형
https://junklee.tistory.com/29
L1 Norm 과 L2 Norm 의 직관적 차이
위 그림을 보시면 두 개의 검은 점(벡터)를 잇는 여러 선들이 존재합니다. 벡터 사이의 거리를 재는 서로 다른 Norm을 표기한 셈입니다. 여기서 초록색 선이 우리가 가장 잘 알고있는, Euclidean distance, 즉 L2 Norm입니다. 단 하나의 경우밖에 있을 수 없지요. 그런데 나머지 빨간, 파란, 노란 선은 다른 경로를 움직이지만 사실 모두 같은 L1 Norm입니다. L1 Norm의 수식을 조금만 들여다보면, 당연함을 알 수 있고, 저런 시각적 특성 때문에, Taxicab geometry라고도 불립니다.
Regularization
L1 Regularization
위 그림 속에서 Loss function 부분의 summation of xw 가 사실 앞에서 봤던 y_pred라는 것을 생각해 볼 때, L1 Regularization이라는 건 결국 L1 Loss 에 Regularization Term을 붙인 것에 불과합니다. 기존 Loss에 절댓값만큼의 어떤 족쇄(패널티)를 달아줌으로써 Cost가 더 커지게 만든 셈인데, 모델 Weight의 과도한 변화를 막는다는 느낌에 걸맞습니다. 저기서 람다가 작아질 수록, 약한 정규화가 적용됩니다. Sparse feature에 의존한 모델에 L1 Regularization을 사용하면, 불필요한 Feature에 대응하는 Weight를 정확히 0으로 만들어버려, Feature selection의 효과를 내는데, 이에 대한 설명은 조금 더 복잡하기에 이후 다른 글로 정리하겠습니다. 마지막으로 L1 Regularization을 사용하는 선형 회귀 모델을 Lasso model이라고도 합니다.
L2 Regularization
L1 Reg와 같이, L2 Reg도 기존의 L2 Loss에 Regularization Term을 붙여습니다. 목표도 같겠지요. 다만 불필요한 Feature(이상치)에 대응하는 Weight를 0에 가깝게 만들 뿐, 0으로 만들지는 않습니다. 이런 특성 때문에, 강하게 밀어붙이는 L1 Reg반해 L2 Reg은 선형 모델의 일반화 능력을 항상 개선시키는 것으로 알려져 있습니다. 마지막으로 L2 Reg을 사용하는 선형 회귀 모델을 Ridge model이라고 합니다.
Regularization은 보통 정규화라고 번역되지만, regularization term은 규제항이라고 부르는게 좋을 듯
반응형
'AI,머신러닝 > 용어' 카테고리의 다른 글
Target Encoding - 범주형 변수의 수치형 변환 (0) | 2023.09.18 |
---|---|
크로스 엔트로피 (Cross-Entropy) (0) | 2023.09.05 |
경사 하강법 (Gradient Descent) (0) | 2023.09.05 |
지니 불순도 (Gini Impurity) (0) | 2023.08.18 |
정보량, 엔트로피 (0) | 2023.08.16 |