AI,머신러닝/용어 6

Target Encoding - 범주형 변수의 수치형 변환

https://towardsdatascience.com/dealing-with-categorical-variables-by-using-target-encoder-a0f1733a4c69 Target-encoding Categorical Variables One nice alternative to One-hot encoding your categories towardsdatascience.com 대부분의 머신러닝 알고리즘은 입력값으로 수치형 변수만을 사용하므로, 범주형 변수는 수치형으로 변환해야 한다. 흔히 쓰이는 방법으로는 Ordinal Encoding과 One-Hot Encoding이 있는데, 다음과 같은 특징과 단점을 갖고 있다. (https://scikit-learn.org/stable/modules..

L1, L2 정규화(Regularization)

https://junklee.tistory.com/29 L1, L2 Norm, Loss, Regularization? 정규화 관련 용어로 자주 등장하는 L1, L2 정규화(Regularization)입니다. 이번에는 단순하게 이게 더 좋다 나쁘다보다도, L1, L2 그 자체가 어떤 의미인지 짚어보고자합니다. 사용된 그림은 위키피디아 junklee.tistory.com L1 Norm 과 L2 Norm 의 직관적 차이 위 그림을 보시면 두 개의 검은 점(벡터)를 잇는 여러 선들이 존재합니다. 벡터 사이의 거리를 재는 서로 다른 Norm을 표기한 셈입니다. 여기서 초록색 선이 우리가 가장 잘 알고있는, Euclidean distance, 즉 L2 Norm입니다. 단 하나의 경우밖에 있을 수 없지요. 그런데 나..

크로스 엔트로피 (Cross-Entropy)

https://towardsdatascience.com/understanding-binary-cross-entropy-log-loss-a-visual-explanation-a3ac6025181a Understanding binary cross-entropy / log loss: a visual explanation Have you ever thought about what exactly does it mean to use this loss function? towardsdatascience.com https://3months.tistory.com/436 Cross-entropy 의 이해: 정보이론과의 관계 Cross-entropy 의 이해: 정보이론과의 관계 1. 손실함수로서의 Cross-entropy ..

지니 불순도 (Gini Impurity)

https://www.learndatasci.com/glossary/gini-impurity/ Gini Impurity 7 Best Artificial Intelligence (AI) Courses Top courses you can take today to begin your journey into the Artificial Intelligence field. Learn more www.learndatasci.com 지니 불순도(Gini Impurity)는, 데이터셋에 다른 데이터가 섞여 있는 정도 - 데이터셋이 얼마나 완벽하게 하나의 클래스만 갖고 있는지(= 잘 분류되었는지) - 또는, 여러 클래스가 섞여 있는지(= 분류되지 않았는지)를 보여주는 지표 최소값은 0 - 완벽하게 분류됐음을 의미 (모든 ..