AI,머신러닝

다중공선성(multicollinearity) 이슈

깨비아빠0 2023. 11. 29. 10:16
728x90
반응형

 

 

 

https://ko.wikipedia.org/wiki/%EB%8B%A4%EC%A4%91%EA%B3%B5%EC%84%A0%EC%84%B1

 

다중공선성 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전. 다중공선성(多重共線性)문제(Multicollinearity)는 통계학의 회귀분석에서 독립변수들 간에 강한 상관관계가 나타나는 문제이다. 독립변수들간에 정확한 선형관계

ko.wikipedia.org

 

 

 

회귀분석 시 피쳐들 간에 상관관계가 높으면 다중공선성 이슈가 발생한다고 한다.

"변수들이 서로 독립이다"는 회귀분석의 전제 가정을 위배하므로 해결해야 한다고 설명하기도 한다.

 

다중공선성으로 인해 모델의 정확도가 떨어지는게 아닐까 걱정되어서 찾아봤는데, 결론적으로

모델의 정확도는 떨어지지 않는다. 다만 회귀계수가 불안정해지고, 이에 따라 변수의 해석력이 저하된다.

 

 

 

참고:

https://stats.stackexchange.com/questions/168622/why-is-multicollinearity-not-checked-in-modern-statistics-machine-learning

 

Why is multicollinearity not checked in modern statistics/machine learning

In traditional statistics, while building a model, we check for multicollinearity using methods such as estimates of the variance inflation factor (VIF), but in machine learning, we instead use

stats.stackexchange.com

 

반응형