분류 전체보기 49

의사결정 트리(Decision Tree) - C4.5 알고리즘

https://levelup.gitconnected.com/c4-5-decision-tree-explained-from-bottom-up-67468c1619a7 C4.5 Decision Tree. Explained from bottom up C4.5 Decision Tree is a complicated Algorithm to understand. It does require a lot of background knowledge. This blog has tried to collate… levelup.gitconnected.com https://tyami.github.io/machine%20learning/decision-tree-3-c4_5/ 의사결정 나무 (Decision Tree) C4.5 알고리즘..

AI,머신러닝 2023.08.24

의사결정 트리 (Decision Tree)

https://www.ibm.com/topics/decision-trees What is a Decision Tree | IBM Learn the pros and cons of using decision trees for data mining and knowledge discovery tasks www.ibm.com 트리 노드 분할 Decision tree 노드 분할 시 최적의 피쳐를 고르는 대표적인 방법으로는 정보 이득(information gain)과 지니 불순도(Gini impurity)가 있다. 정보 이득 (Information Gain) 정보 이득은 보통 노드 분할 전후의 엔트로피 차이를 뜻하지만, 엔트로피 대신 지니 불순도나 평균 제곱 오차(mean squared error) 등을 사용할 때에..

AI,머신러닝 2023.08.24

지니 불순도 (Gini Impurity)

https://www.learndatasci.com/glossary/gini-impurity/ Gini Impurity 7 Best Artificial Intelligence (AI) Courses Top courses you can take today to begin your journey into the Artificial Intelligence field. Learn more www.learndatasci.com 지니 불순도(Gini Impurity)는, 데이터셋에 다른 데이터가 섞여 있는 정도 - 데이터셋이 얼마나 완벽하게 하나의 클래스만 갖고 있는지(= 잘 분류되었는지) - 또는, 여러 클래스가 섞여 있는지(= 분류되지 않았는지)를 보여주는 지표 최소값은 0 - 완벽하게 분류됐음을 의미 (모든 ..

tistory에 LaTex 적용

https://data-newbie.tistory.com/429 tistory에 Latex 적용하기 latex를 처음에는 적용이 안되서, 안되는 줄 알았는데, 역시 찾아보지 않아서 몰랐던 것이다. 위에 있는 코드를 다음과 같은 위치에 넣어주면 된다. 스킨 편집 들어가기 2. html 편집 누르기 3. 위쪽 data-newbie.tistory.com 스킨 편집 > html 편집에서 안에 아래 코드 복사 아래와 같이 코드 앞뒤에 $를 붙여서 수식 표시 $ x^2 $ $ x_i $ $ -\sum\limits_{X}P(X)log_2(P(X)) $ 결과) $ x^2 $ $ x_i $ $ -\sum\limits_{X}P(X)log_2(P(X)) $

기타 2023.08.03

(kaggle) titanic

kaggle 튜토리얼 competition 격인 titanic 분석 https://www.kaggle.com/code/sunghwankang/titanic 최고 점수: 0.79904 (Random Forest) 피쳐: Pclass, Sex, Age, SibSp, Parch, Fare, Embarked Pclass, Sex, Embarked 피쳐 One-Hot 인코딩 numerical 컬럼 결측치 median 사용 XGBoost로 변경 후에 오히려 0.74로 점수가 낮아졌는데, overfitting을 완화하는 방향으로 hyperparameter를 조정하니 0.76으로 약간 상승. 최적 파라미터를 찾기 위한 grid search는 해보지 않음. EDA correlation hm_df = train_data[..