AI,머신러닝 23

Gemini API 테스트

2023년 12월 구글 Gemini의 확장된 버전이 공개되었다. Gemini 소개글: https://korea.googleblog.com/2023/12/blog-post_652.html 가장 유능하고 범용적인 AI 모델 제미나이(Gemini)를 소개합니다 모든 사람들에게 더욱 유용한 AI를 만듭니다 이 블로그는 구글 The Keyword 블로그( 영문 )에서도 확인하실 수 있습니다. 순다 피차이(Sundar Pichai) 구글 및 알파벳 CEO 기술의 변화는 과학의 발전, 인류 korea.googleblog.com Gemini로 간단하게 프롬프트를 테스트해본 내용과 API 테스트 결과를 정리해둔다. Gemini 테스트 Google AI Studio에서 gemini를 체험할 수 있으며, UI는 ChatGP..

(dacon) 농산물 가격 예측 (시계열 분석)

dacon 농산물 가격 예측 튜토리얼 https://dacon.io/edu/21025 농산물 가격 예측 프로젝트 농산물 가격 예측 프로젝트 학습을 통해 시계열 데이터 분석를 분석하는 기본적인 기법에서 부터 전통적 통계모델인 ARIMA 모델과 머신러닝 모델인 LightGBM을 이용한 예측 모델을 만들어 고도화 dacon.io 개요 프로젝트의 초점은 2021년도에 열렸던 농산물 가격 예측 대회의 데이터를 기반으로 시계열 데이터 분석 및 시계열 예측의 기본기를 다질 수 있도록 구성되어 있습니다. 목표 1. 시계열 데이터 이해와 분석: 시계열 데이터의 기본 구조와 특성, 그리고 주요 분석 기법(e.g., 이동평균, 지수이동평균, 계절성 분해 등)을 이해하고 적용합니다. 2. 데이터 전처리 및 정상성: 누락된 데..

(dacon) 축구선수 유망 여부 예측

dacon 축구선수 유망 여부 예측 예제를 따라해보았다. https://dacon.io/edu/1011 축구선수 유망 여부 예측 프로젝트 축구 선수의 특성 데이터를 살펴보고, 상관관계를 분석해 유망한 선수인지 여부를 판단하세요! dacon.io 데이터 다운로드를 위해 대회에도 등록 https://dacon.io/competitions/official/236031/overview/description 데이콘 Basic 축구선수의 유망 여부 예측 AI 경진대회 - DACON 분석시각화 대회 코드 공유 게시물은 내용 확인 후 좋아요(투표) 가능합니다. dacon.io 목적 본 프로젝트에서는 16~21세의 축구 선수 데이터를 기반으로 유망성을 예측하는 모델을 만들게 됩니다. 특히 상관관계 분석을 학습하고 모델에..

다중공선성(multicollinearity) 이슈

https://ko.wikipedia.org/wiki/%EB%8B%A4%EC%A4%91%EA%B3%B5%EC%84%A0%EC%84%B1 다중공선성 - 위키백과, 우리 모두의 백과사전 위키백과, 우리 모두의 백과사전. 다중공선성(多重共線性)문제(Multicollinearity)는 통계학의 회귀분석에서 독립변수들 간에 강한 상관관계가 나타나는 문제이다. 독립변수들간에 정확한 선형관계 ko.wikipedia.org 회귀분석 시 피쳐들 간에 상관관계가 높으면 다중공선성 이슈가 발생한다고 한다. "변수들이 서로 독립이다"는 회귀분석의 전제 가정을 위배하므로 해결해야 한다고 설명하기도 한다. 다중공선성으로 인해 모델의 정확도가 떨어지는게 아닐까 걱정되어서 찾아봤는데, 결론적으로 모델의 정확도는 떨어지지 않는다. 다..

AI,머신러닝 2023.11.29

DecisionBoundaryDisplay에서 multiclass 확률 시각화

모델 예측 확률을 시각화하기 위해 matplotlib의 pcolormesh 함수를 이용해서 (2차원) 데이터 변화에 따른 predict_proba(또는 decision_function) 결과값을 아래와 같이 그라데이션으로 표현할 수 있다. (소스코드) 그리고, scikit-learn에는 이 작업을 손쉽게 해주는 DecisionBoundaryDisplay 클래스가 준비되어 있다. 하지만, DecisionBoundaryDisplay에 타겟 클래스가 3개 이상인 분류 모델을 사용하면, 아래 왼쪽 차트와 같이 predict 결과만을 시각화할 수 있고 부드러운 확률 변화는 확인할 수 없다. (오른쪽 차트와 같이 이진 분류 모델은 부드러운 확률 변화를 확인할 수 있다.) 이에 멀티클래스 분류 모델의 확률 변화도 시..

AI,머신러닝 2023.11.16

DALL-E3 체험

며칠 전 DALL-E3가 공개되었다고 하여 구경해 보았다. https://openai.com/dall-e-3 DALL·E 3 DALL·E 3 understands significantly more nuance and detail than our previous systems, allowing you to easily translate your ideas into exceptionally accurate images. openai.com 현재 BING Image Creator에서 체험해 볼 수 있다. https://www.bing.com/images/create Bing Bing은 지능적인 검색 기능은 사용자가 원하는 정보를 빠르게 검색하고 보상을 제공합니다. www.bing.com 블로그에 쓸 이미지도 ..

Gradient Boosting (XGBoost, LightGBM, CatBoost 비교)

https://www.geeksforgeeks.org/ml-gradient-boosting/ Gradient Boosting in ML - GeeksforGeeks A Computer Science portal for geeks. It contains well written, well thought and well explained computer science and programming articles, quizzes and practice/competitive programming/company interview Questions. www.geeksforgeeks.org https://zephyrus1111.tistory.com/224 20. Gradient Boosting 알고리즘에 대해서 알아보..

AI,머신러닝 2023.09.19

Target Encoding - 범주형 변수의 수치형 변환

https://towardsdatascience.com/dealing-with-categorical-variables-by-using-target-encoder-a0f1733a4c69 Target-encoding Categorical Variables One nice alternative to One-hot encoding your categories towardsdatascience.com 대부분의 머신러닝 알고리즘은 입력값으로 수치형 변수만을 사용하므로, 범주형 변수는 수치형으로 변환해야 한다. 흔히 쓰이는 방법으로는 Ordinal Encoding과 One-Hot Encoding이 있는데, 다음과 같은 특징과 단점을 갖고 있다. (https://scikit-learn.org/stable/modules..