전체 글 49

Looker Studio에서 지도에 위치 데이터 시각화

Looker Studio(구 Data Studio)에서 위/경도 위치 데이터를 지도에 표시하는 방법을 정리해보았다. 다음 기능을 지원한다. 시/군/구 등의 단위로 그룹화해서 지도에 데이터(개수) 표시 그룹 단위를 시/도, 시/군/구, 읍/면/동 레벨로 변경 가능 (drill down) 데이터 개수에 따라 풍선 크기를 다르게 표시 풍선 도움말에 주소 표시 2021년 4월에 Data Studio(현 Looker Studio)에서 작업했던 내용을 정리한 글입니다. 현재와 많이 다를 수 있습니다. 데이터 리소스 준비 Looker Studio에서 지원하는 여러 데이터 소스 중 BigQuery를 사용하였다. 아래와 같이 뷰를 구성했다. # 원본 데이터 테이블 with geo as ( select address_do..

데이터 2023.12.06

(dacon) 농산물 가격 예측 (시계열 분석)

dacon 농산물 가격 예측 튜토리얼 https://dacon.io/edu/21025 농산물 가격 예측 프로젝트 농산물 가격 예측 프로젝트 학습을 통해 시계열 데이터 분석를 분석하는 기본적인 기법에서 부터 전통적 통계모델인 ARIMA 모델과 머신러닝 모델인 LightGBM을 이용한 예측 모델을 만들어 고도화 dacon.io 개요 프로젝트의 초점은 2021년도에 열렸던 농산물 가격 예측 대회의 데이터를 기반으로 시계열 데이터 분석 및 시계열 예측의 기본기를 다질 수 있도록 구성되어 있습니다. 목표 1. 시계열 데이터 이해와 분석: 시계열 데이터의 기본 구조와 특성, 그리고 주요 분석 기법(e.g., 이동평균, 지수이동평균, 계절성 분해 등)을 이해하고 적용합니다. 2. 데이터 전처리 및 정상성: 누락된 데..

(dacon) 축구선수 유망 여부 예측

dacon 축구선수 유망 여부 예측 예제를 따라해보았다. https://dacon.io/edu/1011 축구선수 유망 여부 예측 프로젝트 축구 선수의 특성 데이터를 살펴보고, 상관관계를 분석해 유망한 선수인지 여부를 판단하세요! dacon.io 데이터 다운로드를 위해 대회에도 등록 https://dacon.io/competitions/official/236031/overview/description 데이콘 Basic 축구선수의 유망 여부 예측 AI 경진대회 - DACON 분석시각화 대회 코드 공유 게시물은 내용 확인 후 좋아요(투표) 가능합니다. dacon.io 목적 본 프로젝트에서는 16~21세의 축구 선수 데이터를 기반으로 유망성을 예측하는 모델을 만들게 됩니다. 특히 상관관계 분석을 학습하고 모델에..

다중공선성(multicollinearity) 이슈

https://ko.wikipedia.org/wiki/%EB%8B%A4%EC%A4%91%EA%B3%B5%EC%84%A0%EC%84%B1 다중공선성 - 위키백과, 우리 모두의 백과사전 위키백과, 우리 모두의 백과사전. 다중공선성(多重共線性)문제(Multicollinearity)는 통계학의 회귀분석에서 독립변수들 간에 강한 상관관계가 나타나는 문제이다. 독립변수들간에 정확한 선형관계 ko.wikipedia.org 회귀분석 시 피쳐들 간에 상관관계가 높으면 다중공선성 이슈가 발생한다고 한다. "변수들이 서로 독립이다"는 회귀분석의 전제 가정을 위배하므로 해결해야 한다고 설명하기도 한다. 다중공선성으로 인해 모델의 정확도가 떨어지는게 아닐까 걱정되어서 찾아봤는데, 결론적으로 모델의 정확도는 떨어지지 않는다. 다..

AI,머신러닝 2023.11.29

DecisionBoundaryDisplay에서 multiclass 확률 시각화

모델 예측 확률을 시각화하기 위해 matplotlib의 pcolormesh 함수를 이용해서 (2차원) 데이터 변화에 따른 predict_proba(또는 decision_function) 결과값을 아래와 같이 그라데이션으로 표현할 수 있다. (소스코드) 그리고, scikit-learn에는 이 작업을 손쉽게 해주는 DecisionBoundaryDisplay 클래스가 준비되어 있다. 하지만, DecisionBoundaryDisplay에 타겟 클래스가 3개 이상인 분류 모델을 사용하면, 아래 왼쪽 차트와 같이 predict 결과만을 시각화할 수 있고 부드러운 확률 변화는 확인할 수 없다. (오른쪽 차트와 같이 이진 분류 모델은 부드러운 확률 변화를 확인할 수 있다.) 이에 멀티클래스 분류 모델의 확률 변화도 시..

AI,머신러닝 2023.11.16

Python package 개발과 PyPI 배포

ml 스터디를 하면서 작성한 코드를 패키지로 만들기 위해 파이썬 패키지 개발 및 배포에 대해 찾아보았다. https://packaging.python.org/en/latest/tutorials/packaging-projects/ Packaging Python Projects - Python Packaging User Guide Previous Managing Application Dependencies packaging.python.org 위 튜토리얼을 따라서 비교적 간단하게 ml 유틸리티 패키지를 빌드하고 PyPI에 배포할 수 있었다. kebiml A simple private ml utilities pypi.org 패키지 프로젝트 구조 packaging_tutorial/ (임의의_프로젝트_이름) ├─..

개발 기타 2023.11.15

DALL-E3 체험

며칠 전 DALL-E3가 공개되었다고 하여 구경해 보았다. https://openai.com/dall-e-3 DALL·E 3 DALL·E 3 understands significantly more nuance and detail than our previous systems, allowing you to easily translate your ideas into exceptionally accurate images. openai.com 현재 BING Image Creator에서 체험해 볼 수 있다. https://www.bing.com/images/create Bing Bing은 지능적인 검색 기능은 사용자가 원하는 정보를 빠르게 검색하고 보상을 제공합니다. www.bing.com 블로그에 쓸 이미지도 ..

tistory CSS 변경

현재 tistory 스킨 중에서 Odyssey 스킨을 사용하고 있는데, 스킨 때문인건지 몇 가지 마음에 안 드는 스타일이 있어서 CSS를 조금 수정해보았다. 참고로 tistory HTML/CSS 편집은 1. 관리 페이지 > (꾸미기 섹션) 스킨 편집 클릭 2. (우측 패널) 스킨 편집 창 > (썸네일 아래) html 편집 클릭 3. (우측 패널) HTML / CSS 클릭 하면 각각 html 및 css를 편집할 수 있다. 리스트 간격 리스트의 줄간격이 좁고, 아래 깊이로 들어갈 때 너무 많이 띄어진다. 다음과 같이 변경 li 줄간격: 24px → 30px ul top 마진: 18px → 4px 변경한 이후로 줄 간격이 늘어나고 더 깊이 들어갈 때 덜 띄어지게 바뀌었다. 제목 크기 제목1, 2, 3의 폰트 ..

기타 2023.09.28