일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 딥러닝
- ETRI
- httr
- 다변량분석
- 가나다영
- 에이블러
- python
- Ai
- 서평
- Eda
- 시계열
- 머신러닝
- KT 에이블스쿨
- ML
- 기계학습
- SQL
- SQLD
- 빅데이터분석기사
- 한국전자통신연구원 인턴
- 소셜네트워크분석
- 시각화
- ggplot2
- r
- 하둡
- 웹크롤링
- matplot
- kt aivle school
- hadoop
- 에트리 인턴
- 한국전자통신연구원
- 빅분기
- KT AIVLE
- 하계인턴
- cnn
- arima
- dx
- 에이블스쿨
- kaggle
- 프로그래머스
- 지도학습
- Today
- Total
목록시각화 (4)
소품집
1. Shapley Value Shapley Value란, 게임이론을 바탕으로 Game에서 각 Player의 기여분을 계산하는 방법임. 하나의 feature에 대한 중요도를 얻기 위해 다양한 feature의 조합을 구성하고, 해당 feature의 유무에 따른 평균적인 변화를 통해 얻은 값임. 따라서 Shapley Value는 전체 성과(판단)을 창출하는 데 각 feature가 얼마나 공헌했는지 수치로 표현할 수 있음. ✔️ 게임이론 여러 주제가 서로 영향을 미치는 상황에서 서로가 어떤 의사결정이나 행동을 하는지에 대해 이론화한 것 ϕi : i 데이터에 대한 Shapley Value F : 전체 집합 S : 전체 집합에서, i 번째 데이터가 빠진 나머지의, 모든 부분 집합 fS∪i(xS∪i) : i 번째 ..
1. SHAP Feature Importance - feature importance plot - 상위 중요도 기준으로 내림차순 기본 정렬 import shap shap_values = shap.TreeExplainer(model).shap_values(train_data) shap.summary_plot(shap_values, train_data, plot_type='bar') SHAP 에는 저장 기능이 없기 때문에 matplotlib로 저장해야함. import matplotlib.pyplot as plt f = plf.figure() shap.summary_plot(shap_values, X_test) f.savefig('/경로/파일명.png', bbox_incehs='tight', dpi=600) ..
setwd('/Users/dayeong/Desktop/reserch/data') # Dataloading dt_loan % mutate(buy_n = n()) %>% filter(buy_n>=600) # 중복 제거 dt 이 Age 고객들을 분석해보자 Age_25 % filter( Age == "26-35" ) Age_25 % mutate(ratio = n/sum(n), location = ifelse(ratio > min(ratio) , min(ratio) + ratio/2 , ratio/2 ) ) plot1 % ggplot(aes(x=factor(1), y = ratio, fill = Marital_Status)) + geom_bar(stat="identity") + geom_text(aes(x= fa..
오늘은 kaggle 타이타닉 데이터 셋을 이용해 시각화와 예측을 해봤다. getwd() setwd('/Users/dayeong/Desktop/reserch/data') # Kaggle 2DAY # https://www.kaggle.com/mrisdal/exploring-survival-on-the-titanic # Load packages library(ggplot2) library(ggthemes) library(scales) library(dplyr) library(mice) library(randomForest) # classification model ## # Load Data train