일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 하계인턴
- 한국전자통신연구원 인턴
- ML
- httr
- 웹크롤링
- kaggle
- SQLD
- 에트리 인턴
- Eda
- SQL
- 시계열
- 가나다영
- 소셜네트워크분석
- KT 에이블스쿨
- 시각화
- 다변량분석
- cnn
- 빅분기
- 프로그래머스
- 하둡
- 에이블스쿨
- hadoop
- 지도학습
- matplot
- r
- 기계학습
- dx
- python
- 딥러닝
- 에이블러
- 머신러닝
- kt aivle school
- 서평
- Ai
- arima
- 빅데이터분석기사
- KT AIVLE
- ETRI
- 한국전자통신연구원
- ggplot2
- Today
- Total
목록AI (104)
소품집
1. Shapley Value Shapley Value란, 게임이론을 바탕으로 Game에서 각 Player의 기여분을 계산하는 방법임. 하나의 feature에 대한 중요도를 얻기 위해 다양한 feature의 조합을 구성하고, 해당 feature의 유무에 따른 평균적인 변화를 통해 얻은 값임. 따라서 Shapley Value는 전체 성과(판단)을 창출하는 데 각 feature가 얼마나 공헌했는지 수치로 표현할 수 있음. ✔️ 게임이론 여러 주제가 서로 영향을 미치는 상황에서 서로가 어떤 의사결정이나 행동을 하는지에 대해 이론화한 것 ϕi : i 데이터에 대한 Shapley Value F : 전체 집합 S : 전체 집합에서, i 번째 데이터가 빠진 나머지의, 모든 부분 집합 fS∪i(xS∪i) : i 번째 ..
어차피 석사 졸업식도 있을텐데 뭐🦦 하다가.. 어차피 출근하는데 가보자! 해서 다녀온 졸업식 칭구들이 챙겨준 꽃🌸 냅다 웃었더니 다 잘 나와서 만족 다들 그냥 냅다 웃어버리세용 노력할수록 운이 좋아진다 석사 가쥬앙~~!!🤍🤍
Cross-Validation이 필요한 이유 데이터는 기본적으로 label이 있는 Train / Test set으로 구성되어 있음. 모델 검증을 할 때 Train set을 Train / Validation set으로 분리하지 않으면 Test set으로 사용함. 이 때, 고정된 Test set만 사용해 모델 성능을 확인하면 Test set에만 적합한 모델이 됨. 따라서 Test set에 과적합되어 실제 데이터를 예측할 때 성능이 안 좋을 수 있음. 그래서 고정된 Train / Test set으로 학습하고 평가하다보면 과적합을 일으킬 수 있기 때문에 이를 해결하고자 나온 개념이 Cross-Validation. 교차검증의 종류 (1) K-fold cross-validation 전체 데이터 셋을 k의 subse..
1. SHAP Feature Importance - feature importance plot - 상위 중요도 기준으로 내림차순 기본 정렬 import shap shap_values = shap.TreeExplainer(model).shap_values(train_data) shap.summary_plot(shap_values, train_data, plot_type='bar') SHAP 에는 저장 기능이 없기 때문에 matplotlib로 저장해야함. import matplotlib.pyplot as plt f = plf.figure() shap.summary_plot(shap_values, X_test) f.savefig('/경로/파일명.png', bbox_incehs='tight', dpi=600) ..
첫 세미나는 한 달 동안 공부한 내용을 발표하는 거였다. 연구실 첫 세미나다 보니까 지금까지 했던 연구를 되짚으면서 발표하면 좋을 것 같았다. 그래서 학부 연구와 연구소에서 한 연구를 리뷰했고, 한 달 동안 논문 보면서 배운 기술과 코드 리뷰를 발표하며 앞으로의 석사 연구 방향에 대해 발표했다. 앞으로 세미나 자료도 티스토리에 올려봐야징.
detectCores() : 현재 사용하는 컴퓨터의 논리 프로세서가 몇 개인지 찾아서 반환함. 이 때 코어를 하나 제외하는 이유는 병렬처리에 모든 프로세서를 할당해버리면 OS 오류남 makeCluster() : 클러스터 생성 함수 registerDoParallel() : 생성된 클러스터에서 병렬처리를 할 수 있도록 할당하는 함수로, 프로세스를 cluster 수 만큼 설정함. stopCluster() : 클러스터 중지 함수. makeCluster()가 메모리를 할당한다면, stopCluster()는 해제시켜주는 역할을 함. registerDoSEQ {foreach} : foreach 패키지에 순차 병렬 백엔드를 명시적으로 등록할 때 사용.
Basic 보루타 알고리즘은 랜덤포레스트를 기반으로 변수를 선택하는 래퍼 방법(Wrapper Method)으로 기본적인 아이디어는 기존 변수를 복원 추출해서 만든 변수(shadow)보다 모형 생성에 영향을 주지 못했다고 하면 이는 중요도가 떨어지는 변수로 인식해 제거하는 방법. Feature selection method Filter Method : 모델링 기법에 의존하지 않고 데이터에 대한 통상적인 특성 예를 들면 상호 정보량, 상관계수로부터 변수 순위를 정하고 가장 높은 순위의 변수들을 선택하는 방법 Wrapper Method : 변수의 일부만을 사용해 모델링을 수행하고 그 결과를 확인하는 작업을 반복하여 변수를 선택하는 방법으로, 예측 정확도 측면에서 가장 좋은 성능을 보이는 부분 집합을 뽑아내는 ..
1. 사용할 수 있는 패키지 (22년도 2회차 기준) https://www.dataq.or.kr/www/board/view.do?bbsKey=eyJiYnNhdHRyU2VxIjoxLCJiYnNTZXEiOjUzMTc0NX0=&boardKind=notice 데이터자격시험 www.dataq.or.kr 2. 응시환경에서 실습하기 - Kaggle https://www.kaggle.com/datasets/agileteam/bigdatacertificationkr Big Data Certification KR 빅데이터 분석기사 실기 (Python, R tutorial code) www.kaggle.com 작업형 1 유형 1. 평균 구하기 - 주어진 Dataset에서 CRIM값이 가장 큰 10개의 지역을 구하고 - 10..
안녕하세용 저번 KCC를 마지막으로 제 인생에 논문과 학회는 끝일 줄 알았는데..ㅎ 캡스톤 프로젝트에서 한 과제를 통신학회에 제출하면서 두 번째 학술대회에 참여했습니다. 연구 내용은 전이 학습 기반 일사량 예측기법이며 코드와 발표 자료는 깃에 올려두었고, 태규 의년 오빠와 이번학기 모든 활동을 같이해서 더 즐겁게 연구했다! 그리고 문교수님 지도하에 많이 배우면서 연구할 수 있었다. 그리고 학회 이전에 졸업 논문 발표회가 포스터 세션으로 진행됐다. 졸업논문은 통신학회에 낼 논문에서 확장해서 썼다. 원래는 개인 연구로 확장하려 했는데, KT 에이블 스쿨 교육도 있어서 시간적 여유가 없었고 캡스톤만으로도 모든 시간을 쏟아서..ㅋㅋ 어쨌든! 감사하게도 우수상을 받았고 장학금으로 50만 원도 받았다❤ 이번 학기는..
안녕하세요! 오늘은 한 달 만에 돌아온 KT 에이블스쿨 4차 미니젝트 회고를 해보려 합니다. 이번 미니프로젝트는 특이하게 에이블 데이가 함께 있었는데요! 에이블 데이 때는 KT에서 주관하는 AICE 시험을 봤습니다. 시험 범위는 데이터 분석, 시각화, EDA, 모델링이었습니다! 에이블스쿨 교육에서 배운 내용이 시험 범위 + 오픈북 + 사전 실습자료 배포를 해주셨습니다. 무난히 통과할 만큼은 한 것 같지만 결과는 나와봐야 알겠죠! ^_^ ( 합격 했습니다~!ㅎㅎ) 학교 캠퍼스에도 AICE 자격증 홍보 플랜카드도 붙어있더라고요 신설 자격증이고, 우대 기업도 많으니 알아보고 필요하시면 취득하는 것도 좋은 것 같습니다. https://aice.study/ AICE aice.study 다시 돌아와서 미니프로젝트!..