일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 다변량분석
- 서평
- 빅분기
- dx
- KT AIVLE
- KT 에이블스쿨
- 에이블러
- httr
- ggplot2
- arima
- 지도학습
- 시계열
- hadoop
- kt aivle school
- 에이블스쿨
- Eda
- SQLD
- matplot
- r
- 딥러닝
- 빅데이터분석기사
- SQL
- 머신러닝
- ML
- Ai
- kaggle
- 한국전자통신연구원
- 웹크롤링
- 하계인턴
- 프로그래머스
- ETRI
- 시각화
- 기계학습
- 에트리 인턴
- python
- 가나다영
- cnn
- 하둡
- 소셜네트워크분석
- 한국전자통신연구원 인턴
- Today
- Total
목록AI (94)
소품집
딥러닝 학습할 때 보통 verbose 옵션으로 잔여 epochs를 확인하는데, GPU 잡고 학습하니까 ETA, 오차율은 보여주는데 희한하게 잔여 epochs를 확인할 수 없었다. 예를 들어 1 epochs에 7분 정도 걸렸는데 100으로 설정했으면 7*100 = 700/60 = 약 11시간 걸리니까.. 지금 몇 번 돌았는지도 모르고 이건 아니다 싶었음 찾다가 나온 TensorBoard 1. 모델 학습 전, 텐서보드 경로 지정 2. 모델 학습 시, callbacks 함수 지정 # Log data를 저장할 디렉터리 이름 설정 dir_name = 'Learning_log' # C:\Users\user\Learning_log # main 디렉터리와 sub 디렉터리 생성 def make_Tensorboard_di..
이번에 연구실에서 연구 데스크탑을 받았는데 다 밀은 상태여서 처음부터 시작했다. 태초의 상태로 나와 함께 가는 !! 데스크탑 사양은 아래와 같다. CPU : Intel(R) Core(TM) i7-9700 RAM : 64GB SSD : Samsung 860 EVO 500GB GPU : NVIDIA GeForce RTX 2080 Ti * 2개 Tensorflow GPU 잡기 1. Anconda 설치 2. Anconda Prompt에서 tensorflow 설치 3. Tensorflow 버전 확인 pip freeze * 나는 추후를 생각해 conda 가상환경을 만들어서 했다. 나중에 충돌나면 안되니까... 4. Tensorflow GPU와 호환되는 CUDA, cuDNN의 버전 확인 나는 tensorflow 2...
1. Shapley Value Shapley Value란, 게임이론을 바탕으로 Game에서 각 Player의 기여분을 계산하는 방법임. 하나의 feature에 대한 중요도를 얻기 위해 다양한 feature의 조합을 구성하고, 해당 feature의 유무에 따른 평균적인 변화를 통해 얻은 값임. 따라서 Shapley Value는 전체 성과(판단)을 창출하는 데 각 feature가 얼마나 공헌했는지 수치로 표현할 수 있음. ✔️ 게임이론 여러 주제가 서로 영향을 미치는 상황에서 서로가 어떤 의사결정이나 행동을 하는지에 대해 이론화한 것 ϕi : i 데이터에 대한 Shapley Value F : 전체 집합 S : 전체 집합에서, i 번째 데이터가 빠진 나머지의, 모든 부분 집합 fS∪i(xS∪i) : i 번째 ..
어차피 석사 졸업식도 있을텐데 뭐🦦 하다가.. 어차피 출근하는데 가보자! 해서 다녀온 졸업식 칭구들이 챙겨준 꽃🌸 냅다 웃었더니 다 잘 나와서 만족 다들 그냥 냅다 웃어버리세용 노력할수록 운이 좋아진다 석사 가쥬앙~~!!🤍🤍
Cross-Validation이 필요한 이유 데이터는 기본적으로 label이 있는 Train / Test set으로 구성되어 있음. 모델 검증을 할 때 Train set을 Train / Validation set으로 분리하지 않으면 Test set으로 사용함. 이 때, 고정된 Test set만 사용해 모델 성능을 확인하면 Test set에만 적합한 모델이 됨. 따라서 Test set에 과적합되어 실제 데이터를 예측할 때 성능이 안 좋을 수 있음. 그래서 고정된 Train / Test set으로 학습하고 평가하다보면 과적합을 일으킬 수 있기 때문에 이를 해결하고자 나온 개념이 Cross-Validation. 교차검증의 종류 (1) K-fold cross-validation 전체 데이터 셋을 k의 subse..
1. SHAP Feature Importance - feature importance plot - 상위 중요도 기준으로 내림차순 기본 정렬 import shap shap_values = shap.TreeExplainer(model).shap_values(train_data) shap.summary_plot(shap_values, train_data, plot_type='bar') SHAP 에는 저장 기능이 없기 때문에 matplotlib로 저장해야함. import matplotlib.pyplot as plt f = plf.figure() shap.summary_plot(shap_values, X_test) f.savefig('/경로/파일명.png', bbox_incehs='tight', dpi=600) ..
첫 세미나는 한 달 동안 공부한 내용을 발표하는 거였다. 연구실 첫 세미나다 보니까 지금까지 했던 연구를 되짚으면서 발표하면 좋을 것 같았다. 그래서 학부 연구와 연구소에서 한 연구를 리뷰했고, 한 달 동안 논문 보면서 배운 기술과 코드 리뷰를 발표하며 앞으로의 석사 연구 방향에 대해 발표했다. 앞으로 세미나 자료도 티스토리에 올려봐야징.
detectCores() : 현재 사용하는 컴퓨터의 논리 프로세서가 몇 개인지 찾아서 반환함. 이 때 코어를 하나 제외하는 이유는 병렬처리에 모든 프로세서를 할당해버리면 OS 오류남 makeCluster() : 클러스터 생성 함수 registerDoParallel() : 생성된 클러스터에서 병렬처리를 할 수 있도록 할당하는 함수로, 프로세스를 cluster 수 만큼 설정함. stopCluster() : 클러스터 중지 함수. makeCluster()가 메모리를 할당한다면, stopCluster()는 해제시켜주는 역할을 함. registerDoSEQ {foreach} : foreach 패키지에 순차 병렬 백엔드를 명시적으로 등록할 때 사용.
Basic 보루타 알고리즘은 랜덤포레스트를 기반으로 변수를 선택하는 래퍼 방법(Wrapper Method)으로 기본적인 아이디어는 기존 변수를 복원 추출해서 만든 변수(shadow)보다 모형 생성에 영향을 주지 못했다고 하면 이는 중요도가 떨어지는 변수로 인식해 제거하는 방법. Feature selection method Filter Method : 모델링 기법에 의존하지 않고 데이터에 대한 통상적인 특성 예를 들면 상호 정보량, 상관계수로부터 변수 순위를 정하고 가장 높은 순위의 변수들을 선택하는 방법 Wrapper Method : 변수의 일부만을 사용해 모델링을 수행하고 그 결과를 확인하는 작업을 반복하여 변수를 선택하는 방법으로, 예측 정확도 측면에서 가장 좋은 성능을 보이는 부분 집합을 뽑아내는 ..
1. 사용할 수 있는 패키지 (22년도 2회차 기준) https://www.dataq.or.kr/www/board/view.do?bbsKey=eyJiYnNhdHRyU2VxIjoxLCJiYnNTZXEiOjUzMTc0NX0=&boardKind=notice 데이터자격시험 www.dataq.or.kr 2. 응시환경에서 실습하기 - Kaggle https://www.kaggle.com/datasets/agileteam/bigdatacertificationkr Big Data Certification KR 빅데이터 분석기사 실기 (Python, R tutorial code) www.kaggle.com 작업형 1 유형 1. 평균 구하기 - 주어진 Dataset에서 CRIM값이 가장 큰 10개의 지역을 구하고 - 10..