일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- r
- 에이블러
- 한국전자통신연구원 인턴
- 하계인턴
- dx
- kaggle
- SQLD
- matplot
- 에트리 인턴
- 서평
- 웹크롤링
- 지도학습
- kt aivle school
- KT AIVLE
- cnn
- 한국전자통신연구원
- arima
- python
- 딥러닝
- Eda
- ML
- ETRI
- 소셜네트워크분석
- hadoop
- 프로그래머스
- 가나다영
- 하둡
- KT 에이블스쿨
- 머신러닝
- 다변량분석
- httr
- 시계열
- ggplot2
- 기계학습
- 빅데이터분석기사
- Ai
- 빅분기
- SQL
- 에이블스쿨
- 시각화
- Today
- Total
소품집
[ML] MIMIC -III 중환자실 빅데이터 DEMO 본문
MIMIC -III 중환자실 데이터 DEMO
1. MIMIC-III 기본 정보
- MIMIC-III는 Medical Information Mart for Intensive Care의 약자로, Beth Israel Deaconess Center 중환자실에서 발생한 데이터를 MIT에서 정리하고 개발한 Open Source 데이터다.
- 2001년부터 2012년까지 약 4만 명(성인: 53,432명 + 영아: 8,1000명) 이상의 비식별 보건 의료 데이터를 포함하고 있다.
- 포함된 비식별 데이터는 기초 인구 통계학, 활력 징후, 실험실 결과, 처방전, 간병인의 메모, 이미지 기록, 사망 여부 등의 데이터를 포함하고 있다.
2. 데이터 분석 목적
입원 초기 변수와 생체 신호를 바탕으로 패혈증 환자를 찾는다.
3. 기존 연구자료
MIMIC ver3. 데이터 셋에 분석하고 싶은 환자를 질병 코드를 통해 테이블에서 추출한 뒤, D_ICD_DIAGNOSES 테이블에서 환자 코드를 추출하고, D_ITEMS 테이블에서 활력 징후 코드를 추출하여 조인한다. 조인한 데이터를 기반으로 CHATEVENTS 테이블에서 활력징후 차트 데이터를 추출하면 분석 하고자 하는 데이터를 가공할 수 있다.
이를 참고하여 우리가 풀고자 하는 질병인 패혈증 질병 코드를 추출하고, D_ICD_DIAGNOSES 테이블에서 환자 코드를 찾아, 그 환자가 패혈증을 판단 받기 이전의 의약 투여, 활력 징후 데이터를 추출하여 분석하면 풀고자 하는 문제를 찾을 수 있을 거라 예상한다.
4. DEMO Dataset
- 데모는 총 27개의 csv 파일과 1개의 txt 파일로 구성되어 있다.
- 기존 MIMIC-III 패혈증 데이터 분석 과정을 참고하여 주요 테이블의 중요 변수를 확인했다.
ADMISSIONS (입원. 입원수속절차. 입원기록)
환자의 병원 출입 정보 데이터 파일로, 환자의 고유 ID(SUBJECT_ID), 병원출입 ID(HADM_ID) 정보가 포함 되어있다. 이 외에도 입원시각(ADMITTIME), 퇴원시각(DISCHTIME), 사망시간(DEATHTIME), 입원 당시 환자 상태에 대한 정보인 진단기록(DIGNOSIS)과 최종진단(DIAGNOSES_ICD)로 확인이 가능하고, 병원에서 퇴원시(0) 사망시(1)로 기록된 HOSPITAL_EXPIRE_FLAG 데이터도 있다.
위 데이터로 사망의 유무를 판별할 수 있는 binary classification 문제로 풀 수 있다고 생각한다.
CHARTEVENTS (환자 차트 데이터)
환자들에 대한 모든 차트형 데이터를 포함하고 있다. ICU에 머무르며 환자의 routine한 정보를 제공한다. 기존 연구 자료에서도 위 환자 차트 데이터의 데이터를 중점적으로 사용하며 활력 징후 코드를 추출했으므로, 분석과 딥러닝 예측에 중요한 데이터로 판단된다.
ICUSTAYS (중환자실 입실 관련 데이터)
입원된 환자들 중, 중환자실로 입실된 환자들을 기록한 데이터로 LOS(Length of Stay)가 포함되어 있다.
PATIENTS (통계)
각 환자에 대한 인구통계학적 데이터로, HIPPAA(미국 의료 정보 보호법)에 의해 특정 정보 비식별화 되어 있다. 성별, 입원-퇴원 일시 등의 정보가 기록되어 있다.
INPUTEVENTS_CV (수액 섭취)
환자가 입원하여 투약한 수액의 종류와 섭취량을 알 수 있다.
D_ICD_DIAGNOSES(코드 사전)
진단과 관련된 질병 및 관련 건강 문제의 ICD-9 기반 코드 사전이다.
PRESCRIPTIONS (약물 사전)
약물의 성분면으로 항생제 처방 내역을 불러올 수 있다. 예를들어 대표적인 항생제 중 하나인 Vancomycin로 양성균에 의한 심각한 감염을 치료할 때 사용한다. 패혈증에 처방되는 항생제 약물을 찾아볼 수 있을 거라 판단한다.
항생제를 처방받은 환자와 처방 건수, 환자의 비율을 구하여 중증 환자에 대한 처방 내역을 구해보면 좋을 것 같다.
'AI' 카테고리의 다른 글
[python] XGBosst warning 해결방법, jupyter GPU 잡기 (0) | 2022.09.25 |
---|---|
[ML] MIMIC-II 데이터 기반 패혈증 환자 분류 (0) | 2022.09.17 |
[ML] A Motion Sensor Data - User Activity 맞추기 (1) | 2022.05.17 |
[DL] Reinforcement Learning (Q-learning, Q-network..) (0) | 2021.11.12 |
[DL] CNN 입출력, 파라미터 계산 (0) | 2021.10.06 |