일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 다변량분석
- httr
- 에이블스쿨
- 소셜네트워크분석
- python
- 서평
- cnn
- arima
- 웹크롤링
- 기계학습
- Eda
- matplot
- 프로그래머스
- ML
- KT 에이블스쿨
- hadoop
- 딥러닝
- 머신러닝
- r
- 한국전자통신연구원
- ggplot2
- 가나다영
- SQL
- SQLD
- 하둡
- 에트리 인턴
- ETRI
- 빅데이터분석기사
- dx
- Ai
- KT AIVLE
- 한국전자통신연구원 인턴
- 지도학습
- 시계열
- kaggle
- kt aivle school
- 하계인턴
- 시각화
- 빅분기
- 에이블러
- Today
- Total
목록MapReduce (2)
소품집
1. MapReduce의 개념 맵리듀스란? HDFS에 분산 저장된 데이터에 스트리밍 접근을 요청하여 빠르게 분산처리하도록 고안된 프로그래밍 모델, 이를 지원하는 시스템 대규모 분산 컴퓨팅 혹은 컴퓨팅 환경에서 개발자가 대량의 데이터를 병렬로 분석할 수있음 개발자는 맵리듀스 알고리즘에 맞게 분석 프로그램을 개발하고, 데이터의 입출력과 병렬처리 등 기반 작업은 프레임워크가 알아서 처리해줌 맵리듀스 프로그래밍 모델의 처리 과정 맵리듀스의 처리과정 요약 2. MapReduce 아키텍처 동적 관점에서의 구성요소 태스크 (Task) 맵퍼나 리듀서가 수행하는 단위 작업 (맵 태스크, 리듀스 태스크) 맵 혹은 리듀스를 수행하기 위한 정보를 가지고 있음 맵퍼 (Mapper) 구성: 맵(Map), 컴바인(Combine),..
1. 하둡 소개 하둡이란? 하둡 개발자 커딩의 아들이 가지고 놀던 코끼리 인형 이름 ^__^ 하둡(Hadoop)은 대용량 데이터를 분산처리 할 수 있는 자바 기반의 오픈소스 프레임워크 하둡 vs RDBMS (관계형 데이터베이스 관리 시스템) 정형 데이터 → RDBMS 저장 (RDBMS는 라이선스 비용이 비쌈) → RDBMS: 데이터가 저장된 서버에서 데이터를 처리하게 됨 비정형 데이터(사이즈가 큼) → Hadoop 저장 → 하둡: 여러대의 서버에 데이터를 저장하고, 데이터가 저장된 각 서버에서 동시에 데이터 처리 2. 하둡의 구성 분산저장 → 분산처리 하둡 파일 시스템(HDFS)을 이용해서 파일을 적당한 블록 사이즈(64MDD)로 나눠서 각 노드 클러스터(각각의 개별 컴퓨터)에 저장 데이터 유실의 위험이..