일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- hadoop
- kaggle
- 에이블스쿨
- 하계인턴
- ggplot2
- 프로그래머스
- httr
- 빅데이터분석기사
- SQL
- 하둡
- python
- 지도학습
- 한국전자통신연구원 인턴
- dx
- 시계열
- 소셜네트워크분석
- 에이블러
- 머신러닝
- 에트리 인턴
- SQLD
- 서평
- Ai
- 다변량분석
- arima
- 기계학습
- 웹크롤링
- 한국전자통신연구원
- KT 에이블스쿨
- 딥러닝
- matplot
- r
- 시각화
- Eda
- ETRI
- cnn
- KT AIVLE
- 빅분기
- 가나다영
- ML
- kt aivle school
- Today
- Total
목록hadoop (4)
소품집
1. MapReduce의 개념 맵리듀스란? HDFS에 분산 저장된 데이터에 스트리밍 접근을 요청하여 빠르게 분산처리하도록 고안된 프로그래밍 모델, 이를 지원하는 시스템 대규모 분산 컴퓨팅 혹은 컴퓨팅 환경에서 개발자가 대량의 데이터를 병렬로 분석할 수있음 개발자는 맵리듀스 알고리즘에 맞게 분석 프로그램을 개발하고, 데이터의 입출력과 병렬처리 등 기반 작업은 프레임워크가 알아서 처리해줌 맵리듀스 프로그래밍 모델의 처리 과정 맵리듀스의 처리과정 요약 2. MapReduce 아키텍처 동적 관점에서의 구성요소 태스크 (Task) 맵퍼나 리듀서가 수행하는 단위 작업 (맵 태스크, 리듀스 태스크) 맵 혹은 리듀스를 수행하기 위한 정보를 가지고 있음 맵퍼 (Mapper) 구성: 맵(Map), 컴바인(Combine),..
1. HDFS 기초 Hadoop Distributed File System 기존 대용량 파일 시스템 HDFS 설계 목표 장애복구 디스크 오류로 인한 데이터 저장 실패 및 유실과 같은 장애를 빠른 시간에 감지하고 대처 데이터를 저장하면, 복제 데이터도 함께 저장해서 데이터 유실을 방지 분산 서버 간 주기적인 상태 체크 스트리밍 방식의 데이터 접근 랜덤 엑세스 방식과 반대되는 개념 순차적으로 데이터에 접근하는 방식 낮은 접근 지연시간보다는 높은 데이터 처리율에 중점 파일 저장 및 조회를 위해 스트리밍 방식으로 데이터에 접근해야 함 배치 작업과 높은 데이터 처리량을 위해 스트리밍 방식을 사용 대용량 데이터 저장 하나의 파일이 기가바이트에서 테라바이트 이상의 사이즈로 저장될 수 있게 설계 높은 데이터 전송 대역..
1. 하둡 소개 하둡이란? 하둡 개발자 커딩의 아들이 가지고 놀던 코끼리 인형 이름 ^__^ 하둡(Hadoop)은 대용량 데이터를 분산처리 할 수 있는 자바 기반의 오픈소스 프레임워크 하둡 vs RDBMS (관계형 데이터베이스 관리 시스템) 정형 데이터 → RDBMS 저장 (RDBMS는 라이선스 비용이 비쌈) → RDBMS: 데이터가 저장된 서버에서 데이터를 처리하게 됨 비정형 데이터(사이즈가 큼) → Hadoop 저장 → 하둡: 여러대의 서버에 데이터를 저장하고, 데이터가 저장된 각 서버에서 동시에 데이터 처리 2. 하둡의 구성 분산저장 → 분산처리 하둡 파일 시스템(HDFS)을 이용해서 파일을 적당한 블록 사이즈(64MDD)로 나눠서 각 노드 클러스터(각각의 개별 컴퓨터)에 저장 데이터 유실의 위험이..
Hadoop 이란 4차산업이 시작됨에 따라 방대한 양의 데이터를 처리하는 기술의 필요가 더욱 중요하게 되어졌는데요. 그래서 저렴한 가격으로 높은 가치를 낼 수 있는 프로그램의 개발이 요구 되어지고 있습니다. 그래서 현재 시점에서 그에 대응하는 분산 처리 기술로 가장 유명한 하둡에 대해서 알아보려고 합니다. 하둡의 정의로는 대용량 데이터를 분산처리 할 수 있는 자바 기반의 오픈소스 프레임워크 입니다. 모든 데이터가 동일하게 저장 되는 하둡 기존 하둡이 등장하기 이전, 데이터 수집이 요구되는 회사에서는 RDBMS(관계형 데이터베이스 관리 시스템)에 모든 데이터를 저장하고, 관리하는 일이 대반사 였는데요. 반면 하둡은 여러대의 서버에 데이터가 저장되어 각 서버에서 동시에 데이터를 처리 할 수 있어 기업은 비용..