소품집

Hadoop 이란 본문

Hadoop

Hadoop 이란

sodayeong 2020. 4. 1. 11:16

Hadoop 이란

  4차산업이 시작됨에 따라 방대한 양의 데이터를 처리하는 기술의 필요가 더욱 중요하게 되어졌는데요. 그래서 저렴한 가격으로 높은 가치를 낼 수 있는 프로그램의 개발이 요구 되어지고 있습니다. 그래서 현재 시점에서 그에 대응하는 분산 처리 기술로 가장 유명한 하둡에 대해서 알아보려고 합니다. 하둡의 정의로는 대용량 데이터를 분산처리 할 수 있는 자바 기반의 오픈소스 프레임워크 입니다. 

 

 


모든 데이터가 동일하게 저장 되는 하둡

기존 하둡이 등장하기 이전, 데이터 수집이 요구되는 회사에서는 RDBMS(관계형 데이터베이스 관리 시스템)에 모든 데이터를 저장하고, 관리하는 일이 대반사 였는데요. 반면 하둡은 여러대의 서버에 데이터가 저장되어 각 서버에서 동시에 데이터를 처리 할 수 있어 기업은 비용절감의 효과를 볼 수 있었습니다.

 

 

 

하둡과 관계형 데이터 관리 시스템의 차이

Hadoop vs RDBMS

관계형 데이터베이스는 주로 정형 데이터만를 다루는 시스템이고,

반면 하둡은 비정형 데이터와 정형 데이터의 구분 없이 하나의 컴퓨터에서 여러 대의 서버에 데이터를 저장하여

동시 다발적으로 처리할 수 있는 차이가 있습니다.

 

하둡의 구성

1. 분산저장 → HDFS 

  분산 저장의 특징으로는 하둡 파일 시스템(HDFS)을 이용하여 파일을 적당한 블록 사이즈로 나눠 각 노드 클러스터(각각의 개별 컴퓨터)에 저장 되어지고, 여러개의 노드에 분산 되어 저장되어진 장점 덕에 데이터의 유실 위험 이슈나 트레픽 처리를 위해 각 블록의 복사본을 만들어 저장 됩니다.

 

2. 분산처리 → MapReduce (Map: 데이터 처리, Reduce: 함수 계산)

  MapReduce 라는 프레임워크를 이용해 계산 합니다. 맵 리듀스 프레임 워크는 Map+reduce 두 가지 형식으로 나누어 지는데, Map 함수에서 데이터를 처리하고 reduce 함수에서 원하는 결과값을 계산하게 됩니다.

 

 

하둡의 특성

  1. 병렬 분산 처리 문제를 자동적으로 해결
  2. 대규모 데이터를 처리하기 위한 구조
  3. 확장성이 우수
  4. 유연한 데이터 구조에 대응

등이 있는데 더 공부하고 올리겠습니다.

 

 

 

 

728x90

'Hadoop' 카테고리의 다른 글

HADOOP - MapReduce  (0) 2020.05.22
HDFS (Hadoop Distributed File System)  (0) 2020.05.12
Hadoop 이란? 기본 동작구성과 프레임워크  (0) 2020.05.12
Comments