250x250
Notice
«   2025/04   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30
Today
Total
관리 메뉴

serendipity

하둡 Ecosystem 본문

Study/Big Data

하둡 Ecosystem

z 2022. 1. 10. 13:56
728x90

 

하둡 에코시스템이란?

하둡과 관련된 프레임워크들로, 하둡 코어 프로젝트 & 하둡 서브 프로젝트로 구성된다.

 

하둡 에코시스템 (아파치 공식사이트 출처)


 

1) 분산 코디네이터 

 

-Zookeeper

분산 환경에서 서버 간 상호 조정이 필요한 다양한 서비스를 제공하는 시스템이다.

분산 동기화를 제공하고 그룹 서비스를 제공하는 중앙 집중식 서비스로 적절한 분산처리
및 환경을 구성하는 서버 설정을 통합적으로 관리한다.

 


 

2) 분산 리소스관리

 

-YARN

작업 스케줄링 및 클러스터 리소스 관리를 위한 프레임워크다. 

(맵리듀스, 하이브, 임팔리, 스파크 등 다양한 애플리케이션들은 yarn에서 작업을 실행)

 

-Mesos

:클라우드 환경에 대한 리소스 관리

Linux 커널과 동일한 원칙을 사용하며, 컴퓨터에 API를 제공

(API는 ex. hadoop,kafka,spark 등)

 


 

 

3) 데이터 저장/적재

 

-Hbase (분산 데이터베이스)

구글 Bigtable을 기반으로 개발된 비관계형 데이터베이스다.

 

-HDFS (분산 파일 데이터저장)

애플리케이션 데이터에 대한 높은 처리량의 접근 액세스를 제공하는 분산파일 시스템

 

-Kudu (컬럼 기반 스토리지)

에코시스템에 새롭게 추가되어 급변하는 데이터에 대한 빠른 분석을 위해 설계되었다.

 

 


 

4) 데이터 수집

 

- Flume

많은 양의 데이터를 수집 및 집계, 이동하기 위한 분산형 서비스다.

 

- Chukwa

분산 환경에서 생성되는 데이터를 안정적으로 HDFS에 저장하는 플랫폼
(대규모 분산 시스템 모니터링하기 위한 시스템)

 

-Scribe

페이스북에서 개발한 데이터 수집 플랫폼으로 chuckwa와 다르게 데이터를 중앙 

서버로 전송하는 방식으로 최종 데이터는 다양한 저장소로 활용가능하다.

 

- Kafka

데이터 스트리밍을 실시간으로 관리하기 위한 분산 시스템이다.

 


 

5) 데이터 처리

 

- Spark

대규모 데이터를 처리하기 위해 빠른 속도로 실행시켜주는 엔진이다.

 

- Hive

하둡 기반 데이터 솔루션으로 페이스북에서 개발한 오픈소스다.

 

- Mapreduce

대용량 데이터를 분산처리하기 위한 프로그램으로 정렬된 데이터를 분산처리하고 이를 합친다.

 

- Impala

하둡 기반 분산 엔진으로, 맵리듀스가 아닌 C++로 개발한 인 메모리 엔진을 사용해 빠른성능을 지닌다.

 

- Pig

하둡에 저장된 데이터를 맵리슈드 프로그램 만들지 않고 SQL과 유사한 스크립트를 이용해 데이터를 처리한다.

 

 

 

728x90

'Study > Big Data' 카테고리의 다른 글

Kafka 카프카  (0) 2022.01.25
Flume 플럼  (0) 2022.01.25
Hadoop 하둡  (0) 2021.08.24
Matplotlib  (0) 2021.07.10
Pandas 판다스  (0) 2021.07.10
Comments