하둡 Ecosystem

250x250

Notice

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Today

Total

관리 메뉴

serendipity

하둡 Ecosystem 본문

Study/Big Data

하둡 Ecosystem

z 2022. 1. 10. 13:56

728x90

하둡 에코시스템이란?

하둡과 관련된 프레임워크들로, 하둡 코어 프로젝트 & 하둡 서브 프로젝트로 구성된다.

1) 분산 코디네이터

-Zookeeper

분산 환경에서 서버 간 상호 조정이 필요한 다양한 서비스를 제공하는 시스템이다.

분산 동기화를 제공하고 그룹 서비스를 제공하는 중앙 집중식 서비스로 적절한 분산처리
및 환경을 구성하는 서버 설정을 통합적으로 관리한다.

2) 분산 리소스관리

-YARN

작업 스케줄링 및 클러스터 리소스 관리를 위한 프레임워크다.

(맵리듀스, 하이브, 임팔리, 스파크 등 다양한 애플리케이션들은 yarn에서 작업을 실행)

-Mesos

:클라우드 환경에 대한 리소스 관리

Linux 커널과 동일한 원칙을 사용하며, 컴퓨터에 API를 제공

(API는 ex. hadoop,kafka,spark 등)

3) 데이터 저장/적재

-Hbase (분산 데이터베이스)

구글 Bigtable을 기반으로 개발된 비관계형 데이터베이스다.

-HDFS (분산 파일 데이터저장)

애플리케이션 데이터에 대한 높은 처리량의 접근 액세스를 제공하는 분산파일 시스템

-Kudu (컬럼 기반 스토리지)

에코시스템에 새롭게 추가되어 급변하는 데이터에 대한 빠른 분석을 위해 설계되었다.

4) 데이터 수집

- Flume

많은 양의 데이터를 수집 및 집계, 이동하기 위한 분산형 서비스다.

- Chukwa

분산 환경에서 생성되는 데이터를 안정적으로 HDFS에 저장하는 플랫폼
(대규모 분산 시스템 모니터링하기 위한 시스템)

-Scribe

페이스북에서 개발한 데이터 수집 플랫폼으로 chuckwa와 다르게 데이터를 중앙

서버로 전송하는 방식으로 최종 데이터는 다양한 저장소로 활용가능하다.

- Kafka

데이터 스트리밍을 실시간으로 관리하기 위한 분산 시스템이다.

5) 데이터 처리

- Spark

대규모 데이터를 처리하기 위해 빠른 속도로 실행시켜주는 엔진이다.

- Hive

하둡 기반 데이터 솔루션으로 페이스북에서 개발한 오픈소스다.

- Mapreduce

대용량 데이터를 분산처리하기 위한 프로그램으로 정렬된 데이터를 분산처리하고 이를 합친다.

- Impala

하둡 기반 분산 엔진으로, 맵리듀스가 아닌 C++로 개발한 인 메모리 엔진을 사용해 빠른성능을 지닌다.

- Pig

하둡에 저장된 데이터를 맵리슈드 프로그램 만들지 않고 SQL과 유사한 스크립트를 이용해 데이터를 처리한다.

728x90

저작자표시 비영리 변경금지

'Study > Big Data' 카테고리의 다른 글

Kafka 카프카 (0)	2022.01.25
Flume 플럼 (0)	2022.01.25
Hadoop 하둡 (0)	2021.08.24
Matplotlib (0)	2021.07.10
Pandas 판다스 (0)	2021.07.10

'Study/Big Data' Related Articles

Comments

serendipity

하둡 Ecosystem 본문

하둡 Ecosystem

'Study > Big Data' 카테고리의 다른 글

티스토리툴바