serendipity
Flume 플럼 본문
728x90
Flume
대용량의 로그 데이터를 효율적으로 수집 및 이동할 수 있는 안정적인 분산 서비스
Source : 수집한 데이터를 channel로 전달
Channel : source & sink를 연결, data를 버퍼링, 메모리 & 파일 유를 channel의 저장소로 활용
Sink : channel로부터 받은 데이터를 최종 목적지에 저장 -> hdfs, hive 등에 제공
Interceptor : source와 channel 사이에서 데이터 필터링 및 가공
Agent : source -> interceptor -> channel -> sink -> component 순으로 구성된 작업 단위
활용)
클러스터에 있는 장치로부터 로그 파일들을 수집 후
HDFS와 같은 중앙 저장소에 저장하는 로깅 시스템을 구축할 때 좋다.
로그데이터를 깔끔하게 수집하는 데에 가장 좋은 성능을 지니며
현재 많은 기업들이 서비스 로그데이터 관리를 위해 사용 중
장점)
Streaming 데이터 흐름을 기반으로 하는 간단, 유연한 아키텍처
로그 유실에 대한 신뢰 수준을 상황에 맞게 변경 가능
장애 발생 시 다양한 복구 메커니즘을 제공
단점)
데이터의 안정성
Channel로 메모리와 파일, JDBC를 제공하는데,
메모리 타입은 처리 성능이 좋지만 장애 발생 시 데이터 유실의 문제가 발생
(파일 타입 : 데이터 안정성 향상되지만 성능이 크게 떨어짐) + kafka 결합으로 해결 가능
728x90
'Study > Big Data' 카테고리의 다른 글
Zookeeper 주키퍼 (0) | 2022.01.26 |
---|---|
Kafka 카프카 (0) | 2022.01.25 |
하둡 Ecosystem (0) | 2022.01.10 |
Hadoop 하둡 (0) | 2021.08.24 |
Matplotlib (0) | 2021.07.10 |
Comments