Flume 플럼

250x250

관리 메뉴

serendipity

Study/Big Data

z 2022. 1. 25. 16:28

728x90

대용량의 로그 데이터를 효율적으로 수집 및 이동할 수 있는 안정적인 분산 서비스

Source : 수집한 데이터를 channel로 전달

Channel : source & sink를 연결, data를 버퍼링, 메모리 & 파일 유를 channel의 저장소로 활용

Sink : channel로부터 받은 데이터를 최종 목적지에 저장 -> hdfs, hive 등에 제공

Interceptor : source와 channel 사이에서 데이터 필터링 및 가공

Agent : source -> interceptor -> channel -> sink -> component 순으로 구성된 작업 단위

활용)

클러스터에 있는 장치로부터 로그 파일들을 수집 후
HDFS와 같은 중앙 저장소에 저장하는 로깅 시스템을 구축할 때 좋다.

로그데이터를 깔끔하게 수집하는 데에 가장 좋은 성능을 지니며
현재 많은 기업들이 서비스 로그데이터 관리를 위해 사용 중

장점)

Streaming 데이터 흐름을 기반으로 하는 간단, 유연한 아키텍처

로그 유실에 대한 신뢰 수준을 상황에 맞게 변경 가능

장애 발생 시 다양한 복구 메커니즘을 제공

단점)

데이터의 안정성

Channel로 메모리와 파일, JDBC를 제공하는데,

메모리 타입은 처리 성능이 좋지만 장애 발생 시 데이터 유실의 문제가 발생

(파일 타입 : 데이터 안정성 향상되지만 성능이 크게 떨어짐) + kafka 결합으로 해결 가능

728x90

'Study/Big Data' Related Articles

Comments