StreamSets이란 데이터 엔지니어링을 위한 데이터 파이프라인(Data Pipeline) 관리 플랫폼
데이터 파이프라인 : 다양한 데이터 소스에서 원시 데이터를 수집하고 분석을 위해 저장소로 이식하는 방법
탄생배경
데이터 소스(웨어러블, IOT 등) 의 수가 많아졌고 독립된 곳에 저장된 것을 한 곳으로 통합하기 위해 탄생한 것이다
사용 예시
관제 시스템에서는 IoT 장비, 서버 로그, 네트워크 상태, 센서 데이터 등 실시간 데이터를 처리하는 경우가 많다.
활용 예시:
- 센서 데이터 수집: IoT 센서에서 실시간으로 수집되는 데이터를 StreamSets가 처리하여, Kafka 같은 메시징 시스템으로 전달하거나, 데이터베이스에 저장된다.
- 서버 로그 분석: 서버에서 발생하는 로그를 실시간으로 수집하여 변환하고, 경고를 발생시키는 역할을 합니다.
세부 흐름:
- Kafka Consumer: 실시간 센서 데이터, 로그 데이터를 Kafka에서 수집
- JSON Parser: 데이터를 JSON 형식으로 변환 (센서 데이터는 JSON 형식이 많음)
- 필터링/변환: 데이터에서 필요한 정보만 필터링하거나, 특정 조건에 맞는 데이터(예: 온도가 80도 이상일 때)만 추출
- 데이터 전송: 변환된 데이터를 실시간으로 분석할 시스템으로 전달 (예: Elasticsearch, 데이터베이스, 대시보드 시스템)
웹 서버의 실시간 로그 데이터를 분석하여 Elasticsearch에 저장하고 시각화
세부 흐름:
- Kafka Consumer → Kafka에서 실시간 로그 수집
- JSON Parser → JSON 데이터 변환