StreamSets이란 데이터 엔지니어링을 위한 데이터 파이프라인(Data Pipeline) 관리 플랫폼

데이터 파이프라인 : 다양한 데이터 소스에서 원시 데이터를 수집하고 분석을 위해 저장소로 이식하는 방법

탄생배경

데이터 소스(웨어러블, IOT 등) 의 수가 많아졌고 독립된 곳에 저장된 것을 한 곳으로 통합하기 위해 탄생한 것이다

사용 예시

관제 시스템에서는 IoT 장비, 서버 로그, 네트워크 상태, 센서 데이터 등 실시간 데이터를 처리하는 경우가 많다.

활용 예시:

세부 흐름:

  1. Kafka Consumer: 실시간 센서 데이터, 로그 데이터를 Kafka에서 수집
  2. JSON Parser: 데이터를 JSON 형식으로 변환 (센서 데이터는 JSON 형식이 많음)
  3. 필터링/변환: 데이터에서 필요한 정보만 필터링하거나, 특정 조건에 맞는 데이터(예: 온도가 80도 이상일 때)만 추출
  4. 데이터 전송: 변환된 데이터를 실시간으로 분석할 시스템으로 전달 (예: Elasticsearch, 데이터베이스, 대시보드 시스템)

웹 서버의 실시간 로그 데이터를 분석하여 Elasticsearch에 저장하고 시각화

세부 흐름:

  1. Kafka Consumer → Kafka에서 실시간 로그 수집
  2. JSON Parser → JSON 데이터 변환