일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 스트림셋
- ansible install
- elk stack
- python
- c++
- nvidia docker
- 코딩
- 푸시푸시
- MySQL
- c
- 정보처리기사
- 도커 mysql
- docker
- 도커 elk
- 클라우드
- 데이트
- 알고리즘
- 도커 시작하기
- 앤서블 설치
- 스트림셋이란?
- streamsets 강의
- 백준
- 도커
- C언어
- 자바
- 데이터베이스
- 파이썬
- mysql docker
- java
- mysql on docker
- Today
- Total
리그캣의 개발놀이터
[빅데이터 인프라] StreamSets Basic tutorial 시작하기(Stream Selector) - 4 본문
[빅데이터 인프라] StreamSets Basic tutorial 시작하기(Stream Selector) - 4
리그캣 2019. 2. 26. 17:30이번 포스팅에서는
Stream Selector라는 Processing 기능을 사용할 것이다.
https://www.streamsets.com/documentation/datacollector/sample_data/tutorial/nyc_taxi_data.csv
먼저 해당 csv파일을 /<base directory>/tutorial/origin에 넣어줫고 local에서 해당 데이터를 가져왔을 것이다.
데이터를 preview를 통하여 보면 알겠지만
택시 지불에 대한 csv파일이다.
Stream Selector에 대해서 설명하자면
사용자 정의 조건에 따라 데이터를 다른 stream으로 라우팅해주는 즉 나누어 주는 긴능을 한다.
먼저 csv의 신용카드의 기록을 빼내기 위해서는 다음의 코드를 사용한다.
${recod:value('/payment-type') == 'CRD'}
표현식은 $와 {} 묶음을 사용가능한 것 같다.
Select Processor to Connect -> Stream Selector 클리 또는 stage library panel에서 stream selector를 선택해 주고 기존의 directory origin과 연결해주자.
General tab을 수정해주자
다음과 같이 사용가능한 field list가 표시된다.
지불유형정보가 없는 record를 버리기 위해 /payment_type 필드를 선택해주자.
coditions를 클릭해주고 추가 아이콘을 클릭하자
다음을 입력해주자
${record:value('/payment_type') == 'CRD'}
해당 조건에 일치하는 reocrds는 1번 출력으로 나오며 다른 records는 2번 출력으로 나오게된다.
꽁지머리가 두개 생성되면 성공이다 ~
'프로그래밍 기본 > 서버 구축 및 관리' 카테고리의 다른 글
[streamsets] ETL Opensource data collector에 대해 배워보자 (0) | 2019.03.25 |
---|---|
[빅데이터 인프라] StreamSets Basic tutorial 시작하기(Jython) - 5 (0) | 2019.02.27 |
[빅데이터 인프라] StreamSets Basic tutorial 시작하기(preview) - 3 (0) | 2019.02.25 |
[빅데이터 인프라] StreamSets Basic tutorial 시작하기(origin) - 2 (0) | 2019.02.22 |
[빅데이터 인프라] Kafka on Mesos broker 다루기 - kafkacat 포함 (0) | 2019.02.21 |