리그캣의 개발놀이터

[빅데이터 인프라] StreamSets Basic tutorial 시작하기(Stream Selector) - 4 본문

프로그래밍 기본/서버 구축 및 관리

[빅데이터 인프라] StreamSets Basic tutorial 시작하기(Stream Selector) - 4

리그캣 2019. 2. 26. 17:30


이번 포스팅에서는


Stream Selector라는 Processing 기능을 사용할 것이다.


https://www.streamsets.com/documentation/datacollector/sample_data/tutorial/nyc_taxi_data.csv


먼저 해당 csv파일을 /<base directory>/tutorial/origin에 넣어줫고 local에서 해당 데이터를 가져왔을 것이다.


데이터를 preview를 통하여 보면 알겠지만

택시 지불에 대한 csv파일이다.


Stream Selector에 대해서 설명하자면

사용자 정의 조건에 따라 데이터를 다른 stream으로 라우팅해주는 즉 나누어 주는 긴능을 한다.


먼저 csv의 신용카드의 기록을 빼내기 위해서는 다음의 코드를 사용한다.


${recod:value('/payment-type') == 'CRD'}


표현식은 $와 {} 묶음을 사용가능한 것 같다.


Select Processor to Connect -> Stream Selector 클리 또는 stage library panel에서 stream selector를 선택해 주고 기존의 directory origin과 연결해주자.



General tab을 수정해주자


다음과 같이 사용가능한 field list가 표시된다.


지불유형정보가 없는 record를 버리기 위해 /payment_type 필드를 선택해주자.

coditions를 클릭해주고 추가 아이콘을 클릭하자

다음을 입력해주자

${record:value('/payment_type') == 'CRD'}


해당 조건에 일치하는 reocrds는 1번 출력으로 나오며 다른 records는 2번 출력으로 나오게된다.

꽁지머리가 두개 생성되면 성공이다 ~



Comments