[빅데이터 인프라] StreamSets Basic tutorial 시작하기(Stream Selector)

Notice

Recent Posts

Tags more

Archives

관리 메뉴

리그캣의 개발놀이터

프로그래밍 기본/서버 구축 및 관리

리그캣 2019. 2. 26. 17:30

이번 포스팅에서는

Stream Selector라는 Processing 기능을 사용할 것이다.

먼저 해당 csv파일을 /<base directory>/tutorial/origin에 넣어줫고 local에서 해당 데이터를 가져왔을 것이다.

데이터를 preview를 통하여 보면 알겠지만

택시 지불에 대한 csv파일이다.

Stream Selector에 대해서 설명하자면

사용자 정의 조건에 따라 데이터를 다른 stream으로 라우팅해주는 즉 나누어 주는 긴능을 한다.

먼저 csv의 신용카드의 기록을 빼내기 위해서는 다음의 코드를 사용한다.

${recod:value('/payment-type') == 'CRD'}

표현식은 $와 {} 묶음을 사용가능한 것 같다.

Select Processor to Connect -> Stream Selector 클리 또는 stage library panel에서 stream selector를 선택해 주고 기존의 directory origin과 연결해주자.

General tab을 수정해주자

다음과 같이 사용가능한 field list가 표시된다.

지불유형정보가 없는 record를 버리기 위해 /payment_type 필드를 선택해주자.

coditions를 클릭해주고 추가 아이콘을 클릭하자

다음을 입력해주자

${record:value('/payment_type') == 'CRD'}

해당 조건에 일치하는 reocrds는 1번 출력으로 나오며 다른 records는 2번 출력으로 나오게된다.

꽁지머리가 두개 생성되면 성공이다 ~

[streamsets] ETL Opensource data collector에 대해 배워보자 (0)	2019.03.25
[빅데이터 인프라] StreamSets Basic tutorial 시작하기(Jython) - 5 (0)	2019.02.27
[빅데이터 인프라] StreamSets Basic tutorial 시작하기(preview) - 3 (0)	2019.02.25
[빅데이터 인프라] StreamSets Basic tutorial 시작하기(origin) - 2 (0)	2019.02.22
[빅데이터 인프라] Kafka on Mesos broker 다루기 - kafkacat 포함 (0)	2019.02.21

'프로그래밍 기본/서버 구축 및 관리' Related Articles

Comments