리그캣의 개발놀이터

[빅데이터 인프라] StreamSets Basic tutorial 시작하기 - 1 본문

프로그래밍 기본/서버 구축 및 관리

[빅데이터 인프라] StreamSets Basic tutorial 시작하기 - 1

리그캣 2019. 2. 19. 15:07


먼저 앞의 선행 내용을 보고 설치하기 바란다

https://league-cat.tistory.com/288


그리고 또한 모든 내용은 다음을 참고 하였다

https://streamsets.com/tutorials/


Tutorial Overview

 하단 자습서는 Pipeline 만들고 실행하는 과정을 나타낸다. 샘플 데이터를 다운로드하여 데이터 미리보기를 수행하고 완료된 Pipe line 실행하여 결과를 모니터링 있다.

 tutorial 기본버전과 확장버전이 있으며, 기본버전을 사용하면 로컬 파일 시스템에서 데이터를 읽고 있으며 샘플 데이터를 쉽게 사용 가능하다.

 확장 버전은 데이터를 조작하는 방법을 알려준다. Trash 대상 시스템에 쓰지 않고 Pipeline 테스트하는데 사용한다.
 
샘플데이터의 경우 가짜 신용카드 데이터와 잘못된 정보를 추가하기 위해 택시회사의 공개 요금 결제 정보를 사용하여 error record 생성한다.
 
기본 pipeline 고객이 사용하는 신용 카드 업체를 평가한다.  그런 다음 pipeline 신용 카드 번호를 가려서 결과를 파일에 기록한다. Secondary branch non-credit card data record format 표준화한다.
 B
asic tutorial에서 만드는 pipeline 다음과 같다.
 

확장된 pipeline 추가 branch 사용하여 일부 field type 변경하고 Trash destination 보낸다. 확장된 pipeline 완성하기 전에 data preview 사용하여 stage 구성 data changes 테스트 한다.

 

Before You Begin

  1. Sample data download
    wget
    https://www.streamsets.com/documentation/datacollector/sample_data/tutorial/nyc_taxi_data.csv

 

  1. Data Collector local directory 만들기
    /<base directory>/tutorial/origin
    /<base directory>/tutorial/destination
    /<base directory>/tutorial/error
     
  2. Sample data -> ~/tutorial/origin 저장
     
  3. Data Collector 설치 상태 확인

 

  1. Data Collector 접근 (admin/admin)

 

host data -> docker container 옮기는 방법

https://www.leafcats.com/163

 

  • Docker cp {옮길 파일 디렉터리} {docker id or name}:{옮겨지는 위치}/{이름}


StreamSets start

 

  • StreamSets Web UI 접근(default id/pw : admin/admin)


  • Home 화면


Basic tutorial

 여기서는 디렉토리에서 파일을 읽고 브랜치의 데이터를 처리하며 모든 데이터를 파일 시스템에 쓰는 파이프 라인을 작성하게 된다.
 

  다음은 기본 파이프 라인을 빌드하고 실행하기 위한 단계이다.
 

  1. 오류 처리를 구성하는 파이프 라인 속성
     
  2. 처리할 데이터를 디렉토리에 추가
     
  3. 원본 데이터를 미리확인 , 파이프 라인에 필요한 필드 수준 세부 정보 결정
     
  4. Stream Selector 사용하여 신용 카드 거래를 기본 지점으로, 현금 거래를 보조 지점으로 라우팅 하기.
     
  5. Jython Evaluator 구성하여 신용카드 번호를 기반으로 신용 카드 유형을 결정하는 사용자 정의 처리 수행
     
  6. 피드 마스크를 추가하여 신용 카드 번호를 마스크, 필수 필드를 사용하여 신용 카드 번호없이 레코드를 버림
     
  7. branch 로컬 FS 대상에 연결
     
  8. 보조 분기에서 식계산기를 사용하여 신용 레코드에 일치하는 필드를 현금 레코드에 추가.
    데이터 미리보기를 사용하여 추가 필드를 확인
     
  9. 많은 신용 카드 지불에 신용 카드 번호가 누락된 경우 경고를 발생시키는 데이터 규칙 추가
     
  10. 파이프 라인을 시작하고 결과를 모니터링
     

파이프 라인 만들기 파이프 라인 속성 정의
 파이프 라인을 구성 오류 레코드로 수행 작업을 결정해야 한다. 파일을 버리거나 다른 파이프 라인 또는 Kafka 있음.
 
해당 튜토리얼에서는 레코드를 로컬 파일에 기록하지만 오류 레코드를 카프카에 있음.

  • CREATE NEW PIPELINE 선택


  • New Pipeline 생성

  • Empty canvas 표시

영역에 대한 설명
 

이름

기술

 

1

파이프 라인 생성 도움말 표시

Origin 누락되어 있음을 나타내며 선택할 Origin list 제공

파이프 라인 생성 도움말 표시 줄이 표시되지 않으면 비활성화

이를 사용하려면 Data Collector 창의오른쪽 상단 모서리 에서 도움말 설정을 클릭 파이프 라인 만들기 도움말 막대 숨기기 옵션의 선택을 취소.

2

문제 아이콘

발견 파이프 라인 문제 목록을 표시

3

스테이지 라이브러리 패널

기본적으로 사용 가능한 Origins 목록을 표시

4

무대 메뉴

Stage library 표시되는 stage 변경. 기본적으로 모든 stage 표시

5

속성 패널 / 미리보기 패널 / 모니터 패널

파이프 라인을 구성하면 속성 패널에 파이프 라인 또는 선택한 Stage 속성이 표시됩니다패널의 크기를 조절하고 최소화하고 최대화 가능

데이터 미리보기 패널에는 선택한 스테이지 스테이지 그룹에 대한 입력 출력 데이터가 표시

실행중인 파이프 라인 모니터 패널에는 실시간 metric 통계가 표시됩니다.

참고
일부 아이콘 옵션은 UI 표시되지 않을 있음
표시되는
항목은 수행중인 작업과 사용자 계정에 할당 역할을 기반


무대 라이브러리 아이콘

Statge library 패널의 표시를 toggles

 

  • 속성 패널에서 오류 레코드 탭을 클릭 -> Error Records 속성에서 Write to File 선택.
    Error Records - Write to File tab
    선택


  • Properties 다음과 같이 구성(not listed default 사용)
     

Write to File Property

Description

Directory

Directory for error record files. Enter the directory that you set up for the tutorial. We recommended:

/<base directory>/tutorial/error

Note: To prevent validation errors, the directory must already exist.

Files Prefix

This defines a prefix for error record files.

By default, the files are prefixed with "SDC" and an expression that returns the Data Collector ID, but that's more than we need here.

Delete the default and enter the following prefix: err_

Max File Size

For the tutorial, reduce the files size to something more manageable, such as 5 or 1 MB.

  • 위의 사항을 숙지한 pipeline 구축


이렇게하면 기본적인 pipeline 세팅이 완료된다.

Comments