일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- c++
- 클라우드
- 백준
- mysql on docker
- MySQL
- 데이터베이스
- streamsets 강의
- C언어
- 도커 elk
- ansible install
- java
- 알고리즘
- 파이썬
- 코딩
- 정보처리기사
- 푸시푸시
- 앤서블 설치
- 도커 시작하기
- elk stack
- 도커 mysql
- 스트림셋
- 데이트
- 도커
- nvidia docker
- mysql docker
- c
- python
- 자바
- docker
- 스트림셋이란?
- Today
- Total
리그캣의 개발놀이터
[빅데이터 인프라] StreamSets Basic tutorial 시작하기 - 1 본문
먼저 앞의 선행 내용을 보고 설치하기 바란다
https://league-cat.tistory.com/288
그리고 또한 모든 내용은 다음을 참고 하였다
https://streamsets.com/tutorials/
Tutorial Overview
하단 자습서는 Pipeline을 만들고 실행하는 과정을 나타낸다. 샘플 데이터를 다운로드하여 데이터 미리보기를 수행하고 완료된 Pipe line을 실행하여 결과를 모니터링 할 수 있다.
tutorial은 기본버전과 확장버전이 있으며, 기본버전을 사용하면 로컬 파일 시스템에서 데이터를 읽고 쓸 수 있으며 샘플 데이터를 쉽게 사용 가능하다.
확장 버전은 데이터를 조작하는 방법을 알려준다. Trash는 대상 시스템에 쓰지 않고 Pipeline을 테스트하는데 사용한다.
샘플데이터의 경우 가짜 신용카드 데이터와 잘못된 정보를 추가하기 위해 택시회사의 공개 요금 결제 정보를 사용하여 error record를 생성한다.
기본 pipeline은 고객이 사용하는 신용 카드 업체를 평가한다. 그런 다음 pipeline은 신용 카드 번호를 가려서 결과를 파일에 기록한다. Secondary
branch는 non-credit card data의 record format을 표준화한다.
Basic tutorial에서 만드는 pipeline은 다음과 같다.
확장된 pipeline은 추가 branch를 사용하여 일부 field type을 변경하고 Trash destination에 보낸다. 확장된 pipeline을 완성하기 전에 data preview를 사용하여 stage 구성 및 data changes를 테스트 한다.
Before You Begin
- Sample data
download
wget https://www.streamsets.com/documentation/datacollector/sample_data/tutorial/nyc_taxi_data.csv
- Data Collector에 local directory 만들기
/<base directory>/tutorial/origin
/<base directory>/tutorial/destination
/<base directory>/tutorial/error
- Sample data ->
~/tutorial/origin에 저장
- Data Collector 설치 상태 확인
- Data Collector 접근 (admin/admin)
※host data -> docker container에 옮기는 방법
- Docker cp {옮길 파일 및 디렉터리} {docker id or name}:{옮겨지는 위치}/{이름}
StreamSets start
- StreamSets Web UI 접근(default id/pw : admin/admin)
- Home 화면
Basic tutorial
여기서는 디렉토리에서 파일을 읽고 두 브랜치의 데이터를 처리하며 모든 데이터를 파일 시스템에 쓰는 파이프 라인을 작성하게 된다.
다음은 기본 파이프 라인을 빌드하고 실행하기 위한 단계이다.
- 오류 처리를 구성하는 파이프 라인 속성
- 처리할 데이터를 디렉토리에 추가
- 원본 데이터를 미리확인 후, 파이프 라인에 필요한 필드 수준 세부 정보 결정
- Stream Selector를 사용하여 신용 카드 거래를 기본 지점으로, 현금 거래를 보조 지점으로 라우팅 하기.
- Jython Evaluator를 구성하여 신용카드 번호를 기반으로 신용 카드 유형을 결정하는 사용자 정의 처리 수행
- 피드 마스크를 추가하여 신용 카드 번호를 마스크, 필수 필드를 사용하여 신용 카드 번호없이 레코드를 버림
- 두 branch를 로컬 FS 대상에 연결
- 보조 분기에서 식계산기를 사용하여 신용 레코드에 일치하는 필드를 현금 레코드에 추가.
데이터 미리보기를 사용하여 추가 할 필드를 확인
- 많은 신용 카드 지불에 신용 카드 번호가 누락된 경우 경고를 발생시키는 데이터 규칙 추가
- 파이프 라인을 시작하고 결과를 모니터링
파이프 라인 만들기 및 파이프 라인 속성 정의
파이프 라인을 구성 할 때 오류 레코드로 수행 할 작업을 결정해야 한다. 파일을 버리거나 다른 파이프 라인 또는 Kafka에 쓸 수 있음.
해당 튜토리얼에서는 레코드를 로컬 파일에 기록하지만 오류 레코드를 카프카에 쓸 수 있음.
- CREATE NEW PIPELINE 선택
- New
Pipeline 생성
- Empty
canvas 표시
영역에 대한 설명
이름 |
기술 |
|
1 |
파이프 라인 생성 도움말 표시 줄 |
Origin이 누락되어 있음을 나타내며 선택할 Origin list를 제공 파이프 라인 생성 도움말 표시 줄이 표시되지 않으면 비활성화 이를 사용하려면 Data Collector 창의오른쪽 상단 모서리 에서 도움말 > 설정을 클릭 후 파이프 라인 만들기 도움말 막대 숨기기 옵션의 선택을 취소. |
2 |
문제 아이콘 |
발견 된 파이프 라인 문제 목록을 표시 |
3 |
스테이지 라이브러리 패널 |
기본적으로 사용 가능한 Origins 목록을 표시 |
4 |
무대 메뉴 |
Stage library에 표시되는 stage 변경. 기본적으로 모든 stage 표시 |
5 |
속성 패널 / 미리보기 패널 / 모니터 패널 |
파이프 라인을 구성하면 속성 패널에 파이프 라인 또는 선택한 Stage의 속성이 표시됩니다. 패널의 크기를 조절하고 최소화하고 최대화 가능 데이터 미리보기 패널에는 선택한 스테이지 나 스테이지 그룹에 대한 입력 및 출력 데이터가 표시 실행중인 파이프 라인 모니터 패널에는 실시간 metric 및 통계가 표시됩니다. 참고
: |
|
무대 라이브러리 아이콘 |
Statge library 패널의 표시를 toggles |
- 속성 패널에서 오류 레코드 탭을 클릭 ->
Error Records 속성에서 Write to File을 선택.
Error Records - Write to File tab 선택
- Properties를 다음과 같이 구성(not
listed 시 default 값 사용)
Write to File Property |
Description |
Directory |
Directory for error record files. Enter the directory that you set up for the tutorial. We recommended: /<base directory>/tutorial/error Note: To prevent validation errors, the directory must already exist. |
Files Prefix |
This defines a prefix for error record files. By default, the files are prefixed with "SDC" and an expression that returns the Data Collector ID, but that's more than we need here. Delete the default and enter the following prefix: err_ |
Max File Size |
For the tutorial, reduce the files size to something more manageable, such as 5 or 1 MB. |
- 위의 사항을 숙지한 후 pipeline을 구축
이렇게하면 기본적인 pipeline 세팅이 완료된다.
'프로그래밍 기본 > 서버 구축 및 관리' 카테고리의 다른 글
[빅데이터 인프라] Kafka on Mesos broker 다루기 - kafkacat 포함 (0) | 2019.02.21 |
---|---|
[빅데이터 인프라] Kafkacat 을 centos7에서 설치하기 / kafkacat install on centos7 (0) | 2019.02.21 |
[빅데이터 인프라] Streamsets on marathon (0) | 2019.02.18 |
[빅데이터 인프라 Linux / CentOs7] streamsets 스트림셋 수동 설치 (2) | 2019.02.18 |
[Linux] curl을 통한 command .json 결과값 이쁘게 포매팅하기. (0) | 2019.02.18 |