일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 데이트
- 스트림셋이란?
- docker
- C언어
- 도커 mysql
- ansible install
- java
- 앤서블 설치
- 알고리즘
- python
- c++
- streamsets 강의
- 도커 시작하기
- 도커
- c
- elk stack
- nvidia docker
- 정보처리기사
- 백준
- 클라우드
- 데이터베이스
- 푸시푸시
- mysql on docker
- 자바
- mysql docker
- 스트림셋
- 도커 elk
- 코딩
- MySQL
- 파이썬
- Today
- Total
목록프로그래밍 기본/서버 구축 및 관리 (55)
리그캣의 개발놀이터
기존에 StreamSets에 대해서 블로그 포스팅을 했었는데 내용이 많다보니 블로그에서 설명하기에는 한계가 있어서 동영상으로 소개영상을 만들어 보았습니다.
이번 포스팅에서는 Jython을 사용하여 origin에서 받은 data를 변경해 보도록 하겠습니다. Jython이라면 streamsets datacollector 자체가 java로 만들어지다 보니 python언어로 변환한 거라고 생각하시면되어요. 일단, jython관련 모듈을설치해야 하는데 canvas에 추가하기 위해서는 다음과 같은 과정을 거쳐야 합니다. 우측 상단에보면 선물포장 같은 화면이 있어요 이화면은 새로운 모듈을 설치할수있는 기능이라고 생각하면되어요 다음과 같은 화면이 나오는데 jy라고 쓰면 jython 모듈을 설치가능한 화면이 나옵니다. install을 한 후 datacollector를 재실행하면 된다. 나는 docker로 설치했기에 맨아래를 선택했지만 본인 환경에 맞게 재실행가능하다. 그렇..
이번 포스팅에서는 Stream Selector라는 Processing 기능을 사용할 것이다. https://www.streamsets.com/documentation/datacollector/sample_data/tutorial/nyc_taxi_data.csv 먼저 해당 csv파일을 //tutorial/origin에 넣어줫고 local에서 해당 데이터를 가져왔을 것이다. 데이터를 preview를 통하여 보면 알겠지만택시 지불에 대한 csv파일이다. Stream Selector에 대해서 설명하자면 사용자 정의 조건에 따라 데이터를 다른 stream으로 라우팅해주는 즉 나누어 주는 긴능을 한다. 먼저 csv의 신용카드의 기록을 빼내기 위해서는 다음의 코드를 사용한다. ${recod:value('/paymen..
이번엔 'Preview' 기능을 사용하여 Origin에서 data가 어떻게 들어오는지 또는 나의 'Processing' 과정을 통하여 data가 어떻게 수정되는지 알아볼 것이다. data set에 익숙해지고 pipeline 구성에 대한 세부 정보를 수집하려면 원본 data를 미리 보아야 한다. 다음은 pipeline을 구성하는 데 필요한 주요 세부 정보이다. 지불 정보가 포함되어있는 field - 우리는 해당 정보를 사용하여 Stream Selector의 data를 라우팅 할 것이다. 신용카드 정보가 포함되어있는 field - 우리는 해당 정보를 사용하여 field masker의 data를 가려낼 것이다. field data에 액세스 할때 field경로를 지정한다. Field 경로는 record의 복잡성..
Origin 구성하기 Streamsets은 origin, processing, destination으로 이렇게 셋으로 나뉜다. origin이라 함은 데이터 원천을 말하는데 ETL구조에서 데이터를 다루기 위해서는 먼저 원천이 되는 데이터를 가져와야 하지 않겠는가?? Basic tutorial에서는 origin으로 로컬 데이터 .csv를 사용한다. Origin은 pipeline에 들어오는 data를 나타냄. Origin을 구성할 때, origin system에 연결하는 방법, 처리할 data 유형 및 origin과 관련된 기타 특성을 정의. Data Collector는 origins의 넓은 범위까지 제공. Directory origin을 사용하여 다운로드 한 샘플 CSV 파일을 처리 가능. Canvas에 s..
해당 포스팅을 보기 전에 Kafka on mesos를 설치하고https://league-cat.tistory.com/280 Kafkacat을 설치하기 바란다.본인의 컴이 ubuntu 계열이면 kafkacat을 $apt-get install kafkacat으로 설치 바란다.centos 계열이면 아래의 링크를 참조바란다.https://league-cat.tistory.com/292?category=721534 Kafkacat을 이용한 테스트 broker end point 는 $./kafka-mesos.sh broker list를 하여 해당하는 broker의 end point ip를 가져오면 된다. ~/kafka/에 들어가 준다. (맨위의 링크 참조) 0 broker에 "test"를 넣어줌 $echo "tes..
Kafkacat 설치 c++ compiler 설치 $yum install gcc-c++ $ git clone https://github.com/edenhill/librdkafka $ cd librdkafka $ ./configure $ make $ sudo make install /usr/local/lib 로 이동해주어 다음 명령어 실행한다. $ git clone https://github.com/edenhill/kafkacat $ cd kafkacat $ ./configure $ make $ sudo make install Lib 파일을 찾을 수 없다면 $ ldd kafkacat 다음의 파일을 만들고 아래를 추가 /etc/ld.so.conf.d/usrlocal.conf Contents: /usr/loc..
먼저 앞의 선행 내용을 보고 설치하기 바란다 https://league-cat.tistory.com/288 그리고 또한 모든 내용은 다음을 참고 하였다https://streamsets.com/tutorials/ Tutorial Overview 하단 자습서는 Pipeline을 만들고 실행하는 과정을 나타낸다. 샘플 데이터를 다운로드하여 데이터 미리보기를 수행하고 완료된 Pipe line을 실행하여 결과를 모니터링 할 수 있다. tutorial은 기본버전과 확장버전이 있으며, 기본버전을 사용하면 로컬 파일 시스템에서 데이터를 읽고 쓸 수 있으며 샘플 데이터를 쉽게 사용 가능하다. 확장 버전은 데이터를 조작하는 방법을 알려준다. Trash는 대상 시스템에 쓰지 않고 Pipeline을 테스트하는데 사용한다. 샘..