일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 푸시푸시
- C언어
- 도커
- 데이트
- ansible install
- MySQL
- 자바
- 정보처리기사
- 스트림셋
- c++
- 파이썬
- mysql on docker
- elk stack
- 클라우드
- 백준
- mysql docker
- 도커 elk
- c
- 데이터베이스
- 도커 mysql
- nvidia docker
- docker
- java
- 스트림셋이란?
- streamsets 강의
- 알고리즘
- 앤서블 설치
- 도커 시작하기
- 코딩
- python
- Today
- Total
목록프로그래밍 기본 (96)
리그캣의 개발놀이터
https://league-cat.tistory.com/313 동영상으로 배우는 Virtualbox 로 윈도우에서 리눅스 다루기(설치) 클라우드만을 사용하기에는 비용적인 문제가 있다구요?? 그러면 걱정하지 마시고 데스크탑에 리눅스 환경을 구성해보세요 league-cat.tistory.com 먼저 해당 강의를 듣기전에 위에서 먼저 수강을 하시기 바랍니다. 이번에는 구성한 VirtualBox ubuntu os를 초기 세팅하는 시간을 갖겠습니다. 좀더 자세한 내용 및 참고 url을 해당 utube에서 확인 가능합니다. https://youtu.be/TK59m8cvucM
클라우드만을 사용하기에는 비용적인 문제가 있다구요?? 그러면 걱정하지 마시고 데스크탑에 리눅스 환경을 구성해보세요
기존에 StreamSets에 대해서 블로그 포스팅을 했었는데 내용이 많다보니 블로그에서 설명하기에는 한계가 있어서 동영상으로 소개영상을 만들어 보았습니다.
이번 포스팅에서는 Jython을 사용하여 origin에서 받은 data를 변경해 보도록 하겠습니다. Jython이라면 streamsets datacollector 자체가 java로 만들어지다 보니 python언어로 변환한 거라고 생각하시면되어요. 일단, jython관련 모듈을설치해야 하는데 canvas에 추가하기 위해서는 다음과 같은 과정을 거쳐야 합니다. 우측 상단에보면 선물포장 같은 화면이 있어요 이화면은 새로운 모듈을 설치할수있는 기능이라고 생각하면되어요 다음과 같은 화면이 나오는데 jy라고 쓰면 jython 모듈을 설치가능한 화면이 나옵니다. install을 한 후 datacollector를 재실행하면 된다. 나는 docker로 설치했기에 맨아래를 선택했지만 본인 환경에 맞게 재실행가능하다. 그렇..
이번 포스팅에서는 Stream Selector라는 Processing 기능을 사용할 것이다. https://www.streamsets.com/documentation/datacollector/sample_data/tutorial/nyc_taxi_data.csv 먼저 해당 csv파일을 //tutorial/origin에 넣어줫고 local에서 해당 데이터를 가져왔을 것이다. 데이터를 preview를 통하여 보면 알겠지만택시 지불에 대한 csv파일이다. Stream Selector에 대해서 설명하자면 사용자 정의 조건에 따라 데이터를 다른 stream으로 라우팅해주는 즉 나누어 주는 긴능을 한다. 먼저 csv의 신용카드의 기록을 빼내기 위해서는 다음의 코드를 사용한다. ${recod:value('/paymen..
이번엔 'Preview' 기능을 사용하여 Origin에서 data가 어떻게 들어오는지 또는 나의 'Processing' 과정을 통하여 data가 어떻게 수정되는지 알아볼 것이다. data set에 익숙해지고 pipeline 구성에 대한 세부 정보를 수집하려면 원본 data를 미리 보아야 한다. 다음은 pipeline을 구성하는 데 필요한 주요 세부 정보이다. 지불 정보가 포함되어있는 field - 우리는 해당 정보를 사용하여 Stream Selector의 data를 라우팅 할 것이다. 신용카드 정보가 포함되어있는 field - 우리는 해당 정보를 사용하여 field masker의 data를 가려낼 것이다. field data에 액세스 할때 field경로를 지정한다. Field 경로는 record의 복잡성..
Origin 구성하기 Streamsets은 origin, processing, destination으로 이렇게 셋으로 나뉜다. origin이라 함은 데이터 원천을 말하는데 ETL구조에서 데이터를 다루기 위해서는 먼저 원천이 되는 데이터를 가져와야 하지 않겠는가?? Basic tutorial에서는 origin으로 로컬 데이터 .csv를 사용한다. Origin은 pipeline에 들어오는 data를 나타냄. Origin을 구성할 때, origin system에 연결하는 방법, 처리할 data 유형 및 origin과 관련된 기타 특성을 정의. Data Collector는 origins의 넓은 범위까지 제공. Directory origin을 사용하여 다운로드 한 샘플 CSV 파일을 처리 가능. Canvas에 s..
해당 포스팅을 보기 전에 Kafka on mesos를 설치하고https://league-cat.tistory.com/280 Kafkacat을 설치하기 바란다.본인의 컴이 ubuntu 계열이면 kafkacat을 $apt-get install kafkacat으로 설치 바란다.centos 계열이면 아래의 링크를 참조바란다.https://league-cat.tistory.com/292?category=721534 Kafkacat을 이용한 테스트 broker end point 는 $./kafka-mesos.sh broker list를 하여 해당하는 broker의 end point ip를 가져오면 된다. ~/kafka/에 들어가 준다. (맨위의 링크 참조) 0 broker에 "test"를 넣어줌 $echo "tes..