리그캣의 개발놀이터

[빅데이터 인프라] StreamSets Basic tutorial 시작하기(origin) - 2 본문

프로그래밍 기본/서버 구축 및 관리

[빅데이터 인프라] StreamSets Basic tutorial 시작하기(origin) - 2

리그캣 2019. 2. 22. 18:44


Origin 구성하기


Streamsets은 origin, processing, destination으로 이렇게 셋으로 나뉜다.


origin이라 함은 데이터 원천을 말하는데 ETL구조에서 데이터를 다루기 위해서는


먼저 원천이 되는 데이터를 가져와야 하지 않겠는가??


Basic tutorial에서는 origin으로 로컬 데이터 .csv를 사용한다.



 Origin pipeline 들어오는 data 나타냄. Origin 구성할 , origin system 연결하는 방법, 처리할 data 유형 origin 관련된 기타 특성을 정의.
 

 Data Collector origins 넓은 범위까지 제공. Directory origin 사용하여 다운로드 샘플 CSV 파일을 처리 가능.

 

  1. Canvas stage 추가하려면 Pipeline Creation Help Bar에서 Select Origin > Directory 클릭한다.
    또는 Stage Library Panel에서 Directory origin 클릭한다.
  2. Properties panel에서 Files tab 클릭후 아래 properties 구성한다
  3. Directory Property

    Value

    Files Directory

    Directory where you saved the sample file. Enter an absolute path.

    We recommended: /<base directory>/tutorial/origin.

    File Name Pattern

    The Directory origin processes only the files in the directory that match the file name pattern.

    The tutorial sample file name is nyc_taxi_data.csv. Since the file is the only file in the directory, you can use something generic, like the asterisk wild card (*) or *.csv.

    If you had other .csv files in the directory that you didn't want to process, you might be more specific, like this:nyc_taxi*.csv.

    Or if you want to process files with prefixes for other cities, you might use *taxi*.csv.

    Read Order

    This determines the read order when the directory includes multiple files. You can read based on the last-modified timestamp or file name. Because it's simpler, let's use Last Modified Timestamp.































\







아래와 같이 구성해주면 된다.


즉, /home/sdc~ 에서 데이터를 가져온다는 뜻이다.




Data Formats tab을 클릭 후
다음 properties를 참고하여 구성하면 된다.


Delimited Property

Description

Data Format

The data in the sample file is delimited, so select Delimited.

Delimiter Format Type

Since the sample file is a standard CSV file, use the default: Default CSV (ignores empty lines).

Header Line

The sample file includes a header, so select With Header Line.

Root Field Type

This property determines how the Data Collector processes delimited data. Use the default List-Map.

This allows you to use standard functions to process delimited data. With the List root field type, you need to use delimited data functions.


대충 위를 참고하면 구성하면 아래와 같이 된다.


짠 !!! origin 세팅을 완료하였다.


다음에는 preview를 배워보겠다.






Comments