DataCatalog?

  • 데이터를 빨리 발견하고, 이해하고, 관리하기 위한 구조를 강화시켜주는 관리되는 확장 가능한 메타데이터 관리 시스템.
  • 기술적/비즈니스적 메타정보를 저장하는 시스템. 
  • 아이덴티티/접근권한 관리(IAM) 및 데이터 분실 방지(DLP)와 연계되어 있는 강력한 보안 시스템 제공.
  • 메타데이터로 자산에 태그를 붙이거나, 접근할 데이터 자산을 검색할 수 있다.
  • 데이터셋, 테이블에 태그를 붙일 수 있고, 태그 템플릿을 사용하여 미리 사용할 테그들의 종류를 정의할 수도 있다.

 

실습 내용

빅쿼리에 데이터셋을 생성한 다음 공공데이터인 뉴욕 택시 테이블을 복사한다.

데이터 카탈로그 태그 템플릿을 만들어서 새로 생성된 테이블에 태그를 붙여본다.

 

 

데이터 카탈로그 API 활성화 체크

APIs and Services > Library에서 Data Catalog 검색해서 Enabled를 선택.

혹시나 실패하면 다시 시도 해보자.

 

 

빅쿼리 데이터셋 준비하기

Bigquery 선택해서 빅 쿼리 콘솔을 열자.

Create Dataset을 선택해서 dataset ID에 demo_dataset 선택하고, Datalocation은 적절히, Defalut data expiration은 Never를 선택한다. Create Dataset 선택.

왼쪽 패널에서 +Add Data > Explore public datasets 선택해서 NYC TLC trip 선택하자. 

왼쪽 패널에 bigquery-public-data가 표시된다. 그 밑에 new_york_taxi_trips 데이터셋에서 tlc_yellow_trips_2018 테이블을 선택해서 Copy Table을 한다. 테이블 명은 trips로 복사. 당연히 프로젝트밑에 demo_dataset을 목적지로 선택한다.

 

데이터 카탈로그 태그 템플릿 생성하기

Data Catalog UI에서 태그 템플릿을 생성한다.

Data Catalog > + Create > Create Tag template 선택

탬플릿 이름은 Demo Tag Template, ID는 demo_tag_template, 위치는 기본값을 둔다.

이제 태그 속성을 추가해야 하는데, 속성(attribute)을 필드(field)라고도 부른다.

 

Add Field를 선택해서 표시명, Field ID, 필수 속성 여부, 데이터 형식을 선택한다. 데이터 형식에는 String, Double, Boolean, Enumerated,Datetime를 선택할 수 있다. Enumerated를 선택할 경우에는 열겨형에서 선택할 수 있는 값을 추가로 선택해 주어야 한다.

 

 

테이블에 태그 붙이기

데이터카달로그에서 데이터셋을 검색한다. 오른쪽 상단 카달로그 아이콘을 누르면 검색창이 표시된다. demo_dataset을 선택한다.

태그를 붙이고자하는 테이블을 선택한다. 예에서는 trips 테이블 선택. Entry details페이지를 열고 Attach Tag 를 클릭한다.

 

 

 

 

실컷 정리했더니 https://cloud.google.com/data-catalog/docs/quickstart-tagging 내용과 동일하다.

 

 

 

 

+ Recent posts