본문 바로가기

Snowflake14

[Snowflake] 5. Security & Governance Snowkflake의 보안을 네트워크 제어, 사용자 인증 및 관리, 거버넌스 및 권한, 데이터 보호, 데이터 암호화 5가지 분야 별로 간략히 정리했다. Network Controls Snowflake의 Network Controls은 사용자가 Snowflake에 접근하고 있는 클라이언트와 Snowflake 서비스 간의 네트워크 통신을 보호하고 관리하기 위한 기능이다. CSP Private Network Snowflake은 CSP Private Network를 지원하며, 이를 사용하여 사용자가 클라우드 서비스를 보다 안전하게 사용할 수 있다. CSP Private Network는 공용 인터넷을 우회하여 CSP에서 제공하는 프라이빗 네트워크를 통해 보다 안전한 통신이 가능하도록 한다. 이를 통해 고객의 데이.. 2023. 6. 9.
[Snowflake] 4. Service Layer Intelligence Infrastructure인 완전 관리형 서비스로서 자동화를 통해 위험을 줄이고 효율성을 개선하여 사용자가 중요한 일에 더욱 집중할 수 있도록 도와주는 계층이다. Cloud Service 계층에는 인증, 보안, 데이터 관리 및 쿼리 최적화와 같이 Snowflake 전체에서 조정하는 모든 작업이 포함된다. Cloud Service 계층은 서로 다른 가용 영역에서 작동하고 액세스 및 사용 가능성이 높은 정보를 사용하는 상태 비저장 컴퓨팅 리소스이다. DDL 및 DML과 같은 데이터 작업을 위한 SQL 클라이언트 인터페이스를 제공한다. 캐싱 자동화 쿼리를 처리하는데 필요한 컴퓨팅 리소스는 쿼리의 크기와 복잡성에 따라 다르다. 쿼리가 복잡해질수록 더 큰 Virtual Warehouse가 .. 2023. 6. 9.
[Snowflake] 3. Compute Layer Storage Layer와 완전히 분리된 Compute Layer는 하나의 데이터에 대하여 여러가지 워크로드가 액세스 할 수 있다. 스토리지에서 분리되어 있는 특징 때문에 운영 중단 없이 즉각적이고 독립적으로 확장이 가능하다. 또한 워크로드 간의 완벽한 분리가 가능하기 때문에 리소스 경쟁을 제거할 수 있고 트랜잭션의 일관성도 유지할 수 있다. 아래에서 자세히 살펴보자. 1. What is Virtual Warehouse? Virtual Warehouse는 최신 데이터 웨어하우스를 지원하는 컴퓨팅 클러스터의 또 다른 용어이다. 메모리, 임시 저장소 및 CPU를 포함한 리소스를 제공하여 SQL 실행 및 DML(Data Manipulation Language)을 위해 언제든지 활용하고 필요하지 않을 때 끌 수.. 2023. 6. 9.
[Snowflake] 2. Storage Layer Compute Layer와 완전히 분리되어 있는 통합/단일 저장소 계층이다. Snowflake에서 사용되는 모든 데이터는 centralized되어 이 storage에 저장된다. 특징과 기능들을 하나씩 알아보자. 특징 통합된 데이터 저장소 정형, 반정형, 비정형 데이터를 위한 통합 저장소를 제공 분산되어 저장되지 않고, 통합 저장소 한 곳에만 저장되어 replica 생성 불필요 필요 시 데이터 볼륨이 On-Demand 방식으로 자동 확장 간편한 관리 최적화된 압축(80% 이상) 및 강력한 데이터 보안 지원 유연성 및 통합성 지원 S3와 같은 클라우드 저장소, Iceberg와 같은 open source 및 On-Premise에 저장된 외부 데이터 직접 연결 지원 Stage & Table Snowflake에는.. 2023. 6. 9.
[Snowflake] 1. Snowflake Overview and Architecture Snowflake란? Snowflake란 데이터 저장, 데이터 처리부터 시각화, 머신러닝까지 한 번에 할 수 있는 클라우드 기반 통합 데이터 플랫폼이다. Traditional Data Architecture 기존의 데이터 아키텍쳐는 아래와 같다. 여러 데이터 소스들로부터 데이터를 가져와 데이터 수집/적재, 전처리, 정규화 및 집계, 분석, 시각화 등의 단계에 따라 각 S/W 시스템을 각각 구축하고 관리해야 한다. 또한 각 시스템마다 데이터 최신화에 대한 여러 관리 비용들도 발생할 것이다. 이러한 분리된 아키텍쳐에 대해 각 시스템과 데이터의 구축 및 관리, 확장에 대한 비용 이슈를 해결하기 위해 Snowflake가 등장했다. Modern Data Architecture with Snowflake 다음은 S.. 2023. 6. 9.
Snowflake 프로젝트 사전 준비 - 2 Snowflake 프로젝트 사전 준비 - 1에서는 자사 서버에 Airflow를 설치해보았다. 본 글에서는 Airflow Dags를 통해 RDBMS에서 데이터를 Extract하고 이를 Snowflake에서 Load하는 과정을 정리하려고 한다. 모든 과정을 DAG를 작성하여 처리하기 이전에 각 단계별로 기능 테스트를 시행한 후 최종적으로 DAG로 작성하여 처리할 예정이다.RDBMS - MySQL원천이 되는 RDBMS는 자사 서버에 설치되어 있는 MySQL을 사용했다. PoC 과정에서 Snowflake 크레딧 이슈로 인해 샘플 데이터를 RDBMS에 이관하여 테스트를 진행한 적이 있는데 그 데이터를 활용할 예정이다.CSV 데이터 추출먼저 적재 대상 테이블을 csv 파일로 추출한다.SELECT * FROM myd.. 2023. 5. 23.