• databricks 의 workspace에서langchain을 공부하다가 환경 변수를 설정하는 부분에서'음. secrets를 활용해보면 어떨까'하여 공부하게 됨. databricks - secrets 참고 자료 : https://docs.databricks.com/aws/en/security/secrets/?language=Databricks%C2%A0CLI Secret management | Databricks on AWSLearn about using Databricks secrets to store credentials to authenticate to external data sources through JDBC.docs.databricks.com databricks-sdk 참고 자료 : http..

  • 참고 자료 : https://learn.microsoft.com/ko-kr/azure/databricks/dev-tools/sdk-python Python용 Databricks SDK - Azure DatabricksPython용 Databricks SDK를 사용하여 Python을 사용하여 Databricks 작업을 자동화하는 방법을 알아봅니다.learn.microsoft.com로컬 개발 컴퓨터에서 Python용 Databricks SDK를 시작하는 방법을 설명한다.참고 자료 : https://github.com/databricks/databricks-sdk-py GitHub - databricks/databricks-sdk-py: Databricks SDK for Python (Beta)Databric..

  • [Databricks] cli

    관련 문서 : https://docs.databricks.com/aws/en/dev-tools/cli/ What is the Databricks CLI? | Databricks on AWSLearn about the Databricks CLI, a command-line interface utility that enables you to work with Databricks.docs.databricks.com 1. 환경 구축wsl 환경에서의 실습을 진행한다.sudo apt updatehttps://docs.databricks.com/aws/en/dev-tools/cli/install#curl-install Install or update the Databricks CLI | Databricks on AW..

  • 1. 볼륨 위치 찾기https://learn.microsoft.com/ko-kr/azure/databricks/volumes/ Unity 카탈로그 볼륨이란 무엇인가요? - Azure DatabricksUnity 카탈로그 볼륨은 클라우드 개체 스토리지에서 테이블 형식이 아닌 데이터에 대한 액세스를 관리합니다.learn.microsoft.com 위의 문서와 같이 볼륨의 주소가 이루어진다는 것을 알 수 있는데, 해당하는 볼륨 주소를 쉽게 복사할 수 있다.볼륨의 이름을 선택하면 모달창이 뜨면서, 해당 내용과 Copy, Download 가 가능하다.복사하면 아래와 같은 형태의 주소값을 쉽게 볼 수 있다./Volumes///// 2. Workspace에서 데이터 읽기 https://www.databricks...

  • 1. Compute 와 SQL Warehouse데이터 브릭스에서 작업에 필요로하는 컴퓨팅 리소스를 총칭하는 용어로 Compute라고 할 수 있다.Compute는 일반적으로 데이터 사이언티스트, 데이터 엔지니어가 사용하는 범용 클러스러를 생성하고 관리한다.여기에서 생성하는 클러스터는 노트북 환경에서 Python, Scala, R, SQL 등 다양한 언어를 사용하여복잡한 ETL 작업, 머신러닝 모델 학습, 탐색적 데이터 분석 등 다양한 종류의 워크로드를 실행하는데 최적화되어 있다. SQL Warehouses는 SQL Warehouse는 SQL 쿼리 실행과 BI 워크로드에 최적화된 컴퓨팅 리소스이다.데이터 분석가가 Tableau나 Power BI와 같은 BI도구를 연결하여 대시보드를 만들거나 대규모 데이터에 ..

  • Streaming 데이터는 종종 지연(late arrival)이 발생한다.예를 들어 네트워크 지연, 데이터 지연 수집 등. 이런 환경에서 Watermark는 얼마나 오래 기다릴지 설정해주는 기준이다.워터마크(Watermark)란?event_time 컬럼을 기준으로예: “10분 워터마크” 설정 → = `withWatermark("event_time", "10 minutes")`이 기준 안에 들어온 데이터만 확실히 처리하고,기준보다 늦게 온 데이터는 처리 보장하지 않음즉, +10분까지는 버리고 기다려주고, 이후엔 마감하고 간편하게 상태를 정리하는 개념이다. Window 기반 스트리밍과 Watermarkfrom pyspark.sql.functions import window(df .withWatermark(..

  • Copyright 2024. GRAVITY all rights reserved