databricks 의 workspace에서langchain을 공부하다가 환경 변수를 설정하는 부분에서'음. secrets를 활용해보면 어떨까'하여 공부하게 됨. databricks - secrets 참고 자료 : https://docs.databricks.com/aws/en/security/secrets/?language=Databricks%C2%A0CLI Secret management | Databricks on AWSLearn about using Databricks secrets to store credentials to authenticate to external data sources through JDBC.docs.databricks.com databricks-sdk 참고 자료 : http..
참고 자료 : https://learn.microsoft.com/ko-kr/azure/databricks/dev-tools/sdk-python Python용 Databricks SDK - Azure DatabricksPython용 Databricks SDK를 사용하여 Python을 사용하여 Databricks 작업을 자동화하는 방법을 알아봅니다.learn.microsoft.com로컬 개발 컴퓨터에서 Python용 Databricks SDK를 시작하는 방법을 설명한다.참고 자료 : https://github.com/databricks/databricks-sdk-py GitHub - databricks/databricks-sdk-py: Databricks SDK for Python (Beta)Databric..
관련 문서 : https://docs.databricks.com/aws/en/dev-tools/cli/ What is the Databricks CLI? | Databricks on AWSLearn about the Databricks CLI, a command-line interface utility that enables you to work with Databricks.docs.databricks.com 1. 환경 구축wsl 환경에서의 실습을 진행한다.sudo apt updatehttps://docs.databricks.com/aws/en/dev-tools/cli/install#curl-install Install or update the Databricks CLI | Databricks on AW..
1. 볼륨 위치 찾기https://learn.microsoft.com/ko-kr/azure/databricks/volumes/ Unity 카탈로그 볼륨이란 무엇인가요? - Azure DatabricksUnity 카탈로그 볼륨은 클라우드 개체 스토리지에서 테이블 형식이 아닌 데이터에 대한 액세스를 관리합니다.learn.microsoft.com 위의 문서와 같이 볼륨의 주소가 이루어진다는 것을 알 수 있는데, 해당하는 볼륨 주소를 쉽게 복사할 수 있다.볼륨의 이름을 선택하면 모달창이 뜨면서, 해당 내용과 Copy, Download 가 가능하다.복사하면 아래와 같은 형태의 주소값을 쉽게 볼 수 있다./Volumes///// 2. Workspace에서 데이터 읽기 https://www.databricks...
1. Compute 와 SQL Warehouse데이터 브릭스에서 작업에 필요로하는 컴퓨팅 리소스를 총칭하는 용어로 Compute라고 할 수 있다.Compute는 일반적으로 데이터 사이언티스트, 데이터 엔지니어가 사용하는 범용 클러스러를 생성하고 관리한다.여기에서 생성하는 클러스터는 노트북 환경에서 Python, Scala, R, SQL 등 다양한 언어를 사용하여복잡한 ETL 작업, 머신러닝 모델 학습, 탐색적 데이터 분석 등 다양한 종류의 워크로드를 실행하는데 최적화되어 있다. SQL Warehouses는 SQL Warehouse는 SQL 쿼리 실행과 BI 워크로드에 최적화된 컴퓨팅 리소스이다.데이터 분석가가 Tableau나 Power BI와 같은 BI도구를 연결하여 대시보드를 만들거나 대규모 데이터에 ..
Streaming 데이터는 종종 지연(late arrival)이 발생한다.예를 들어 네트워크 지연, 데이터 지연 수집 등. 이런 환경에서 Watermark는 얼마나 오래 기다릴지 설정해주는 기준이다.워터마크(Watermark)란?event_time 컬럼을 기준으로예: “10분 워터마크” 설정 → = `withWatermark("event_time", "10 minutes")`이 기준 안에 들어온 데이터만 확실히 처리하고,기준보다 늦게 온 데이터는 처리 보장하지 않음즉, +10분까지는 버리고 기다려주고, 이후엔 마감하고 간편하게 상태를 정리하는 개념이다. Window 기반 스트리밍과 Watermarkfrom pyspark.sql.functions import window(df .withWatermark(..