databricks 의 workspace에서langchain을 공부하다가 환경 변수를 설정하는 부분에서'음. secrets를 활용해보면 어떨까'하여 공부하게 됨. databricks - secrets 참고 자료 : https://docs.databricks.com/aws/en/security/secrets/?language=Databricks%C2%A0CLI Secret management | Databricks on AWSLearn about using Databricks secrets to store credentials to authenticate to external data sources through JDBC.docs.databricks.com databricks-sdk 참고 자료 : http..
구조적 API는 비정형 로그 파일부터 반정형 CSV 파일, 매우 정형적인 파케이(Parquet) 파일까지 다양한 데이터를 처리할 수 있다.구조적 API는 3가지 분산 컬렉션 API가 있다.DatasetDataFrameSQL table, view배치(batch)와 스트리밍(streaming) 처리에서 구조적 API를 사용할 수 있다.구조적 API를 활용하면 배치 작업을 스트리밍 작업으로 손쉽게 변환할 수 있다.반대로 스트리밍에서 배치 작업으로도 손쉽게 변환이 가능하다. 구조적 API는 데이터 흐름을 정의하는 기본 추상화 개념이다.특정 데이터 타입이나 데이터소스를 활용하는 구체적인 사례를 알아보자.스파크는 트랜스포메이션의 처리 과정을 정의하는 분산 프로그래밍 모델이다.사용자가 정의한 다수의 트랜스포메이션은 ..
스파크는 기본요소인 저수준 API와 구조적 API 그리고 추가 기능을 제공하는 일련의 표준 라이브러리로 구성되어 있다.스파크의 라이브러리는 그래프 분석, 머신 러닝 그리고 스트리밍 등 다양한 작업을 지원하고,컴퓨팅 및 스토리지 시스템과의 통합을 돕는 역할을 한다. 1. 운영용 애플리케이션 실행spark-submit명령을 사용하여 대화형 셸에서 개발한 프로그램을 운영용 어플리케이션으로 쉽게 전환할 수 있다.위의 명령어는 애플리케이션 코드를 클러스터에 전송하여 실행시키는 역할을 한다.클러스터에 제출된 애플리케이션은 작업이 종료되거나 에러가 발생할 때 까지 실행한다.위의 명령어에 애플리케이션 실행에 필요한 자원과 실행 방식 그리고 다양한 옵션을 지정할 수 있다. spark-submit 명령어 중 master ..
1. Dataframe가장 대표적인 구조적 API이다.Dataframe은 테이블의 데이터를 로우와 컬럼으로 단순하게 표현한다.컬럼과 컬럼의 타입을 정의한 목록을 스키마(schema)라고 부른다.일반적인 테이블이나 엑셀과 같은 스프레드 시트와 같이 비슷하게 생각할 수 있다.하지만 이런 것들은 한 대의 컴퓨터에 있다고 하면, spark의 dataframe은 수천대의 컴퓨터에 분산되어있다.여러 컴퓨터에 데이터를 분산하는 이유는 간단하다.단일 컴퓨터에 저장하기에는 데이터가 너무 크거나 계산에 너무 오랜 시간이 걸릴 수 있기 때문이다.Dataframe은 스파크에서만 사용하는 개념이 아니다.파이썬과 R 에서도 모두 비슷한 개념을 가지고 있다.그러나 파이썬과 R 의 Dataframe은 일반적으로 분산 컴퓨터가 아닌 ..
Apache Spark통합 컴퓨팅 엔진이며 클러스터 환경에서 데이터를 병렬로 처리하는 라이브러리의 집합.스파크는 가장 활발하게 개발되고 있는병렬 처리 오픈소스 엔진이고,빅데이터에 관심있는 여러 개발자와 데이터 사이언티스트에게 표준 도구가 되어가고 있음. 스파크는 파이썬, 자바, 스칼라, R을 지원하고 SQL 뿐만아니라 스트리밍, 머신러닝까지 넓은 범위의 라이브러리를 제공한다. 스파크는 단일 노트북 환경에서 수천대의 서버로 구성된 클러스터까지 다양한 환경에서 실행할 수 있고일너 특성을 이용하여 빅데이터를 처리하고 큰 규모의 클러스터로 확장해 나갈 수 있다. 1. Spark의 목표와 역사스파크는 빅데이터 어플리케이션 개발에 필요한 통합 플랫폼을 제공하자는 핵심 목표를 가지고 있다. 스파크의 '통합'이라는 ..
1. WSL 이란 Linux용 Windows 하위 시스템으로 별도의 가상 머신이나 듀얼 부팅 없이 Windows에서 완전한 Linux 환경을 직접 실행할 수 있도록 해주는 Microsoft의 기능이다. 이를 통해 Windows 사용자가 Linux 명령줄 도구, 유틸리티 및 애플리케이션을 Windows에서 직접 사용할 수 있어 개발 생산성을 높이고 Windows와 Linux를 동시에 사용하는 데 용이하다.https://learn.microsoft.com/ko-kr/windows/wsl/install WSL 설치wsl --install 명령을 사용하여 Linux용 Windows 하위 시스템을 설치합니다. 선호하는 Linux 배포판인 Ubuntu, Debian, SUSE, Kali, Fedora, Pengw..