1. __dict__란?Python의 모든 객체는 내부적으로 자신만의 __dict__ 딕셔너리를 가지고 있다.여기에는 해당 객체가 가진 모든 인스턴스 변수가 key-value 형태로 저장된다.class Example: def __init__(self, val): self.value = valobj = Example(10)print(obj.__dict__) # {'value': 10} 2. hasattr() 함수란?hasattr(object, name)는 특정 객체에 지정한 이름의 속성(변수나 메서드)이 존재하는지를 True / False로 알려주는 내장 함수이다.문법hasattr(객체, '속성명')예제class Test: def __init__(self): self...
Streaming 데이터는 종종 지연(late arrival)이 발생한다.예를 들어 네트워크 지연, 데이터 지연 수집 등. 이런 환경에서 Watermark는 얼마나 오래 기다릴지 설정해주는 기준이다.워터마크(Watermark)란?event_time 컬럼을 기준으로예: “10분 워터마크” 설정 → = `withWatermark("event_time", "10 minutes")`이 기준 안에 들어온 데이터만 확실히 처리하고,기준보다 늦게 온 데이터는 처리 보장하지 않음즉, +10분까지는 버리고 기다려주고, 이후엔 마감하고 간편하게 상태를 정리하는 개념이다. Window 기반 스트리밍과 Watermarkfrom pyspark.sql.functions import window(df .withWatermark(..

https://www.credly.com/badges/03dae472-9eee-40f1-aaf3-2f8ecf87e966/public_url [PCAP-31-03] PCAP™ – Certified Associate Python Programmer was issued by Python Institute to Hyemi Jeong.Earners of the PCAP – Certified Associate Python Programmer badge demonstrate the ability to accomplish coding tasks related to the basics of programming in the Python language and the fundamental notions and techni..

https://credentials.databricks.com/e6cf5bfa-6067-4062-9f70-88423521e10f#acc.0rd7HZbB Databricks Certified Data Engineer Associate • HyeMi Jeong • Databricks BadgesAll your data, analytics and AI on one Lakehouse platformcredentials.databricks.com

https://www.credly.com/badges/1c948b20-78f4-4c98-9d8b-d955f518917d/public_url

Spark 작업 최적화를 위해 Spark UI의 Summary Metrics는 매우 유용한 정보를 제공한다.특히 Task 별 Input Size, Shuffle, Duration을 보면 데이터 분포 불균형이나 병목 현상을 쉽게 파악할 수 있다.항목별 개념 요약항목의미Duration각 Task가 실행된 시간 (높으면 병목 가능)GC TimeGarbage Collection 시간 (높으면 메모리 이슈 가능)Input Size / RecordsTask가 처리한 입력 데이터 크기와 레코드 수최소값, 25백분위수, 중앙값, 75백분위수 및 최대값이 거의 동일해야 하며 128MB와 256MB 사이 어딘가에 있어야 한다.e.g. 어떤 경우에는 입력 크기가 1GB에서 시작할 수 있는데, 이는 코어를 과도하게 활용하고 ..