본문 바로가기

Python/Data analysis15

시계열 데이터 분석 시계열 데이터 분석1) 시계열 데이터 기본 개념정의: 일정 간격으로 연속 수집된 데이터(시간 순서가 핵심).일반 데이터와 차이: 관측치 간 시간적 의존성(autocorrelation) 존재 → 일반 회귀/분류와 다른 전용 기법 필요.활용 분야: 날씨·전력 수요·경제지표·웹 트래픽·주가 예측 등.2) 시계열의 4대 구성요소추세(Trend): 장기 방향성(상승/하락).계절성(Seasonality): 일정 주기(일/주/월/연)의 반복 패턴.주기성(Cyclicality): 계절성보다 긴, 불규칙한 경제/비즈니스 사이클.불규칙성(Irregularity): 설명 어려운 무작위 변동(노이즈).3) 기술적 지표(주가 예시)이동평균(MA): 변동성 완화·추세 파악. (예: 50일, 200일)rolling(window=k.. 2025. 10. 11.
비정형 데이터 분석 비정형 데이터 분석 1) 비정형 데이터 이해정의: 고정 스키마가 없는 데이터(이미지·영상·음성·텍스트 등).특징: 전체 데이터의 다수를 차지(≈70%), 정보는 풍부하나 전통적 도구로 처리 어려움.가치: 소비자 취향, 시장 트렌드, 사회 변화 신호를 담아 의사결정·마케팅·제품 기획에 직접 활용 가능.2) RSS를 활용한 수집RSS(리치 사이트 서머리): 자주 갱신되는 콘텐츠를 XML 포맷으로 제공 → 구조화·자동화 수집에 유리.활용 포인트헤드라인/요약/첨부(이미지·오디오·비디오) 메타정보를 피드 구독으로 지속 수집.정형(피드 메타) + 비정형(본문·멀티미디어) 혼합 파이프라인에 적합.기본 파이프라인: requests로 RSS XML → lxml로 파싱 → 항목별(제목/링크/썸네일) 추출 → 저장/큐잉.3.. 2025. 10. 11.
반정형 데이터 분석 반정형 데이터 분석1) 핵심 개념반정형 데이터: 완전한 테이블은 아니지만 일정한 규칙/구조가 있는 데이터(HTML, XML, JSON). 웹, LLM 학습데이터, 연구 데이터에 광범위히 활용.가치: 웹 전수(크롤링/스크래핑), 로그·문서·API 응답 등에서 정보 추출 → 정형화 → 분석·모델링.2) 웹 스크래핑 스택Selenium: 실제 브라우저 자동화(로그인, 버튼 클릭 등 동적 페이지 처리에 강함).lxml: HTML/XML 파싱 + XPath로 원하는 요소 정밀 추출(빠르고 가벼움).(보완) requests(정적 페이지), BeautifulSoup4(CSS Selector), playwright(Selenium 대안).윤리/법적 유의: 사이트 이용약관, robots.txt, 요청 간격(딜레이), P.. 2025. 10. 11.
정형 데이터 분석 정형 데이터 분석1) 정형 데이터의 특성과 가치형태: 행(레코드) × 열(속성)의 명확한 구조(CSV, 스프레드시트, DB 테이블).장점: 집계·필터링·정렬부터 고급 통계까지 적용 용이, 해석성과 신뢰성이 높음.활용: 여러 출처 데이터를 통합해 객관적 의사결정 지원(고객 행동, 운영 효율, 시장 트렌드 인사이트).2) 사례: 서울시 공공자전거 ‘따릉이’역사/규모: 2010년 440대 → 2024년 약 4.5만 대, 대여소 약 2,700개, 누적 이용 1.9억 건.시스템: 앱 기반 대여/반납, 이용 정보가 자동 기록되어 분석 친화적.3) 데이터 수집(서울 열린데이터 광장)형식: CSV/JSON/XML 다운로드 또는 API 제공.분석 범위 예시: 2023-04-01~04-30 일별 데이터(대여시각, 대여/반.. 2025. 10. 11.
데이터 시각화 2 고급 시각화 기법 + 그래프 스타일링1) 고급 시각화 기법1.1 트리맵(Treemap) — 계층/구성 비율을 한 화면에언제: 제품군-상품, 부서-팀처럼 계층형 비중 비교.핵심: 사각형 면적이 값(매출/빈도)을 나타냄. 색으로 추가 차원 표현.# pip install squarify matplotlib pandasimport squarify, matplotlib.pyplot as plt, pandas as pddata = pd.DataFrame({ "group": ["A","A","A","B","B","C"], "label": ["A1","A2","A3","B1","B2","C1"], "value": [40, 25, 10, 30, 20, 15]})data["full_label"] = dat.. 2025. 10. 10.
데이터 시각화 1 데이터 시각화1) 데이터 시각화: 개념·필요성정의: 복잡한 데이터를 그래픽으로 표현해 구조·패턴·변동을 직관적으로 이해하도록 돕는 기술.왜 필요한가탐색(EDA): 이상치·추세·군집·상관을 빠르게 포착설득/커뮤니케이션: 핵심 메시지를 짧은 시간에 전달의사결정 지원: 지표, 비교, 변화 방향을 명확히 제시2) 게슈탈트 원리 → 시각화 설계 체크리스트“전체는 부분의 합보다 크다.” — 시각 인지 법칙을 차트 설계 규칙으로 번역근접성(Proximity): 관련 요소는 서로 가깝게→ 범례·주석은 해당 시리즈 가까이 배치, 불필요한 여백 줄이기.유사성(Similarity): 같은 범주의 요소는 같은 시각 속성→ 같은 그룹은 같은 마커/선형/채움 패턴 사용.폐쇄성(Closure): 불완전해도 완전한 형태로 인식→ 축.. 2025. 10. 10.
데이터 분석 2 통계·기계학습·딥러닝 방법론 비교학습개요데이터 분석의 결과는 어떤 방법론을 선택하고 어떻게 적용하느냐에 크게 좌우됩니다. 본 차시에서는 통계 기반 분석 → 기계학습 기반 분석 → 딥러닝 기반 분석의 세 축을 비교하며, 각 방법이 어떤 데이터·목적에 적합한지, 장단점과 적용 전략은 무엇인지 체계적으로 정리합니다. 이어서 기술통계/추론통계·상관/회귀/ANOVA, 분류·회귀·군집화, 신경망(이미지/텍스트/시계열) 사례를 통해 실무에서의 선택·설계·검증 흐름을 익힙니다.학습목표통계, 기계학습, 딥러닝 방법을 비교·대조할 수 있다.정형·비정형·시계열 등 데이터 유형별로 적합한 기법을 선택할 수 있다.시계열의 특성을 고려해 누수 방지·교차검증·특징공학을 포함한 분석을 수행할 수 있다.전체 지도(요약)통계(Stati.. 2025. 10. 10.
데이터 분석 1 데이터 분석의 이해·과정·EDA학습개요데이터 분석은 데이터에서 의미 있는 패턴과 통찰을 발견하여 합리적 의사결정을 지원하는 기술입니다. 이를 위해서는 “도구 사용”을 넘어 분석 절차(파이프라인)와 분석 방법론(규칙 기반→통계→기계학습→딥러닝)을 올바르게 이해해야 합니다. 본 차시에서는 데이터 분석의 정의와 필요성, 순환적 분석 과정을 정리하고, 탐색적 데이터 분석(EDA, Exploratory Data Analysis)의 역할과 자동화 도구 활용 관점을 실무 중심으로 다룹니다.약어 정리EDA: Exploratory Data Analysis(탐색적 데이터 분석)LLM: Large Language Model(대규모 언어 모델)CNN: Convolutional Neural Network(합성곱 신경망)RNN/.. 2025. 10. 10.
데이터 전처리 2 pandas로 데이터 정제 & 문제 해결학습개요데이터 분석의 신뢰도는 데이터의 품질과 구조에 크게 좌우됩니다. 결측치(값이 없음)나 이상치(일반 범위를 벗어남), 오류값(형식·범위·논리 위반) 등이 그대로 남아 있으면 모델 성능 저하와 왜곡된 인사이트로 이어집니다. 본 차시에서는 pandas를 중심으로 결측치·이상치·오류값을 탐지→시각화→처리하는 절차를 익히고, 제거·대치·보간 등 전략을 비교합니다. 또한 날짜(시계열) 데이터 표준화와 여러 출처 데이터 통합(merge) 실습까지 수행합니다.용어 확장NaN: Not a Number (숫자 아님; 결측치 표현)IQR: Interquartile Range (사분위 범위)Z-score: Standard Score (표준 점수)SQL: Structured Que.. 2025. 10. 10.