본문 바로가기

Python34

정형 데이터 분석 정형 데이터 분석1) 정형 데이터의 특성과 가치형태: 행(레코드) × 열(속성)의 명확한 구조(CSV, 스프레드시트, DB 테이블).장점: 집계·필터링·정렬부터 고급 통계까지 적용 용이, 해석성과 신뢰성이 높음.활용: 여러 출처 데이터를 통합해 객관적 의사결정 지원(고객 행동, 운영 효율, 시장 트렌드 인사이트).2) 사례: 서울시 공공자전거 ‘따릉이’역사/규모: 2010년 440대 → 2024년 약 4.5만 대, 대여소 약 2,700개, 누적 이용 1.9억 건.시스템: 앱 기반 대여/반납, 이용 정보가 자동 기록되어 분석 친화적.3) 데이터 수집(서울 열린데이터 광장)형식: CSV/JSON/XML 다운로드 또는 API 제공.분석 범위 예시: 2023-04-01~04-30 일별 데이터(대여시각, 대여/반.. 2025. 10. 11.
데이터 시각화 2 고급 시각화 기법 + 그래프 스타일링1) 고급 시각화 기법1.1 트리맵(Treemap) — 계층/구성 비율을 한 화면에언제: 제품군-상품, 부서-팀처럼 계층형 비중 비교.핵심: 사각형 면적이 값(매출/빈도)을 나타냄. 색으로 추가 차원 표현.# pip install squarify matplotlib pandasimport squarify, matplotlib.pyplot as plt, pandas as pddata = pd.DataFrame({ "group": ["A","A","A","B","B","C"], "label": ["A1","A2","A3","B1","B2","C1"], "value": [40, 25, 10, 30, 20, 15]})data["full_label"] = dat.. 2025. 10. 10.
데이터 시각화 1 데이터 시각화1) 데이터 시각화: 개념·필요성정의: 복잡한 데이터를 그래픽으로 표현해 구조·패턴·변동을 직관적으로 이해하도록 돕는 기술.왜 필요한가탐색(EDA): 이상치·추세·군집·상관을 빠르게 포착설득/커뮤니케이션: 핵심 메시지를 짧은 시간에 전달의사결정 지원: 지표, 비교, 변화 방향을 명확히 제시2) 게슈탈트 원리 → 시각화 설계 체크리스트“전체는 부분의 합보다 크다.” — 시각 인지 법칙을 차트 설계 규칙으로 번역근접성(Proximity): 관련 요소는 서로 가깝게→ 범례·주석은 해당 시리즈 가까이 배치, 불필요한 여백 줄이기.유사성(Similarity): 같은 범주의 요소는 같은 시각 속성→ 같은 그룹은 같은 마커/선형/채움 패턴 사용.폐쇄성(Closure): 불완전해도 완전한 형태로 인식→ 축.. 2025. 10. 10.
데이터 분석 2 통계·기계학습·딥러닝 방법론 비교학습개요데이터 분석의 결과는 어떤 방법론을 선택하고 어떻게 적용하느냐에 크게 좌우됩니다. 본 차시에서는 통계 기반 분석 → 기계학습 기반 분석 → 딥러닝 기반 분석의 세 축을 비교하며, 각 방법이 어떤 데이터·목적에 적합한지, 장단점과 적용 전략은 무엇인지 체계적으로 정리합니다. 이어서 기술통계/추론통계·상관/회귀/ANOVA, 분류·회귀·군집화, 신경망(이미지/텍스트/시계열) 사례를 통해 실무에서의 선택·설계·검증 흐름을 익힙니다.학습목표통계, 기계학습, 딥러닝 방법을 비교·대조할 수 있다.정형·비정형·시계열 등 데이터 유형별로 적합한 기법을 선택할 수 있다.시계열의 특성을 고려해 누수 방지·교차검증·특징공학을 포함한 분석을 수행할 수 있다.전체 지도(요약)통계(Stati.. 2025. 10. 10.
데이터 분석 1 데이터 분석의 이해·과정·EDA학습개요데이터 분석은 데이터에서 의미 있는 패턴과 통찰을 발견하여 합리적 의사결정을 지원하는 기술입니다. 이를 위해서는 “도구 사용”을 넘어 분석 절차(파이프라인)와 분석 방법론(규칙 기반→통계→기계학습→딥러닝)을 올바르게 이해해야 합니다. 본 차시에서는 데이터 분석의 정의와 필요성, 순환적 분석 과정을 정리하고, 탐색적 데이터 분석(EDA, Exploratory Data Analysis)의 역할과 자동화 도구 활용 관점을 실무 중심으로 다룹니다.약어 정리EDA: Exploratory Data Analysis(탐색적 데이터 분석)LLM: Large Language Model(대규모 언어 모델)CNN: Convolutional Neural Network(합성곱 신경망)RNN/.. 2025. 10. 10.
데이터 전처리 2 pandas로 데이터 정제 & 문제 해결학습개요데이터 분석의 신뢰도는 데이터의 품질과 구조에 크게 좌우됩니다. 결측치(값이 없음)나 이상치(일반 범위를 벗어남), 오류값(형식·범위·논리 위반) 등이 그대로 남아 있으면 모델 성능 저하와 왜곡된 인사이트로 이어집니다. 본 차시에서는 pandas를 중심으로 결측치·이상치·오류값을 탐지→시각화→처리하는 절차를 익히고, 제거·대치·보간 등 전략을 비교합니다. 또한 날짜(시계열) 데이터 표준화와 여러 출처 데이터 통합(merge) 실습까지 수행합니다.용어 확장NaN: Not a Number (숫자 아님; 결측치 표현)IQR: Interquartile Range (사분위 범위)Z-score: Standard Score (표준 점수)SQL: Structured Que.. 2025. 10. 10.
데이터 전처리 1 데이터 전처리 11) 학습개요전처리는 분석 전 단계에서 원시 데이터를 정확·일관 상태로 만들고, 측정(요약통계)으로 구조와 품질을 파악하는 과정입니다.핵심은 결측치·이상치·불일치를 다루고, 통합·축소·변환으로 분석 목적에 맞는 데이터셋을 만드는 것입니다.pandas의 describe()·info()·집계 함수로 기본 통계량을 산출하고 전처리 우선순위를 정합니다.2) 학습목표 매핑데이터 품질 요소: 정확성, 완전성, 일관성, 유효성, 적시성, 상호운용성.전처리 단계: 측정 → 정제(결측/이상치/불일치/중복) → 통합 → 축소 → 변환(반복·지속).pandas로 요약통계/분포 파악 및 정제 코드를 작성·검증.3) 전처리의 필요성과 정의GIGO(잘못 들어가면, 잘못 나온다): 입력 품질이 결과 품질을 결정.정.. 2025. 10. 10.
데이터 저장 1. 학습개요데이터 분석은 수집 → 정제/변환 → 저장 → 재사용의 순환입니다.저장 단계는 단순 보관이 아니라 분석 목적에 맞는 형식으로, 다양한 시스템에서 공유 가능하도록 만드는 관리 과정입니다.이번 차시는 파일 기반 저장(CSV/JSON/Excel) vs 데이터베이스(DB)의 특징과 선택 기준을 비교하고, pandas DataFrame을 생성·가공·저장하는 방법을 실습합니다.공공데이터포털(Open API)을 활용해 실제 수집→변환→저장 흐름을 체험합니다.2. 학습목표 매핑DataFrame으로 수집 데이터를 처리: 스키마(컬럼/타입) 정리, 결측/이상치 처리, 인덱싱.DataFrame을 다양한 형식으로 저장: to_csv, to_json, to_excel, to_sql 등.수집 과정 문제 인식·해결: .. 2025. 10. 7.
데이터 수집 데이터 수집1) 학습개요 요약데이터 분석의 출발점은 목적 적합성을 갖춘 데이터 확보입니다.단순 수집을 넘어, 정확성·완전성·일관성 등 품질 요건을 만족하도록 구조와 절차를 설계해야 합니다.정형/반정형/비정형 유형을 구분하고, 파일·API·웹 스크래핑 등 상황에 맞는 수집 전략을 선택합니다.2) 학습목표 매핑목표 1: 왜 수집이 필요한가 → 가치·의사결정·경쟁력, 수집 정의 및 품질의 중요성.목표 2: 데이터 유형 구분 → 정형/반정형/비정형의 구조·특성·한계.목표 3: 다양한 소스 수집 코드 → 파일(pandas), API(requests/GraphQL/WebSocket), 스크래핑(requests+BeautifulSoup/Selenium) 예시.3) 데이터 수집의 이해3.1 왜 필요한가의사결정 품질은 .. 2025. 10. 7.