본문 바로가기

Python/Data analysis15

데이터 전처리 1 데이터 전처리 11) 학습개요전처리는 분석 전 단계에서 원시 데이터를 정확·일관 상태로 만들고, 측정(요약통계)으로 구조와 품질을 파악하는 과정입니다.핵심은 결측치·이상치·불일치를 다루고, 통합·축소·변환으로 분석 목적에 맞는 데이터셋을 만드는 것입니다.pandas의 describe()·info()·집계 함수로 기본 통계량을 산출하고 전처리 우선순위를 정합니다.2) 학습목표 매핑데이터 품질 요소: 정확성, 완전성, 일관성, 유효성, 적시성, 상호운용성.전처리 단계: 측정 → 정제(결측/이상치/불일치/중복) → 통합 → 축소 → 변환(반복·지속).pandas로 요약통계/분포 파악 및 정제 코드를 작성·검증.3) 전처리의 필요성과 정의GIGO(잘못 들어가면, 잘못 나온다): 입력 품질이 결과 품질을 결정.정.. 2025. 10. 10.
데이터 저장 1. 학습개요데이터 분석은 수집 → 정제/변환 → 저장 → 재사용의 순환입니다.저장 단계는 단순 보관이 아니라 분석 목적에 맞는 형식으로, 다양한 시스템에서 공유 가능하도록 만드는 관리 과정입니다.이번 차시는 파일 기반 저장(CSV/JSON/Excel) vs 데이터베이스(DB)의 특징과 선택 기준을 비교하고, pandas DataFrame을 생성·가공·저장하는 방법을 실습합니다.공공데이터포털(Open API)을 활용해 실제 수집→변환→저장 흐름을 체험합니다.2. 학습목표 매핑DataFrame으로 수집 데이터를 처리: 스키마(컬럼/타입) 정리, 결측/이상치 처리, 인덱싱.DataFrame을 다양한 형식으로 저장: to_csv, to_json, to_excel, to_sql 등.수집 과정 문제 인식·해결: .. 2025. 10. 7.
데이터 수집 데이터 수집1) 학습개요 요약데이터 분석의 출발점은 목적 적합성을 갖춘 데이터 확보입니다.단순 수집을 넘어, 정확성·완전성·일관성 등 품질 요건을 만족하도록 구조와 절차를 설계해야 합니다.정형/반정형/비정형 유형을 구분하고, 파일·API·웹 스크래핑 등 상황에 맞는 수집 전략을 선택합니다.2) 학습목표 매핑목표 1: 왜 수집이 필요한가 → 가치·의사결정·경쟁력, 수집 정의 및 품질의 중요성.목표 2: 데이터 유형 구분 → 정형/반정형/비정형의 구조·특성·한계.목표 3: 다양한 소스 수집 코드 → 파일(pandas), API(requests/GraphQL/WebSocket), 스크래핑(requests+BeautifulSoup/Selenium) 예시.3) 데이터 수집의 이해3.1 왜 필요한가의사결정 품질은 .. 2025. 10. 7.
언패킹, 예외처리, 함수형 프로그래밍 데이터 분석을 위한 파이썬 21) 파이썬 문법 요소A. 언패킹(Unpacking)1) 기본 언패킹# roles:# rgb: list[int] - [R,G,B]rgb = [255, 128, 0]red, green, blue = rgb # 좌변 변수 수 == 우변 요소 수print(red, green, blue) # 255 128 0좌변 변수 개수와 우변 요소 개수가 다르면 ValueError: too many/few values to unpack.2) 확장 언패킹(Starred expressions)# 월 판매액에서 첫 달, 마지막 달, 중간 달을 분리monthly = [1200, 1350, 1420, 1500, 1300, 1580, 1620, 1700, 1800, 1850, 1900, 2000]fi.. 2025. 10. 3.
시퀀스 슬라이싱과 컴프리헨션, 문자열 형식 지정, 컨텍스트 관리 데이터 분석을 위한 파이썬 11) 시퀀스 슬라이싱(Slicing)핵심 개념슬라이싱: 시퀀스(리스트/튜플/문자열 등)에서 부분 시퀀스를 seq[start:stop:step]으로 선택/복사/수정.경계 규칙: start 포함, stop 미포함, step 기본 1, 음수 가능(역순).주요 패턴numbers = [10, 20, 30, 40, 50, 60, 70]# 1) 기본 범위 선택subset1 = numbers[0:3] # [10, 20, 30]subset2 = numbers[:3] # 시작 생략 → 0부터subset3 = numbers[-3:] # 끝에서 3개 [50, 60, 70]# 2) 간격/역순evens = numbers[::2] .. 2025. 10. 3.
데이터 분석과 오픈소스 오픈소스 기반 데이터분석1) 데이터 분석의 정의와 중요성핵심 정의데이터 분석: 데이터를 정리·처리·변환하여 유의미한 정보(인사이트) 를 도출하고 의사결정에 활용하는 일련의 과정.왜 중요한가인사이트·가치 창출: 숨은 패턴/원인 파악 → 신규 기회 발굴.프로세스 개선: 비효율 제거, 비용·시간 절감.사회 문제 해결: 공공 보건, 교통, 치안 등 정책 의사결정 지원.데이터 기반 의사결정: 직관·경험 의존에서 근거 기반으로 전환.실무 예시PHM(예지보전): 계측 → 모니터링(이상탐지) → 진단(원인/영향) → 예측(고장 가능성) → 개선(정비 전략).도메인별: 개인화 마케팅, 대출 자동화, 스포츠 머니볼, 스마트 팩토리, 의료 맞춤 치료, 교통 신호 최적화 등.2) 데이터 분석 과정(주요 단계·목적·방법)전체 .. 2025. 10. 3.