반정형 데이터 분석
반정형 데이터 분석1) 핵심 개념반정형 데이터: 완전한 테이블은 아니지만 일정한 규칙/구조가 있는 데이터(HTML, XML, JSON). 웹, LLM 학습데이터, 연구 데이터에 광범위히 활용.가치: 웹 전수(크롤링/스크래핑), 로그·문서·API 응답 등에서 정보 추출 → 정형화 → 분석·모델링.2) 웹 스크래핑 스택Selenium: 실제 브라우저 자동화(로그인, 버튼 클릭 등 동적 페이지 처리에 강함).lxml: HTML/XML 파싱 + XPath로 원하는 요소 정밀 추출(빠르고 가벼움).(보완) requests(정적 페이지), BeautifulSoup4(CSS Selector), playwright(Selenium 대안).윤리/법적 유의: 사이트 이용약관, robots.txt, 요청 간격(딜레이), P..
2025. 10. 11.
정형 데이터 분석
정형 데이터 분석1) 정형 데이터의 특성과 가치형태: 행(레코드) × 열(속성)의 명확한 구조(CSV, 스프레드시트, DB 테이블).장점: 집계·필터링·정렬부터 고급 통계까지 적용 용이, 해석성과 신뢰성이 높음.활용: 여러 출처 데이터를 통합해 객관적 의사결정 지원(고객 행동, 운영 효율, 시장 트렌드 인사이트).2) 사례: 서울시 공공자전거 ‘따릉이’역사/규모: 2010년 440대 → 2024년 약 4.5만 대, 대여소 약 2,700개, 누적 이용 1.9억 건.시스템: 앱 기반 대여/반납, 이용 정보가 자동 기록되어 분석 친화적.3) 데이터 수집(서울 열린데이터 광장)형식: CSV/JSON/XML 다운로드 또는 API 제공.분석 범위 예시: 2023-04-01~04-30 일별 데이터(대여시각, 대여/반..
2025. 10. 11.
데이터 시각화 2
고급 시각화 기법 + 그래프 스타일링1) 고급 시각화 기법1.1 트리맵(Treemap) — 계층/구성 비율을 한 화면에언제: 제품군-상품, 부서-팀처럼 계층형 비중 비교.핵심: 사각형 면적이 값(매출/빈도)을 나타냄. 색으로 추가 차원 표현.# pip install squarify matplotlib pandasimport squarify, matplotlib.pyplot as plt, pandas as pddata = pd.DataFrame({ "group": ["A","A","A","B","B","C"], "label": ["A1","A2","A3","B1","B2","C1"], "value": [40, 25, 10, 30, 20, 15]})data["full_label"] = dat..
2025. 10. 10.