반정형 데이터 분석
반정형 데이터 분석1) 핵심 개념반정형 데이터: 완전한 테이블은 아니지만 일정한 규칙/구조가 있는 데이터(HTML, XML, JSON). 웹, LLM 학습데이터, 연구 데이터에 광범위히 활용.가치: 웹 전수(크롤링/스크래핑), 로그·문서·API 응답 등에서 정보 추출 → 정형화 → 분석·모델링.2) 웹 스크래핑 스택Selenium: 실제 브라우저 자동화(로그인, 버튼 클릭 등 동적 페이지 처리에 강함).lxml: HTML/XML 파싱 + XPath로 원하는 요소 정밀 추출(빠르고 가벼움).(보완) requests(정적 페이지), BeautifulSoup4(CSS Selector), playwright(Selenium 대안).윤리/법적 유의: 사이트 이용약관, robots.txt, 요청 간격(딜레이), P..
2025. 10. 11.