본문 바로가기

Python34

SVM과 커널법 선형 분류기 (Linear Classifier)개요정의입력 벡터 ( x )를 선형 결정함수로 분류하는 모델.f(x) = wᵀx + w₀분류 기준( f(x) > 0 ) → 클래스 +1( f(x) 특징학습 시스템의 복잡도가 낮음과적합(Overfitting) 문제를 피하기 쉬움하지만 비선형 경계가 필요한 문제에서는 성능 한계 존재서포트 벡터 머신 (SVM, Support Vector Machine)개요SVM은 일반화 오차(Generalization Error) 를 최소화하기 위해마진(Margin) 을 최대화하는 방향으로 학습되는 선형 분류기이다.주요 개념1) 결정경계 (Decision Boundary)분류를 위한 선형 함수의 형태:wᵀx + w₀ = 02) 마진 (Margin)결정경계에서 가장 가까운 데이터(.. 2025. 10. 21.
비지도학습: 군집화 군집화(Clustering)의 개념정의데이터 집합의 내재된 분포 특성을 분석하여,서로 교차하지 않는 복수 개의 부분집합(군집) 으로 나누는 문제.특징비지도학습(Unsupervised Learning)→ 바람직한 출력값(정답 레이블)에 대한 정보가 없음.응용 분야영상 데이터 그룹핑영상 분할(Image Segmentation)문서 분류, 이상치 탐지 등대표 방법K-평균 군집화 (K-Means Clustering)계층적 군집화 (Hierarchical Clustering)가우시안 혼합 모델 (Gaussian Mixture Model, GMM)1. K-평균 군집화 (K-Means Clustering)목적주어진 데이터 집합을 ( K )개의 그룹으로 묶어클러스터 내부의 데이터 간 거리를 최소화하는 방향으로 분할.알.. 2025. 10. 21.
데이터표현: 특징추출 특징추출 (Feature Extraction)1. 개요정의( n )-차원의 입력 벡터에 대해 변환 함수를 적용하여( m )-차원의 특징 벡터를 얻는 변환.Y = WᵀX즉, 데이터 집합 ( X )를 변환행렬 ( W ) 에 의해 정해지는 방향으로 사영(projection)함으로써저차원 특징값 ( Y )를 얻는다.변환행렬 ( W )를 적절히 조정함으로써, 분석 목적에 맞는 특징을 추출하는 것이 핵심.대표적 선형변환 기반 특징추출 방법주성분분석(PCA: Principal Component Analysis)선형판별분석(LDA: Linear Discriminant Analysis)2. 주성분분석(PCA)목적변환 전의 데이터가 가진 정보를 차원 축소 후에도 최대한 유지하는 것.핵심 아이디어데이터 손실량을 최소로 하는.. 2025. 10. 21.
지도학습:회귀 머신러닝의 회귀 (Regression)1) 회귀의 개념회귀(Regression)란입력 변수 x와 출력 변수 y 사이의 관계를 표현하는 함수를 찾는 문제.분류 문제와 달리 출력값이 연속적인 실수로 주어진다.학습 목표예측값과 실제값의 차이를 최소화하는 최적의 회귀 함수 f(x)를 찾는 것.즉,이 식은 “제곱 오차(Squared Error)”를 최소화하는 최소제곱법(Least Squares Method)의 기본 형태다.최소화: Σ (y_i - f(x_i))²대표 응용 분야시계열 예측 (ex. 주가 예측, 기온 예측)수요 예측, 매출 추정 등2) 선형회귀 (Linear Regression)(1) 기본 개념선형회귀 모델여기서w1: 기울기 (slope)w0: 절편 (intercept)e: 오차 또는 잔차(resid.. 2025. 10. 21.
지도학습:분류 머신러닝의 분류 (Classification)1) 분류의 개념분류(Classification)란입력 데이터(특징 벡터 x)를 미리 정의된 여러 클래스 중 하나로 구분하는 문제를 말한다.이 과정에서 정답 레이블(y)이 주어지므로 지도학습(Supervised Learning)에 속한다.입출력 관계입력: x (특징 벡터) 출력: y ∈ {C1, C2, …, CM} (M개의 클래스 중 하나)분류기의 종류베이즈 분류기 (Bayes Classifier)K–최근접이웃 분류기 (K-Nearest Neighbors, K–NN)로지스틱 회귀 (Logistic Regression)결정 트리 (Decision Tree)랜덤 포레스트 (Random Forest)서포트 벡터 머신 (SVM)인공신경망 (Neural Network).. 2025. 10. 21.
머신러닝 소개 머신러닝 소개1) 핵심 개념인공지능(AI)사람이 하는 지적 작업(이해, 추론, 계획, 학습 등)을 기계가 수행하도록 만드는 큰 우산 개념입니다. 규칙으로만 만든 프로그램도 포함되고, 데이터로부터 스스로 규칙을 찾는 방법(머신러닝)도 포함됩니다.머신러닝(ML)“규칙을 사람이 다 쓰지 말고, 데이터로부터 규칙을 찾자”는 접근입니다. 학습의 결과물은 수식 형태의 모형 f(x; θ)(파라미터 θ를 가짐)입니다. 목표는 일반화—새 데이터에서도 잘 맞게 하는 것입니다.딥러닝(DL)머신러닝 중에서도 심층(여러 층) 신경망으로 f를 표현합니다. 자동으로 특징을 학습하는 능력이 강해, 이미지·음성·자연어 등 고차원 데이터에서 큰 성과를 냅니다.왜 중요한가?규칙을 사람이 다 쓰기 어려운 문제(자연어, 영상 인식 등)에서,.. 2025. 10. 13.
시계열 데이터 분석 시계열 데이터 분석1) 시계열 데이터 기본 개념정의: 일정 간격으로 연속 수집된 데이터(시간 순서가 핵심).일반 데이터와 차이: 관측치 간 시간적 의존성(autocorrelation) 존재 → 일반 회귀/분류와 다른 전용 기법 필요.활용 분야: 날씨·전력 수요·경제지표·웹 트래픽·주가 예측 등.2) 시계열의 4대 구성요소추세(Trend): 장기 방향성(상승/하락).계절성(Seasonality): 일정 주기(일/주/월/연)의 반복 패턴.주기성(Cyclicality): 계절성보다 긴, 불규칙한 경제/비즈니스 사이클.불규칙성(Irregularity): 설명 어려운 무작위 변동(노이즈).3) 기술적 지표(주가 예시)이동평균(MA): 변동성 완화·추세 파악. (예: 50일, 200일)rolling(window=k.. 2025. 10. 11.
비정형 데이터 분석 비정형 데이터 분석 1) 비정형 데이터 이해정의: 고정 스키마가 없는 데이터(이미지·영상·음성·텍스트 등).특징: 전체 데이터의 다수를 차지(≈70%), 정보는 풍부하나 전통적 도구로 처리 어려움.가치: 소비자 취향, 시장 트렌드, 사회 변화 신호를 담아 의사결정·마케팅·제품 기획에 직접 활용 가능.2) RSS를 활용한 수집RSS(리치 사이트 서머리): 자주 갱신되는 콘텐츠를 XML 포맷으로 제공 → 구조화·자동화 수집에 유리.활용 포인트헤드라인/요약/첨부(이미지·오디오·비디오) 메타정보를 피드 구독으로 지속 수집.정형(피드 메타) + 비정형(본문·멀티미디어) 혼합 파이프라인에 적합.기본 파이프라인: requests로 RSS XML → lxml로 파싱 → 항목별(제목/링크/썸네일) 추출 → 저장/큐잉.3.. 2025. 10. 11.
반정형 데이터 분석 반정형 데이터 분석1) 핵심 개념반정형 데이터: 완전한 테이블은 아니지만 일정한 규칙/구조가 있는 데이터(HTML, XML, JSON). 웹, LLM 학습데이터, 연구 데이터에 광범위히 활용.가치: 웹 전수(크롤링/스크래핑), 로그·문서·API 응답 등에서 정보 추출 → 정형화 → 분석·모델링.2) 웹 스크래핑 스택Selenium: 실제 브라우저 자동화(로그인, 버튼 클릭 등 동적 페이지 처리에 강함).lxml: HTML/XML 파싱 + XPath로 원하는 요소 정밀 추출(빠르고 가벼움).(보완) requests(정적 페이지), BeautifulSoup4(CSS Selector), playwright(Selenium 대안).윤리/법적 유의: 사이트 이용약관, robots.txt, 요청 간격(딜레이), P.. 2025. 10. 11.