AI 29

135. [Python] [Machine Learning] : K-평균 군집화(K-Means Clustering)

🎯 1. K-Means Clustering이란?K-Means Clustering은 **비지도 학습(Unsupervised Learning)**의 대표적인 알고리즘 중 하나로, 데이터를 K개의 그룹(클러스터)으로 묶는 군집화(Clustering) 기법입니다.데이터를 유사한 특징을 가진 그룹으로 분류하는 알고리즘사전에 데이터의 레이블(정답)이 주어지지 않아, 데이터 자체의 구조를 분석하는 데 활용됨고객 세분화, 이미지 압축, 이상 탐지 등 다양한 분야에서 활용됨   🎯 2. K-Means Clustering의 작동 원리K-Means 알고리즘은 다음의 단계를 거쳐 수행됩니다.K개의 중심점(Centroid)을 임의로 선택각 데이터 포인트를 가장 가까운 중심점에 할당각 클러스터의 중심점을 해당 클러스터 내 모..

AI/이론 2025.01.31

134. [Python] [Machine Learning] : 의사결정나무(Decision Tree)

🎯 1. Decision Tree란?*Decision Tree(의사결정 나무)**는 데이터의 특성을 기반으로 분류(Classification) 또는 회귀(Regression) 문제를 해결하는 지도 학습(Supervised Learning) 알고리즘입니다.데이터의 속성을 기준으로 질문을 던지고, 답변에 따라 데이터를 분류하는 방식으로 작동합니다.사람이 의사 결정을 내리는 방식과 유사하기 때문에 직관적이고 이해하기 쉬운 모델입니다. 🎯 2. Decision Tree의 구조Root Node (루트 노드) : 트리의 시작점 (전체 데이터)Internal Node (내부 노드) : 데이터를 분기하는 기준Leaf Node (리프 노드) : 최종 분류된 결과✅ 예제 (트리 구조 예시)아래 예시는 날씨 정보를 기반..

AI/이론 2025.01.31

133. [Python] [Machine Learning] : Support Vector Machine

🎯 1. 서포트 벡터 머신(SVM)이란?*SVM(Support Vector Machine)**은 지도 학습(Supervised Learning) 알고리즘 중 하나로, 분류(Classification)와 회귀(Regression) 문제를 해결하는 데 사용됩니다.분류 문제(Classification): 주어진 데이터를 두 개 이상의 그룹으로 나누는 문제회귀 문제(Regression): 연속적인 값을 예측하는 문제SVM의 핵심 개념은 **결정 경계(Decision Boundary)**를 찾아 데이터를 가장 잘 구분하는 초평면(Hyperplane)을 설정하는 것입니다.   🎯 2. 최적의 결정 경계(Decision Boundary)결정 경계란?데이터 포인트를 두 개의 그룹으로 나누는 선(또는 다차원 공간에서..

AI/이론 2025.01.31

132.[Python] [Machine Learning] : 선형 회귀(Linear Regression)와 비선형 회귀(Non-Linear Regression)

머신러닝에서 **회귀(Regression)**란 연속적인 값을 예측하는 알고리즘을 의미합니다. 특히, 회귀는 데이터 간의 관계를 찾고 미래 값을 예측하는 데 사용됩니다. 회귀는 크게 **선형 회귀(Linear Regression)**와 **비선형 회귀(Non-Linear Regression)**로 나뉩니다. 🎯 1. 선형 회귀(Linear Regression)란?선형 회귀는 X(독립 변수)와 Y(종속 변수) 사이의 관계가 직선 형태로 나타나는 회귀 분석 방법입니다. 즉, 데이터가 직선 형태로 정렬될 때, 선형 회귀를 사용하여 적절한 직선을 찾을 수 있습니다.🔹 선형 회귀의 수학적 표현선형 회귀의 기본 수식은 다음과 같습니다.Y=aX+bY = aX + bY=aX+bYYY : 예측값 (종속 변수)XXX ..

AI/이론 2025.01.31

131. [Python] [Machine Learning] : 성능 평가 방법과 종류

1.  성능 평가란?성능평가는 머신러닝 모델의 예측 능력을 측정하는 과정입니다. 주요 목적은 과적합을 방지하고 최적의 모델을 찾는 것입니다. 성능평가 방법은 모델의 유형에 따라 다르며, 주로 회귀 모델과 분류 모델에 대한 평가 지표가 있습니다. 2. 성능 평가의 중요성머신러닝 모델을 구축한 후, 모델이 얼마나 잘 작동하는지를 평가하는 것이 중요합니다. 성능 평가를 통해 모델의 정확성, 신뢰성, 일반화 능력을 분석할 수 있습니다.모델이 과적합(overfitting) 되었는지 확인새로운 데이터에서도 잘 예측하는지 평가다른 모델들과 비교하여 최적의 모델을 선택  3. 성능 평가 지표 종류머신러닝 모델의 평가 지표는 크게 **회귀 문제(Regression)**와 **분류 문제(Classification)**로 ..

AI/이론 2025.01.31

129. [Python] [Machine Learning] : K-NN 알고리즘

1. K-NN 알고리즘이란?1) 기본 개념K-NN은 주변의 K개 이웃 데이터를 기준으로 새로운 데이터의 클래스 또는 값을 예측하는 비모수(non-parametric) 알고리즘입니다.데이터를 학습하지 않고 저장 후, 예측 시 거리 계산을 통해 이웃을 찾습니다.2) 주요 특징간단한 구현: 수식보다 데이터 비교를 중심으로 작동.거리 기반 계산: 유클리드 거리(Euclidean Distance) 등이 일반적으로 사용됨.3) 예시새로운 학생이 좋아할 스포츠를 예측한다고 가정.이미 알고 있는 학생들의 성별과 나이를 기준으로, 가장 가까운 5명의 학생(K=5)을 확인하여 결과를 결정.    2. K-NN의 작동 원리1) 주요 단계데이터 저장: 모든 학습 데이터를 메모리에 저장.거리 계산: 새로운 데이터 포인트와 기존..

AI/이론 2025.01.28

128. [Python] [Machine Learning] : Logistic Regression(분류)

로지스틱 회귀(Logistic Regression)는 머신러닝에서 분류(Classification) 문제를 해결하기 위한 기본적인 알고리즘입니다.  1. 로지스틱 회귀(Logistic Regression)란?로지스틱 회귀는 데이터를 0과 1로 분류하는 이진 분류(Binary Classification) 알고리즘입니다. 선형 회귀와 유사하지만, 예측 값이 확률(0~1 사이 값)을 출력하도록 설계되었습니다. 1-1. 주요 특징입력 데이터에 선형 함수(가중치와 편향)를 적용.출력 값은 시그모이드 함수(Sigmoid Function)를 통해 확률로 변환.예: 이메일이 스팸인지 아닌지(1/0), 종양이 악성인지 양성인지(1/0).1-2. 시그모이드 함수σ(z)=1/(1+e(−z))σ(z) = 1 / (1 + e^..

AI/이론 2025.01.28

127. [Python] [Multiple Linear Regression] : 병원 진료비 예측 (Regression)

문제: 병원 진료비 예측 (Regression)데이터 설명 시나리오병원의 진료 데이터를 분석하여 환자의 기본 정보를 기반으로 진료비(InsuranceClaim)를 예측하려고 합니다.환자의 나이, 성별, BMI, 지역, 흡연 여부, 병원 방문 횟수 등의 정보를 활용합니다.  데이터 피처Age: 환자 나이 (정수, 0~100, 일부 결측치 있음)Gender: 성별 (Male, Female)BMI: 체질량지수(Body Mass Index, 실수, 일부 결측치 있음)Region: 환자가 거주하는 지역 (North, South, East, West)Smoker: 흡연 여부 (Yes, No)NumVisits: 연간 병원 방문 횟수 (정수, 일부 결측치 있음)InsuranceClaim: 진료비 청구 금액(단위: 만원..

AI/실습 2025.01.28

126. [Python] [Multiple Linear Regression] : 이커머스(온라인 쇼핑몰) 상품 일간 판매량 예측

문제 이커머스(온라인 쇼핑몰) 상품 일간 판매량 예측시나리오이커머스에서는 마케팅 예산, 프로모션 여부, 계절, 경쟁사 가격 정책 등이 판매량에 영향을 줄 수 있습니다.한 온라인 쇼핑몰에서 특정 상품(예: 여름 티셔츠)의 일간 판매량을 예측하려고 합니다. 피처(입력변수) 예시DayOfWeek: 요일(0=월, 6=일)IsHoliday: 공휴일 여부 (0 또는 1)MarketingSpend: 당일 마케팅 지출액(만원 단위)CompetitorPrice: 경쟁사 판매가(원)Price: 우리 상품 판매가(원)Month: 달(1~12)타깃(출력변수)Sales: 판매량(당일 몇 개 팔렸는지) 데이터 다운로드 링크 LinearRegression 과 RandomForest 를 이용해서 더 성능이 좋은것으로 합니다.   다..

AI/실습 2025.01.27

125. [Python] [Machine Learning] : 다중 선형 회귀(Multiple Linear Regression)

다중 선형 회귀(Multiple Linear Regression) 1. 다중 선형 회귀(Multiple Linear Regression)란?예를 들어 주택 임대료를 예측한다고 했을 때, 주택의 면적만 고려해서 예측하면 단순회귀가 되겠지만 지어진지 얼마나 오래되었는지, 지하철역과 거리가 얼마나 가까운지 등 다양한 요소의 영향을 받는다. 결국 주택 임대료 y를 예측하려면 여러 개의 변수 x를 포함해야 하는 거다.다중 선형 회귀는 하나 이상의 독립 변수(입력 데이터)를 사용하여 종속 변수(출력 데이터)를 예측하는 회귀 알고리즘입니다.수학적 표현: Y=β0+β1X1+β2X2+⋯+βnXn+ϵYYY: 종속 변수X1,X2,…,XnX_1, X_2, \dots, X_nX1,X2,…,Xn: 독립 변수β0\beta_0β0:..

AI/이론 2025.01.27
home top bottom
}