AI/실습 11

159. [AI] [NLP] Google Gemma-2-9B-IT 모델 분석 및 학습 데이터 총정리

1. 개요 Google DeepMind에서 개발한 Gemma-2-9B-IT 모델은 Instruction-Tuned (IT) 된 강력한 자연어 처리(NLP) 모델입니다.Gemma-2-9B-IT 모델의 주요 특징✅ Transformer 기반 모델✅ Instruction-Tuning & RLHF 적용✅ 9B (90억 개) 파라미터 보유✅ Hugging Face safetensors 포맷 지원✅ FP16 지원 (고속 처리 가능)✅ 대규모 데이터셋을 학습하여 강력한 성능 제공이 모델은 대화형 AI, 텍스트 생성, 요약, 번역, 코드 생성 등 다양한 작업에서 활용될 수 있습니다.하지만, 어떤 데이터를 학습했기에 이렇게 강력한 성능을 제공할 수 있을까요?이번 글에서는 Gemma-2-9B-IT 모델의 학습 데이터와 주..

AI/실습 2025.02.25

158. [AI] [NLP] Gemma 모델 사용 시 transformers를 활용하는 이유

📌 1. 개요Gemma 모델은 Google DeepMind에서 개발한 강력한 **LLM(대형 언어 모델)**입니다.이 모델을 Streamlit에서 활용하려면 Hugging Face의 transformers 라이브러리를 사용해야 합니다.📌 하지만, 왜 transformers를 사용해야 할까요? ✅ 모델을 쉽고 빠르게 로드✅ 보안성이 강화된 safetensors 활용✅ 대규모 모델을 효과적으로 샤딩(Sharding)하여 로드✅ Hugging Face의 AutoModel을 통한 자동화된 설정 이 블로그에서는 transformers를 활용하여 Gemma 모델을 로드하는 이유와 과정을차근차근 설명해드리겠습니다.  🔍 2. transformers 라이브러리를 사용하는 이유✅ 1) 모델을 쉽고 빠르게 로드 가능..

AI/실습 2025.02.24

127. [Python] [Multiple Linear Regression] : 병원 진료비 예측 (Regression)

문제: 병원 진료비 예측 (Regression)데이터 설명 시나리오병원의 진료 데이터를 분석하여 환자의 기본 정보를 기반으로 진료비(InsuranceClaim)를 예측하려고 합니다.환자의 나이, 성별, BMI, 지역, 흡연 여부, 병원 방문 횟수 등의 정보를 활용합니다.  데이터 피처Age: 환자 나이 (정수, 0~100, 일부 결측치 있음)Gender: 성별 (Male, Female)BMI: 체질량지수(Body Mass Index, 실수, 일부 결측치 있음)Region: 환자가 거주하는 지역 (North, South, East, West)Smoker: 흡연 여부 (Yes, No)NumVisits: 연간 병원 방문 횟수 (정수, 일부 결측치 있음)InsuranceClaim: 진료비 청구 금액(단위: 만원..

AI/실습 2025.01.28

126. [Python] [Multiple Linear Regression] : 이커머스(온라인 쇼핑몰) 상품 일간 판매량 예측

문제 이커머스(온라인 쇼핑몰) 상품 일간 판매량 예측시나리오이커머스에서는 마케팅 예산, 프로모션 여부, 계절, 경쟁사 가격 정책 등이 판매량에 영향을 줄 수 있습니다.한 온라인 쇼핑몰에서 특정 상품(예: 여름 티셔츠)의 일간 판매량을 예측하려고 합니다. 피처(입력변수) 예시DayOfWeek: 요일(0=월, 6=일)IsHoliday: 공휴일 여부 (0 또는 1)MarketingSpend: 당일 마케팅 지출액(만원 단위)CompetitorPrice: 경쟁사 판매가(원)Price: 우리 상품 판매가(원)Month: 달(1~12)타깃(출력변수)Sales: 판매량(당일 몇 개 팔렸는지) 데이터 다운로드 링크 LinearRegression 과 RandomForest 를 이용해서 더 성능이 좋은것으로 합니다.   다..

AI/실습 2025.01.27

123. [Python] [Machine Learning] : 지도 학습 (Supervised Learning)

1. 지도 학습(Supervised Learning)이란?지도 학습은 머신 러닝의 한 종류로, **입력 데이터(Input)**와 이에 상응하는 **정답 데이터(Output)**를 사용하여 학습하는 알고리즘입니다. 모델은 주어진 데이터를 학습한 후, 새로운 데이터에 대한 예측을 수행합니다.입력 데이터(X): 모델이 학습할 특징(Features) 데이터정답 데이터(y): 각 입력 데이터에 대한 실제 정답(Label)# Data Preprocessing Template# Importing the librariesimport numpy as npimport matplotlib.pyplot as pltimport pandas as pd    2. 지도 학습의 주요 유형2-1. 회귀(Regression)목표: 연속..

AI/실습 2025.01.25

121. [Python] [Pandas] 프로그래밍 실습 : 범죄현장

범죄 데이터 구별로 정리하기   문제 4. '구별' 피봇팅인덱스를 '구별'로 피봇팅 한다. df.drop('관서명',axis = 1, inplace = True)df = pd.pivot_table(df,index = ['구별'],aggfunc = 'sum')df.head()  출력:  df    문제 5. 컬림추가'강간검거율' , '강도검거율', '살인검거율', '절도검거율', '폭력검거율'을 계산하여, crime_anal에 각 칼럼을 추가한다. ( 검거율은 * 100까지 한 값)   풀이  5. df['강간검거율'] = df['강간 검거']/df['강간 발생']*100df['강도검거율'] = df['강도 검거']/df['강도 발생']*100df['살인검거율'] = df['살인 검거']/df['살인 발..

AI/실습 2025.01.25

119. [Python] [Pandas] 프로그래밍 실습 : (피어슨 상관 계수)CCTV

피어슨 상관 계수와 AI의 관계 피어슨 상관 계수(Pearson Correlation Coefficient)는 두 변수 간의 선형 관계를 측정하는 지표로, AI와 데이터 분석에서 다양한 방식으로 활용됩니다. AI에서 피어슨 상관 계수는 데이터의 패턴을 이해하고 예측 모델의 성능을 높이는 데 중요한 역할을 합니다. 데이터 탐색:변수 간 관계를 이해하는 데 사용됩니다.예: 고객 나이와 구매 금액의 상관관계 분석으로 관련성 파악특성 선택:중요한 변수를 선별하고 불필요한 변수를 제거합니다.목표 변수와의 상관계수를 기준으로 특성의 중요도를 평가합니다.모델의 복잡성을 줄이고 성능을 개선합니다.다중공선성 해결:독립 변수 간 강한 상관관계를 식별합니다.필요시 상관성이 높은 변수를 제거하거나 차원 축소 기법을 적용합니다..

AI/실습 2025.01.24

117. [Python] [Pandas] 프로그래밍 실습 : 대중교통

TIP💡주피터 노트북 한글타이핑 # 한글 찍기import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sb%matplotlib inlineimport platformfrom matplotlib import font_manager, rcplt.rcParams['axes.unicode_minus'] = Falseif platform.system() == 'Darwin':    rc('font', family='AppleGothic')elif platform.system() == 'Windows':    path = "c:/Windows/Fonts/malgun.ttf"    font_name = font_mana..

AI/실습 2025.01.24
home
}