159. [AI] [NLP] Google Gemma-2-9B-IT 모델 분석 및 학습 데이터 총정리

AI/실습

159. [AI] [NLP] Google Gemma-2-9B-IT 모델 분석 및 학습 데이터 총정리

천재단미 2025. 2. 25. 15:45

728x90

목차 ▽열기

1. 개요

Google DeepMind에서 개발한 Gemma-2-9B-IT 모델은 Instruction-Tuned (IT) 된 강력한 자연어 처리(NLP) 모델입니다.

Gemma-2-9B-IT 모델의 주요 특징

✅ Transformer 기반 모델

✅ Instruction-Tuning & RLHF 적용

✅ 9B (90억 개) 파라미터 보유

✅ Hugging Face safetensors 포맷 지원

✅ FP16 지원 (고속 처리 가능)

✅ 대규모 데이터셋을 학습하여 강력한 성능 제공

이 모델은 대화형 AI, 텍스트 생성, 요약, 번역, 코드 생성 등 다양한 작업에서 활용될 수 있습니다.

하지만, 어떤 데이터를 학습했기에 이렇게 강력한 성능을 제공할 수 있을까요?

이번 글에서는 Gemma-2-9B-IT 모델의 학습 데이터와 주요 특성을 상세히 분석해보겠습니다.

2. Gemma-2-9B-IT 모델 개요

🏷️ 특징 설명

모델명	Gemma-2-9B-IT
파라미터 수	9B (90억 개)
아키텍처	Transformer 기반
지원 Precision	FP16, BF16, FP32
지원 프레임워크	Hugging Face Transformers
지원 작업	텍스트 생성, 번역, 요약, 코드 생성, 대화형 AI
사전 학습 데이터	OpenWebText, Wikipedia, C4, Common Crawl 등
미세 조정 방식	Instruction-Tuning (Supervised Fine-Tuning), RLHF
최적화	TPU, GPU 클러스터에서 학습
저장 포맷	safetensors
배포 방식	Hugging Face Model Hub

3. Gemma-2-9B-IT 모델 학습 데이터

1) 주요 학습 데이터셋 (Pretraining Datasets)

데이터셋 설명 출처

Common Crawl	웹 크롤링을 통해 수집한 방대한 텍스트 데이터	Common Crawl
C4 (Colossal Clean Crawled Corpus)	필터링된 웹 문서 데이터셋	TensorFlow Datasets
Wikipedia	다국어 위키백과 문서 데이터	Wikipedia
BooksCorpus	다양한 책에서 추출된 문서 데이터	BooksCorpus
ArXiv & PubMed	연구 논문, 과학 논문 데이터	ArXiv, PubMed
OpenWebText2	OpenAI GPT 모델 훈련에 사용된 고품질 웹 문서	OpenWebText
Multi-News Dataset	뉴스 기사 요약을 위한 다중 문서 데이터	Multi-News
Hacker News & StackExchange	개발자 커뮤니티 및 Q&A 플랫폼에서 추출한 데이터	Hacker News
GitHub Code	프로그래밍 코드 데이터	GitHub

2) 데이터셋 상세 분석

🔹 Common Crawl (웹 크롤링 데이터)

✔️ 인터넷에서 크롤링한 방대한 웹 문서

✔️ 뉴스, 블로그, 포럼, 기술 문서 포함

✔️ 자연어 이해(NLU) 및 생성(NLG) 능력 향상

🔹 C4 (Colossal Clean Crawled Corpus)

✔️ Google이 T5 모델 훈련을 위해 개발한 정제된 웹 문서 데이터

✔️ 불필요한 광고성 콘텐츠 제거 후 사용

✔️ 고품질 자연어 학습에 최적화

🔹 Wikipedia (위키백과 데이터)

✔️ 세계 최대 다국어 백과사전 데이터

✔️ 정확하고 신뢰할 수 있는 정보 학습

🔹 BooksCorpus (책 데이터)

✔️ 소설, 역사, 경제학, 심리학 등 다양한 책에서 추출

✔️ 긴 문맥 이해 및 복잡한 문장 구조 학습

🔹 ArXiv & PubMed (과학 논문 데이터)

✔️ ArXiv → AI, 수학, 물리학, 컴퓨터 과학 연구 논문

✔️ PubMed → 의학 및 생물학 관련 논문

✔️ 전문적인 지식 습득 및 논리적 사고 강화

🔹 OpenWebText2 (고품질 웹 문서)

✔️ OpenAI GPT 모델 학습에 사용된 웹 문서

✔️ 신뢰할 수 있는 인터넷 문서 활용

🔹 Multi-News Dataset (뉴스 요약 데이터)

✔️ 여러 개의 뉴스 기사를 종합하여 요약하는 데이터

✔️ 문맥 이해 및 정보 압축 능력 강화

🔹 Hacker News & StackExchange (Q&A 데이터)

✔️ 개발자 커뮤니티에서 수집한 질문 & 답변 데이터

✔️ 프로그래밍 관련 AI 지원 기능 개선

🔹 GitHub Code (코드 데이터)

✔️ 다양한 프로그래밍 언어의 코드 학습

✔️ AI 기반 코드 생성 및 자동 완성 기능 개선

4. 학습 데이터 정제 및 필터링 과정

Google은 Gemma-2-9B-IT 모델을 학습할 때, 데이터를 정제하고 필터링하는 과정을 거칩니다.

불필요한 데이터 제거
- 광고성 / 스팸 데이터 삭제
- 중복 문서 제거
- 잘못된 문법 데이터 삭제
언어 모델 최적화 작업
- 문장 길이 제한 적용
- 부적절한 콘텐츠 필터링 (폭력적 표현 등)
- 문장 부호 및 철자 정리

결과적으로, 신뢰할 수 있는 데이터만 학습하여 높은 성능을 유지할 수 있도록 설계되었습니다.

5. Gemma-2-9B-IT 모델 실행하기 (Hugging Face 활용)

이제 Gemma-2-9B-IT 모델을 Python에서 실행하는 방법을 살펴보겠습니다.

1) 필수 라이브러리 설치

pip install transformers torch safetensors

2) 모델 로드 및 텍스트 생성 (Python 코드)

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

# 모델 및 토크나이저 로드
model_name = "google/gemma-2-9b-it"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float16)

# 텍스트 생성 예제
prompt = "AI가 인류에 미치는 긍정적인 영향을 설명해 주세요."
inputs = tokenizer(prompt, return_tensors="pt")

# 모델 예측 수행
outputs = model.generate(**inputs, max_length=150)
generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)

print(generated_text)

위 코드를 실행하면 Gemma-2-9B-IT 모델이 텍스트를 생성합니다!

6. 결론 및 요약

기능 Gemma-2-9B-IT의 특징

고품질 학습 데이터	Wikipedia, ArXiv, PubMed 등
강력한 문맥 이해 능력	긴 문장 분석 및 요약 가능
최신 NLP 기술 적용	Instruction-Tuning & RLHF
Hugging Face 최적화	safetensors 포맷 사용

Gemma-2-9B-IT 모델을 활용하여 AI 기반 피트니스 코치, 텍스트 생성, 건강 분석, 코드 생성 등의 고급 NLP 응용 프로그램을 구축할 수 있습니다!

728x90

저작자표시 비영리 동일조건 (새창열림)

'AI > 실습' 카테고리의 다른 글

172. [AI][Android Studio] Firebase로 시작하는 Android 앱 개발 가이드 (0)	2025.03.11
158. [AI] [NLP] Gemma 모델 사용 시 transformers를 활용하는 이유 (0)	2025.02.24
127. [Python] [Multiple Linear Regression] : 병원 진료비 예측 (Regression) (1)	2025.01.28
126. [Python] [Multiple Linear Regression] : 이커머스(온라인 쇼핑몰) 상품 일간 판매량 예측 (0)	2025.01.27
123. [Python] [Machine Learning] : 지도 학습 (Supervised Learning) (0)	2025.01.25

현재글159. [AI] [NLP] Google Gemma-2-9B-IT 모델 분석 및 학습 데이터 총정리

행복한바보고양이😻

구름(Cloud)의 속삭임 : 백엔드(Backend) 꿈을 키우다

Transformers, streamlit, API, 함수, order by, PANDAS, 파이썬, AI, LLM, GROUP BY, Java, spring boot, EC2, MySQL, select, machine learning, db, 머신러닝, hugging face, Python,

Today :
Yesterday :

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

행복한바보고양이😻