AI/실습

159. [AI] [NLP] Google Gemma-2-9B-IT 모델 분석 및 학습 데이터 총정리

천재단미 2025. 2. 25. 15:45
728x90
반응형

 

 

 

 

 

 

1. 개요

 

Google DeepMind에서 개발한 Gemma-2-9B-IT 모델은 Instruction-Tuned (IT) 된 강력한 자연어 처리(NLP) 모델입니다.

Gemma-2-9B-IT 모델의 주요 특징

Transformer 기반 모델

Instruction-Tuning & RLHF 적용

9B (90억 개) 파라미터 보유

Hugging Face safetensors 포맷 지원

FP16 지원 (고속 처리 가능)

대규모 데이터셋을 학습하여 강력한 성능 제공

이 모델은 대화형 AI, 텍스트 생성, 요약, 번역, 코드 생성 등 다양한 작업에서 활용될 수 있습니다.

하지만, 어떤 데이터를 학습했기에 이렇게 강력한 성능을 제공할 수 있을까요?

이번 글에서는 Gemma-2-9B-IT 모델의 학습 데이터와 주요 특성을 상세히 분석해보겠습니다.

 


2. Gemma-2-9B-IT 모델 개요

 

🏷️ 특징  설명

모델명 Gemma-2-9B-IT
파라미터 수 9B (90억 개)
아키텍처 Transformer 기반
지원 Precision FP16, BF16, FP32
지원 프레임워크 Hugging Face Transformers
지원 작업 텍스트 생성, 번역, 요약, 코드 생성, 대화형 AI
사전 학습 데이터 OpenWebText, Wikipedia, C4, Common Crawl 등
미세 조정 방식 Instruction-Tuning (Supervised Fine-Tuning), RLHF
최적화 TPU, GPU 클러스터에서 학습
저장 포맷 safetensors
배포 방식 Hugging Face Model Hub

 

 


 

3. Gemma-2-9B-IT 모델 학습 데이터

1) 주요 학습 데이터셋 (Pretraining Datasets)

 

데이터셋 설명 출처

Common Crawl 웹 크롤링을 통해 수집한 방대한 텍스트 데이터 Common Crawl
C4 (Colossal Clean Crawled Corpus) 필터링된 웹 문서 데이터셋 TensorFlow Datasets
Wikipedia 다국어 위키백과 문서 데이터 Wikipedia
BooksCorpus 다양한 책에서 추출된 문서 데이터 BooksCorpus
ArXiv & PubMed 연구 논문, 과학 논문 데이터 ArXiv, PubMed
OpenWebText2 OpenAI GPT 모델 훈련에 사용된 고품질 웹 문서 OpenWebText
Multi-News Dataset 뉴스 기사 요약을 위한 다중 문서 데이터 Multi-News
Hacker News & StackExchange 개발자 커뮤니티 및 Q&A 플랫폼에서 추출한 데이터 Hacker News
GitHub Code 프로그래밍 코드 데이터 GitHub

 

2) 데이터셋 상세 분석

🔹 Common Crawl (웹 크롤링 데이터)

✔️ 인터넷에서 크롤링한 방대한 웹 문서

✔️ 뉴스, 블로그, 포럼, 기술 문서 포함

✔️ 자연어 이해(NLU) 및 생성(NLG) 능력 향상

🔹 C4 (Colossal Clean Crawled Corpus)

✔️ Google이 T5 모델 훈련을 위해 개발한 정제된 웹 문서 데이터

✔️ 불필요한 광고성 콘텐츠 제거 후 사용

✔️ 고품질 자연어 학습에 최적화

🔹 Wikipedia (위키백과 데이터)

✔️ 세계 최대 다국어 백과사전 데이터

✔️ 정확하고 신뢰할 수 있는 정보 학습

🔹 BooksCorpus (책 데이터)

✔️ 소설, 역사, 경제학, 심리학 등 다양한 책에서 추출

✔️ 긴 문맥 이해 및 복잡한 문장 구조 학습

🔹 ArXiv & PubMed (과학 논문 데이터)

✔️ ArXiv → AI, 수학, 물리학, 컴퓨터 과학 연구 논문

✔️ PubMed → 의학 및 생물학 관련 논문

✔️ 전문적인 지식 습득 및 논리적 사고 강화

🔹 OpenWebText2 (고품질 웹 문서)

✔️ OpenAI GPT 모델 학습에 사용된 웹 문서

✔️ 신뢰할 수 있는 인터넷 문서 활용

🔹 Multi-News Dataset (뉴스 요약 데이터)

✔️ 여러 개의 뉴스 기사를 종합하여 요약하는 데이터

✔️ 문맥 이해 및 정보 압축 능력 강화

🔹 Hacker News & StackExchange (Q&A 데이터)

✔️ 개발자 커뮤니티에서 수집한 질문 & 답변 데이터

✔️ 프로그래밍 관련 AI 지원 기능 개선

🔹 GitHub Code (코드 데이터)

✔️ 다양한 프로그래밍 언어의 코드 학습

✔️ AI 기반 코드 생성 및 자동 완성 기능 개선

 


 

4. 학습 데이터 정제 및 필터링 과정

Google은 Gemma-2-9B-IT 모델을 학습할 때, 데이터를 정제하고 필터링하는 과정을 거칩니다.

  • 불필요한 데이터 제거
    • 광고성 / 스팸 데이터 삭제
    • 중복 문서 제거
    •  잘못된 문법 데이터 삭제
  • 언어 모델 최적화 작업
    • 문장 길이 제한 적용
    • 부적절한 콘텐츠 필터링 (폭력적 표현 등)
    • 문장 부호 및 철자 정리

 

결과적으로, 신뢰할 수 있는 데이터만 학습하여 높은 성능을 유지할 수 있도록 설계되었습니다.


5. Gemma-2-9B-IT 모델 실행하기 (Hugging Face 활용)

이제 Gemma-2-9B-IT 모델을 Python에서 실행하는 방법을 살펴보겠습니다.

 

 

1) 필수 라이브러리 설치

pip install transformers torch safetensors

 

2) 모델 로드 및 텍스트 생성 (Python 코드)

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

# 모델 및 토크나이저 로드
model_name = "google/gemma-2-9b-it"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float16)

# 텍스트 생성 예제
prompt = "AI가 인류에 미치는 긍정적인 영향을 설명해 주세요."
inputs = tokenizer(prompt, return_tensors="pt")

# 모델 예측 수행
outputs = model.generate(**inputs, max_length=150)
generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)

print(generated_text)

 

위 코드를 실행하면 Gemma-2-9B-IT 모델이 텍스트를 생성합니다!


6. 결론 및 요약

기능  Gemma-2-9B-IT의 특징

고품질 학습 데이터 Wikipedia, ArXiv, PubMed 등
강력한 문맥 이해 능력 긴 문장 분석 및 요약 가능
최신 NLP 기술 적용 Instruction-Tuning & RLHF
Hugging Face 최적화 safetensors 포맷 사용

 

 

Gemma-2-9B-IT 모델을 활용하여 AI 기반 피트니스 코치, 텍스트 생성, 건강 분석, 코드 생성 등의 고급 NLP 응용 프로그램을 구축할 수 있습니다! 

728x90
반응형
home top bottom
}