#dataset
Papers
2025 · ★★★★☆
Data Diversity Matters for Robust Instruction Tuning
AI 모델, 똑똑하게 학습시키는 '데이터 다양성'의 비밀 - QDIT 알고리즘을 통해 더 강건한 AI를 만드는 방법을 소개합니다.
aidata_selectiondatadiversity
2025 · ★★★★☆
Efficient Continual Pre-training for Building Domain Specific Large Language Models
LLM 전문가, A to Z 학습은 이제 그만! 10% 데이터로 성능 뛰어넘는 비법 - 지속적 사전학습과 데이터 선택 전략
cptdata-samplingllm
2025 · ★★★★☆
LIMA: Less Is More for Alignment
LLM, 양보다 질? 단 1,000개의 데이터로 GPT-4와 경쟁한 LIMA 이야기 - 표면적 얼라인먼트 가설과 소량 고품질 데이터의 힘
aillmalignment
2025 · ★★★★☆
RETHINKING DATA SELECTION AT SCALE: RANDOM SELECTION IS ALMOST ALL YOU NEED
LLM 성능, '족집게 과외'보다 '랜덤'이 나은 이유 - 대규모 데이터셋에서 무작위 선택이 복잡한 알고리즘과 비슷한 성능을 보이는 이유
data_selectionllmllm_dataset