◆coding-agent.dev

#dataset

Papers

2025 · ★★★★☆

Data Diversity Matters for Robust Instruction Tuning

AI 모델, 똑똑하게 학습시키는 '데이터 다양성'의 비밀 - QDIT 알고리즘을 통해 더 강건한 AI를 만드는 방법을 소개합니다.

aidata_selectiondatadiversity

2025 · ★★★★☆

Efficient Continual Pre-training for Building Domain Specific Large Language Models

LLM 전문가, A to Z 학습은 이제 그만! 10% 데이터로 성능 뛰어넘는 비법 - 지속적 사전학습과 데이터 선택 전략

cptdata-samplingllm

2025 · ★★★★☆

LIMA: Less Is More for Alignment

LLM, 양보다 질? 단 1,000개의 데이터로 GPT-4와 경쟁한 LIMA 이야기 - 표면적 얼라인먼트 가설과 소량 고품질 데이터의 힘

2025 · ★★★★☆

RETHINKING DATA SELECTION AT SCALE: RANDOM SELECTION IS ALMOST ALL YOU NEED

LLM 성능, '족집게 과외'보다 '랜덤'이 나은 이유 - 대규모 데이터셋에서 무작위 선택이 복잡한 알고리즘과 비슷한 성능을 보이는 이유

data_selectionllmllm_dataset