◆coding-agent.dev

#llm_serving

Papers

2025 · ★★★★☆

Efficient Memory Management for Large Language Model Serving with PagedAttention

LLM 서빙, 4배 빨라진 비밀: 운영체제에서 훔친 메모리 관리 기법 (vLLM) - PagedAttention을 통한 KV 캐시 메모리 최적화

aillmllm_serving