inference optimization - a zzfive Collection

zzfive 's Collections

safety

inference optimization

RL+reason model

medical

3d

image

LLMs

video

agent

cv

audio

robot

inference optimization

updated 26 days ago

Low-Rank Adapters Meet Neural Architecture Search for LLM Compression

Paper • 2501.16372 • Published Jan 23 • 9
TAID: Temporally Adaptive Interpolated Distillation for Efficient Knowledge Transfer in Language Models

Paper • 2501.16937 • Published Jan 28 • 5
Matryoshka Quantization

Paper • 2502.06786 • Published 27 days ago • 29