Spaces:

yusufs
/

sailor2-3b-chat

Running on T4

yusufs commited on about 13 hours ago

Commit

bf91dcd

1 Parent(s): f6a5a01

fix(MAX_NUM_BATCHED_TOKENS): fix typo

Files changed (1) hide show

Dockerfile CHANGED Viewed

@@ -37,7 +37,7 @@ ENV HF_HOME="/tmp/.cache/huggingface"
 EXPOSE 7860
-ENTRYPOINT ["/bin/bash",  "-c", "vllm serve ${MODEL_NAME} --task ${TASK} --revision ${MODEL_REVISION} --code-revision ${MODEL_REVISION} --tokenizer-revision ${MODEL_NAME} --seed 42 --host 0.0.0.0 --port 7860 --max-num-batched-tokens ${MAX_NUM_BATCHED_TOKENS}} --max-model-len ${MAX_MODEL_LEN} --dtype float16 --enforce-eager --gpu-memory-utilization 0.9 --enable-prefix-caching --disable-log-requests --trust-remote-code"]
 # # FROM nvidia/cuda:12.1.0-cudnn8-runtime-ubuntu22.04
 # FROM nvidia/cuda:12.9.1-cudnn-runtime-ubuntu24.04

 EXPOSE 7860
+ENTRYPOINT ["/bin/bash",  "-c", "vllm serve ${MODEL_NAME} --task ${TASK} --revision ${MODEL_REVISION} --code-revision ${MODEL_REVISION} --tokenizer-revision ${MODEL_NAME} --seed 42 --host 0.0.0.0 --port 7860 --max-num-batched-tokens ${MAX_NUM_BATCHED_TOKENS} --max-model-len ${MAX_MODEL_LEN} --dtype float16 --enforce-eager --gpu-memory-utilization 0.9 --enable-prefix-caching --disable-log-requests --trust-remote-code"]
 # # FROM nvidia/cuda:12.1.0-cudnn8-runtime-ubuntu22.04
 # FROM nvidia/cuda:12.9.1-cudnn-runtime-ubuntu24.04