pytorch
/

Qwen3-32B-float8dq

Text Generation

text-generation-inference

Model card Files Files and versions Community

SocialLocalMobile commited on May 14

Commit

edf5c51

·

verified ·

1 Parent(s): c303d63

Update README.md

Files changed (1) hide show

README.md +5 -3

README.md CHANGED Viewed

@@ -127,9 +127,11 @@ tokenizer.push_to_hub(save_to)
 # Model Quality
 TODO
-# Peak Memory Usage
-|                                  |                |                               |
 |----------------------------------|----------------|-------------------------------|
 |                                  | Qwen3-32B      | Qwen3-32B-float8dq            |
 | Peak Memory                      | 65.72 GB       | 34.54 GB (-47.44%)            |
@@ -196,7 +198,7 @@ print(f"Peak Memory Usage: {mem:.02f} GB")
 # Model Performance
 | Benchmark                        |                |                               |
 |----------------------------------|----------------|-------------------------------|
 |                                  | Qwen3-32B      | Qwen3-32B-float8dq            |

 # Model Quality
 TODO
+# Memory Usage
+Tested on H100
+| Memory                           |                |                               |
 |----------------------------------|----------------|-------------------------------|
 |                                  | Qwen3-32B      | Qwen3-32B-float8dq            |
 | Peak Memory                      | 65.72 GB       | 34.54 GB (-47.44%)            |
 # Model Performance
+Tested on H100
 | Benchmark                        |                |                               |
 |----------------------------------|----------------|-------------------------------|
 |                                  | Qwen3-32B      | Qwen3-32B-float8dq            |