NbAiLabBeta
/

nb-whisper-medium

Automatic Speech Recognition

hf-asr-leaderboard

Model card Files Files and versions

Metrics Training metrics Community

pere commited on Jan 27, 2024

Commit

ed05f4e

·

1 Parent(s): f7e3e23

Update export_models.sh

Files changed (1) hide show

export_models.sh +13 -13

export_models.sh CHANGED Viewed

@@ -6,22 +6,22 @@ python << END
 from transformers import WhisperForConditionalGeneration, TFWhisperForConditionalGeneration, WhisperTokenizerFast
 import shutil
-# Backup generation_config.json
-shutil.copyfile('./generation_config.json', './generation_config_backup.json')
 print("Saving model to PyTorch...", end=" ")
 model = WhisperForConditionalGeneration.from_pretrained("./", from_flax=True)
 model.save_pretrained("./", safe_serialization=True)
-model.save_pretrained("./")
 print("Done.")
-print("Saving model to TensorFlow...", end=" ")
-tf_model = TFWhisperForConditionalGeneration.from_pretrained("./")
-tf_model.save_pretrained("./")
-print("Done.")
 # Restore the backup of generation_config.json
-shutil.move('./generation_config_backup.json', './generation_config.json')
 print("Saving model to ONNX...", end=" ")
 from optimum.onnxruntime import ORTModelForSpeechSeq2Seq
@@ -29,16 +29,16 @@ ort_model = ORTModelForSpeechSeq2Seq.from_pretrained("./", export=True)
 ort_model.save_pretrained("./onnx")
 print("Done")
-print("Saving model to CTranslate...", end=" ")
-ct2-transformers-converter --model . --output_dir ct2
 cp ct2/model.bin .
 cp ct2/vocabulary.json .
 cp config.json config_hf.json
 jq -s '.[0] * .[1]' ct2/config.json config_hf.json > config.json
-print("Done")
-END
 echo "Saving model to GGML (whisper.cpp)..."
 wget -O convert-h5-to-ggml.py "https://raw.githubusercontent.com/NbAiLab/nb-whisper/main/convert-h5-to-ggml.py"

 from transformers import WhisperForConditionalGeneration, TFWhisperForConditionalGeneration, WhisperTokenizerFast
 import shutil
+# Backup generation_config.json - this is for tensorflow only, but at the moment that is causing errors.
+# shutil.copyfile('./generation_config.json', './generation_config_backup.json')
 print("Saving model to PyTorch...", end=" ")
 model = WhisperForConditionalGeneration.from_pretrained("./", from_flax=True)
 model.save_pretrained("./", safe_serialization=True)
+model.save_pretrained("./", safe_serialization=False, max_shard_size="10000MB")
 print("Done.")
+#print("Saving model to TensorFlow...", end=" ")
+#tf_model = TFWhisperForConditionalGeneration.from_pretrained("./")
+#tf_model.save_pretrained("./")
+#print("Done.")
 # Restore the backup of generation_config.json
+#shutil.move('./generation_config_backup.json', './generation_config.json')
 print("Saving model to ONNX...", end=" ")
 from optimum.onnxruntime import ORTModelForSpeechSeq2Seq
 ort_model.save_pretrained("./onnx")
 print("Done")
+END
+echo "Saving model to CTranslate..."
+ct2-transformers-converter --model . --output_dir ct2 --force
 cp ct2/model.bin .
 cp ct2/vocabulary.json .
 cp config.json config_hf.json
 jq -s '.[0] * .[1]' ct2/config.json config_hf.json > config.json
+echo "Done"
 echo "Saving model to GGML (whisper.cpp)..."
 wget -O convert-h5-to-ggml.py "https://raw.githubusercontent.com/NbAiLab/nb-whisper/main/convert-h5-to-ggml.py"