Spaces:

Gigaverse
/

ivrit-ai-streaming

Sleeping

AshDavid12 commited on Sep 10, 2024

Commit

460f073

1 Parent(s): cc6b80d

prev version worked but not accurate-changed mask

Files changed (1) hide show

infer.py CHANGED Viewed

@@ -25,12 +25,18 @@ audio_input, _ = sf.read(audio_data)
 # Preprocess the audio for Whisper
 inputs = processor(audio_input, return_tensors="pt", sampling_rate=16000)
 inputs = {key: value.to(device) for key, value in inputs.items()}
-# Generate the transcription
 with torch.no_grad():
-    predicted_ids = model.generate(inputs["input_features"])
 # Decode the transcription
 transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]

 # Preprocess the audio for Whisper
 inputs = processor(audio_input, return_tensors="pt", sampling_rate=16000)
+attention_mask = inputs['input_features'].ne(processor.tokenizer.pad_token_id).long()
+# Move inputs and attention mask to the correct device
 inputs = {key: value.to(device) for key, value in inputs.items()}
+attention_mask = attention_mask.to(device)
+# Generate the transcription with attention mask
 with torch.no_grad():
+    predicted_ids = model.generate(
+        inputs["input_features"],
+        attention_mask=attention_mask  # Pass attention mask explicitly
+    )
 # Decode the transcription
 transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]