MMS_1_10

Running

App Files Files Community

bomolopuu commited on Oct 1, 2024

Commit

67ce7a9

1 Parent(s): f3731ec

add transcription and fine-tuning

Browse files

Files changed (2) hide show

app.py +1 -0
asr.py +46 -3

app.py CHANGED Viewed

@@ -15,6 +15,7 @@ mms_transcribe = gr.Interface(
             label="Language",
             value="eng English",
         ),
         # gr.Checkbox(label="Use Language Model (if available)", default=True),
     ],
     outputs="text",

             label="Language",
             value="eng English",
         ),
+        gr.Textbox(label="Optional: Provide your own transcription"),
         # gr.Checkbox(label="Use Language Model (if available)", default=True),
     ],
     outputs="text",

asr.py CHANGED Viewed

@@ -67,8 +67,7 @@ model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)
 # )
-def transcribe(audio_data=None, lang="eng (English)"):
     if not audio_data:
         return "<<ERROR: Empty Audio Input>>"
@@ -82,7 +81,6 @@ def transcribe(audio_data=None, lang="eng (English)"):
             )
     else:
         # file upload
         if not isinstance(audio_data, str):
             return "<<ERROR: Invalid Audio Input Instance: {}>>".format(type(audio_data))
         audio_samples = librosa.load(audio_data, sr=ASR_SAMPLING_RATE, mono=True)[0]
@@ -121,8 +119,53 @@ def transcribe(audio_data=None, lang="eng (English)"):
         # beam_search_result = beam_search_decoder(outputs.to("cpu"))
         # transcription = " ".join(beam_search_result[0][0].words).strip()
     return transcription
 ASR_EXAMPLES = [
     ["upload/english.mp3", "eng (English)"],

 # )
+def transcribe(audio_data=None, lang="eng (English)", user_transcription=None):
     if not audio_data:
         return "<<ERROR: Empty Audio Input>>"
             )
     else:
         # file upload
         if not isinstance(audio_data, str):
             return "<<ERROR: Invalid Audio Input Instance: {}>>".format(type(audio_data))
         audio_samples = librosa.load(audio_data, sr=ASR_SAMPLING_RATE, mono=True)[0]
         # beam_search_result = beam_search_decoder(outputs.to("cpu"))
         # transcription = " ".join(beam_search_result[0][0].words).strip()
+    # If user-provided transcription is available, use it to fine-tune the model
+    if user_transcription:
+        # Update the model's weights using the user-provided transcription
+        model = fine_tune_model(model, processor, user_transcription, audio_samples, lang_code)
+        # This is a placeholder, you'll need to implement the actual fine-tuning logic
+        print(f"Fine-tuning the model with user-provided transcription: {user_transcription}")
+        # ...
     return transcription
+def fine_tune_model(model, processor, user_transcription, audio_samples, lang_code):
+    # Convert the user-provided transcription to a tensor
+    transcription_tensor = processor.text_to_tensor(user_transcription)
+    # Create a new dataset with the user-provided transcription and audio samples
+    dataset = [(audio_samples, transcription_tensor)]
+    # Create a data loader for the new dataset
+    data_loader = torch.utils.data.DataLoader(dataset, batch_size=1, shuffle=False)
+    # Set the model to training mode
+    model.train()
+    # Define the loss function and optimizer
+    criterion = torch.nn.CTCLoss()
+    optimizer = torch.optim.Adam(model.parameters(), lr=0.001)
+    # Fine-tune the model on the new dataset
+    for epoch in range(5):  # fine-tune for 5 epochs
+        for batch in data_loader:
+            audio, transcription = batch
+            audio = audio.to(device)
+            transcription = transcription.to(device)
+            # Forward pass
+            outputs = model(audio)
+            loss = criterion(outputs, transcription)
+            # Backward pass
+            optimizer.zero_grad()
+            loss.backward()
+            optimizer.step()
+    # Set the model to evaluation mode
+    model.eval()
+    return model
 ASR_EXAMPLES = [
     ["upload/english.mp3", "eng (English)"],