Spaces:

MLSpeech
/

CarelessWhisper-low-latency-streaming

Sleeping

App Files Files Community

tomer9080 commited on 29 days ago

Commit

a8fb4f9

1 Parent(s): 2faff30

tempretaure removced, added multilingual

Browse files

Files changed (3) hide show

.gitignore +2 -1
static/client.html +16 -4
unified_socket_server.py +10 -4

.gitignore CHANGED Viewed

@@ -1,4 +1,5 @@
 *.ipynb
 old_demo_code/
 htokenf.txt
-__pycache__/

 *.ipynb
 old_demo_code/
 htokenf.txt
+__pycache__/
+.vscode/

static/client.html CHANGED Viewed

@@ -238,7 +238,13 @@
             <div class="config-group">
                 <label for="chunkSize">Chunk Size (ms):</label>
-                <input type="number" id="chunkSize" value="300" min="100" max="2000" step="100">
             </div>
             <div class="config-group">
@@ -247,8 +253,14 @@
             </div>
             <div class="config-group">
-                <label for="temperature">Temperature:</label>
-                <input type="number" id="temperature" value="0.0" min="0.0" max="1.0" step="0.1">
             </div>
         </div>
@@ -357,7 +369,7 @@
                     model_size: document.getElementById('modelSize').value,
                     chunk_size: parseInt(document.getElementById('chunkSize').value),
                     beam_size: parseInt(document.getElementById('beamSize').value),
-                    temperature: parseFloat(document.getElementById('temperature').value)
                 };
                 log('Starting transcription session...');

             <div class="config-group">
                 <label for="chunkSize">Chunk Size (ms):</label>
+                <select id="chunkSize">
+                    <option value="40">40</option>
+                    <option value="100" selected>100</option>
+                    <option value="200">200</option>
+                    <option value="300" selected>300</option>
+                    <option value="1000">1000</option>
+                </select>
             </div>
             <div class="config-group">
             </div>
             <div class="config-group">
+                <label for="language">Language:</label>
+                <select id="language">
+                    <option value="en" selected>English</option>
+                    <option value="fr">French</option>
+                    <option value="es">Spanish</option>
+                    <option value="de">German</option>
+                    <option value="pt">Portuguese</option>
+                </select>
             </div>
         </div>
                     model_size: document.getElementById('modelSize').value,
                     chunk_size: parseInt(document.getElementById('chunkSize').value),
                     beam_size: parseInt(document.getElementById('beamSize').value),
+                    language: document.getElementById('language').value
                 };
                 log('Starting transcription session...');

unified_socket_server.py CHANGED Viewed

@@ -126,7 +126,7 @@ class UnifiedTranscriptionServer:
             logger.info(f"Received config from {client_id}: {config}")
             # Validate config
-            required_fields = ['model_size', 'chunk_size', 'beam_size', 'temperature']
             for field in required_fields:
                 if field not in config:
                     await ws.send_str(json.dumps({"error": f"Missing required field: {field}"}))
@@ -138,9 +138,16 @@ class UnifiedTranscriptionServer:
             logger.info(f"Loading model {model_size} for client {client_id}")
             # Try to use whisper_stream, fallback to regular whisper
             try:
-                model = load_streaming_model_correct(model_size, chunk_size)
                 client['first_chunk'] = True
                 if torch.cuda.is_available():
                     model = model.to("cuda")
@@ -236,12 +243,11 @@ class UnifiedTranscriptionServer:
             if hasattr(model, 'decode') and 'use_streaming' not in client:
                 # Using whisper_stream
                 decoding_options = DecodingOptions(
-                    language="en",
                     gran=(config['chunk_size'] // 20),
                     single_frame_mel=True,
                     without_timestamps=True,
                     beam_size=config['beam_size'],
-                    temperature=config['temperature'],
                     stream_decode=True,
                     use_ca_kv_cache=True,
                     look_ahead_blocks=model.extra_gran_blocks

             logger.info(f"Received config from {client_id}: {config}")
             # Validate config
+            required_fields = ['model_size', 'chunk_size', 'beam_size', 'language']
             for field in required_fields:
                 if field not in config:
                     await ws.send_str(json.dumps({"error": f"Missing required field: {field}"}))
             logger.info(f"Loading model {model_size} for client {client_id}")
+            # Check - if language is other than english, throw an error.
+            # Only large-v2 300msec is available.
+            if multilingual := config['language'] != "en":
+                if model_size != "large-v2" or chunk_size != 300:
+                    await ws.send_str(json.dumps({"error": f"Running multilingual transcription is available for now only on large-v2 model using chunk size of 300ms."}))
+                    return
             # Try to use whisper_stream, fallback to regular whisper
             try:
+                model = load_streaming_model_correct(model_size, chunk_size, multilingual)
                 client['first_chunk'] = True
                 if torch.cuda.is_available():
                     model = model.to("cuda")
             if hasattr(model, 'decode') and 'use_streaming' not in client:
                 # Using whisper_stream
                 decoding_options = DecodingOptions(
+                    language=config['language'],
                     gran=(config['chunk_size'] // 20),
                     single_frame_mel=True,
                     without_timestamps=True,
                     beam_size=config['beam_size'],
                     stream_decode=True,
                     use_ca_kv_cache=True,
                     look_ahead_blocks=model.extra_gran_blocks