Spaces:

camparchimedes
/

nb

Build error

App Files Files

camparchimedes commited on Sep 17, 2024

Commit

3320156

verified ·

1 Parent(s): 5d54943

Update app.py

Browse files

Files changed (1) hide show

app.py +99 -106

app.py CHANGED Viewed

@@ -1,6 +1,6 @@
-#!/usr/bin/env python
 ### -----------------------------------------------------------------------
-### (test_BASE, Revised) version_1.07 ALPHA, app.py
 ### -----------------------------------------------------------------------
 # -------------------------------------------------------------------------
@@ -17,122 +17,135 @@
 # limitations under the License.
 # -------------------------------------------------------------------------
 import os
 import re
 import uuid
 import time
 import psutil
-import pydub
 import subprocess
 from tqdm import tqdm
 import tempfile
 from fpdf import FPDF
 from pathlib import Path
 import numpy as np
-import soundfile as sf
-import librosa
 import torch
-from transformers import pipeline
 from gpuinfo import GPUInfo
 import gradio as gr
 ###############################################################################
-# Configuration.
 ###############################################################################
-#if not torch.cuda.is_available():
-    #DESCRIPTION += "\n<p>⚠️Running on CPU, This may not work on CPU.</p>"
-#CACHE_EXAMPLES = torch.device('cuda') and os.getenv("CACHE_EXAMPLES", "0") == "1"
-#CACHE_EXAMPLES = torch.cuda.is_available() and os.getenv("CACHE_EXAMPLES", "0") == "1"
-#USE_TORCH_COMPILE = os.getenv("USE_TORCH_COMPILE", "0") == "1"
-#ENABLE_CPU_OFFLOAD = os.getenv("ENABLE_CPU_OFFLOAD", "0") == "1"
-device = torch.device('cuda')
-#device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
-def transcribe(file_upload, progress=gr.Progress(track_tqdm=True)): # microphone
-    file = file_upload
     start_time = time.time()
-    #--------------____________________________________________--------------"
-    with torch.no_grad():
-        pipe = pipeline("automatic-speech-recognition",
-                        model="NbAiLab/nb-whisper-large",
-                        chunk_length_s=30,
-                        device=device)
-    pipe.model.config.forced_decoder_ids = pipe.tokenizer.get_decoder_prompt_ids(task="transcribe")
-    text = pipe(file)["text"]
-    #--------------____________________________________________--------------"
     end_time = time.time()
     output_time = end_time - start_time
-    # --word count
     word_count = len(text.split())
-    # --memory metrics
-    memory = psutil.virtual_memory()
-    # --cpu metric
     cpu_usage = psutil.cpu_percent(interval=1)
-    # --gpu metric
-    gpu_utilization, gpu_memory = GPUInfo.gpu_usage()
     # --system info string
     system_info = f"""
     Processing time: {output_time:.2f} seconds.
     Number of words: {word_count}
     CPU Usage: {cpu_usage}%
-    GPU Memory: {gpu_memory}%
-    GPU Utilization: {gpu_utilization}%
     """
-    return text.strip(), system_info
 ###############################################################################
-# Interface.
 ###############################################################################
 HEADER_INFO = """
-    # SWITCHVOX ✨|🇳🇴 *Transkribering av lydfiler til norsk bokmål.*
 """.strip()
-LOGO = "https://cdn-lfs-us-1.huggingface.co/repos/fe/3b/fe3bd7c8beece8b087fddcc2278295e7f56c794c8dcf728189f4af8bddc585e1/24ad06a03a5bc66f3eba361b94e45ad17e46f98b76632f2d17faf8a0b4f9ab6b?response-content-disposition=inline%3B+filename*%3DUTF-8%27%27banner_trans.png%3B+filename%3D%22banner_trans.png%22%3B&response-content-type=image%2Fpng&Expires=1726757282&Policy=eyJTdGF0ZW1lbnQiOlt7IkNvbmRpdGlvbiI6eyJEYXRlTGVzc1RoYW4iOnsiQVdTOkVwb2NoVGltZSI6MTcyNjc1NzI4Mn19LCJSZXNvdXJjZSI6Imh0dHBzOi8vY2RuLWxmcy11cy0xLmh1Z2dpbmdmYWNlLmNvL3JlcG9zL2ZlLzNiL2ZlM2JkN2M4YmVlY2U4YjA4N2ZkZGNjMjI3ODI5NWU3ZjU2Yzc5NGM4ZGNmNzI4MTg5ZjRhZjhiZGRjNTg1ZTEvMjRhZDA2YTAzYTViYzY2ZjNlYmEzNjFiOTRlNDVhZDE3ZTQ2Zjk4Yjc2NjMyZjJkMTdmYWY4YTBiNGY5YWI2Yj9yZXNwb25zZS1jb250ZW50LWRpc3Bvc2l0aW9uPSomcmVzcG9uc2UtY29udGVudC10eXBlPSoifV19&Signature=HB0ypHpwK3dgXHqU5a3oBoR-OlPTV-Zlo-QzpvVD8DOlYvLCIwheHxh6OFUSFiWt1qEhWaelL71O1Rx5EwHG8L6oKbOVEvvrHzZjIJ9RD2YlOlx96EG5ZlaVdAlT0trDwlre-Q8VVey22UAu-H9hX%7EoyLoksIgbWX02%7E5ncmeujYG0KRMVwwB9DCkOY6FxtISGAw2A7qv1FoOdJ6nMxi8ijXDlmRigY9Cr-iuqYOUCBv4oinK-d-LEljUTbWEua1t8BvvlE02yt1TQGd8xz6E-qzWQN%7Es8%7EjNZRGMybpk5FaIl8%7El%7EMmr2Iy%7Erh62180ffBHG5YUgPnpmDKiKA2P-g__&Key-Pair-Id=K24J24Z295AEI9"
-SIDEBAR_INFO = f"""
-<div align="center">
-    <img src="{LOGO}" style="width: 100%; height: auto;"/>
-</div>
-"""
-"""
-def save_to_pdf(text, summary):
-    pdf = FPDF()
-    pdf.add_page()
-    pdf.set_font("Arial", size=12)
-    if text:
-        pdf.multi_cell(0, 10, "Transkribert Tekst:\n" + text)
-    pdf.ln(10)  # Paragraph metric
-    if summary:
-        pdf.multi_cell(0, 10, "Summary:\n" + summary)
-    pdf_output_path = "transcription_.pdf"
-    pdf.output(pdf_output_path)
-    return pdf_output_path
-"""
 css = """
 #transcription_output textarea {
@@ -153,56 +166,36 @@ iface = gr.Blocks(css=css)
 with iface:
-    gr.HTML(SIDEBAR_INFO)
     gr.Markdown(HEADER_INFO)
     with gr.Row():
-        gr.Markdown('''
-        ##### 🔊 Last opp lydfila [max.lengde: 40min]
-        ##### ☕️ Trykk på "Transkriber" knappen og vent på svar
-        ##### ⚡️ Går rimelig bra kjapt med Norwegian NB-Whisper Large..
-        ##### 😅 Planlegger tilleggs-funksjoner senere
-        ''')
-        #microphone = gr.Audio(label="Microphone", sources="microphone", type="filepath")
         upload = gr.Audio(label="Upload audio", sources="upload", type="filepath")
         transcribe_btn = gr.Button("Transkriber")
-    with gr.Row():
         with gr.Column(scale=3):
-            text_output = gr.Textbox(label="Transkribert Tekst", elem_id="transcription_output")
         with gr.Column(scale=1):
             system_info = gr.Textbox(label="Antall sekunder, ord, system data:", elem_id="system_info_box")
-    """
-    with gr.Tabs():
-        with gr.TabItem("Download PDF"):
-            pdf_text_only = gr.Button("Last ned pdf med resultat")
-            pdf_output = gr.File(label="/.pdf")
-            pdf_text_only.click(fn=lambda text: save_to_pdf(text, ""), inputs=[text_output], outputs=[pdf_output])
-    """
     with gr.Row():
         gr.Markdown('''
-        <div align="center">
-            <a href="https://opensource.com/resources/what-open-source">
-                <img src="https://badgen.net/badge/Open%20Source%20%3F/Yes%21/blue?icon=github" alt="Open Source? Yes!">
         </a>
-        <span style="display:inline-block; width: 20px;"></span>
-        <a href="https://opensource.org/licenses/Apache-2.0">
-            <img src="https://img.shields.io/badge/License-Apache_2.0-blue.svg" alt="License: Apache 2.0">
         </a>
         </div>
         ''')
     transcribe_btn.click(
-        fn=transcribe,
-        inputs=[upload], # microphone
         outputs=[text_output, system_info]
-    )
-    #transcribe_btn.click(fn=transcribe, inputs=[microphone, upload], outputs=[text_output, system_info])
-iface.launch(share=True,debug=True)

 ### -----------------------------------------------------------------------
+### Transkriber version_1.00
+### app.py
 ### -----------------------------------------------------------------------
 # -------------------------------------------------------------------------
 # limitations under the License.
 # -------------------------------------------------------------------------
 import os
 import re
 import uuid
 import time
 import psutil
 import subprocess
 from tqdm import tqdm
 import tempfile
 from fpdf import FPDF
 from pathlib import Path
 import numpy as np
 import torch
+from transformers import pipeline
 from gpuinfo import GPUInfo
+from pydub import AudioSegment
+from IPython.display import Audio
 import gradio as gr
+import huggingface_hub
 ###############################################################################
+# # Configuration | @version 1.05?
+# You are an intelligent assistant specializing in interviews with business clients
+# for in-depth content creation, etc..()
 ###############################################################################
+device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
+###############################################################################
+# Function to detect leading silence
+###############################################################################
+def milliseconds_until_sound(sound, silence_threshold_in_decibels=-20.0, chunk_size=10):
+    trim_ms = 0
+    assert chunk_size > 0
+    while sound[trim_ms:trim_ms + chunk_size].dBFS < silence_threshold_in_decibels and trim_ms < len(sound):
+        trim_ms += chunk_size
+    return trim_ms
+###############################################################################
+# Trim the start of the audio file
+###############################################################################
+def trim_start(filepath):
+    path = Path(filepath)
+    directory = path.parent
+    filename = path.name
+    audio = AudioSegment.from_file(filepath, format="wav")
+    start_trim = milliseconds_until_sound(audio)
+    trimmed = audio[start_trim:]
+    new_filename = directory / f"trimmed_{filename}"
+    trimmed.export(new_filename, format="wav")
+    return trimmed, new_filename
+###############################################################################
+# -- segment the audio into smaller parts (1-minute segments for large files)
+###############################################################################
+def segment_audio(trimmed_audio, output_dir_trimmed):
+    one_minute = 1 * 60 * 1000  # 1 minute in milliseconds
+    start_time = 0
+    i = 0
+    # -- iterate through trimmed audio, segment it
+    segmented_files = []
+    while start_time < len(trimmed_audio):
+        segment = trimmed_audio[start_time:start_time + one_minute]
+        # -- filename for each segment
+        file_name = f"trimmed_{i:02d}.wav"
+        # --export each segment, save to the Hugging Face hub directly
+        file_path = file_name
+        segment.export(file_path, format="wav")
+        segmented_files.append(file_path)
+        start_time += one_minute
+        i += 1
+    return segmented_files
+###############################################################################
+# Transcription logic
+###############################################################################
+def transcribe(file_upload, progress=gr.Progress(track_tqdm=True)):
+    file = file_upload
     start_time = time.time()
+    # -- trim auio, segment it for processing
+    trimmed_audio, trimmed_filename = trim_start(file)
+    segmented_files = segment_audio(trimmed_audio, "trimmed_audio")
+    pipe = pipeline("automatic-speech-recognition", model="NbAiLab/nb-whisper-large", chunk_length_s=30, device=device)
+    transcriptions = [pipe(seg_file)["text"] for seg_file in segmented_files]
+    text = ''.join(transcriptions)
     end_time = time.time()
     output_time = end_time - start_time
+    # --Word count
     word_count = len(text.split())
+    # --CPU metric
     cpu_usage = psutil.cpu_percent(interval=1)
     # --system info string
     system_info = f"""
     Processing time: {output_time:.2f} seconds.
     Number of words: {word_count}
     CPU Usage: {cpu_usage}%
     """
+    return text, system_info
 ###############################################################################
+# Interface
 ###############################################################################
 HEADER_INFO = """
+    # SWITCHVOX ✨|🇳🇴 *Transkribering av lydfiler til Norsk skrift.*
 """.strip()
 css = """
 #transcription_output textarea {
 with iface:
     gr.Markdown(HEADER_INFO)
     with gr.Row():
         upload = gr.Audio(label="Upload audio", sources="upload", type="filepath")
         transcribe_btn = gr.Button("Transkriber")
+    with gr.Row():
         with gr.Column(scale=3):
+            text_output = gr.Textbox(label="Transkribert Tekst", placeholder="t r a n s c r i p t i o", elem_id="transcription_output")
         with gr.Column(scale=1):
             system_info = gr.Textbox(label="Antall sekunder, ord, system data:", elem_id="system_info_box")
     with gr.Row():
         gr.Markdown('''
+        <div style="text-align:center;">
+        <a href="https://opensource.com/resources/what-open-source" style="display: inline-block;">
+            <img src="https://badgen.net/badge/Open%20Source%20%3F/Yes%21/blue?icon=github" alt="Open Source? Yes!" style="vertical-align: middle;">
         </a>
+        <span style="display:inline-block; width: 20px;"></span> <!-- This adds space between the logos -->
+        <a href="https://opensource.org/licenses/Apache-2.0" style="display: inline-block;">
+            <img src="https://img.shields.io/badge/License-Apache_2.0-blue.svg" alt="License: Apache 2.0" style="vertical-align: middle;">
         </a>
         </div>
         ''')
     transcribe_btn.click(
+        fn=transcribe,
+        inputs=[upload],
         outputs=[text_output, system_info]
+    )
+iface.launch(debug=True)