Spaces:

lamm-mit
/

PDF2Audio

Running

mjbuehler commited on Apr 17

Commit

49ffe9d

verified ·

1 Parent(s): 215871a

Update app.py

Added gpt-4o speech generation support, o3/o4 support

Files changed (1) hide show

app.py CHANGED Viewed

@@ -459,8 +459,11 @@ STANDARD_TEXT_MODELS = [
     "o1-2024-12-17",
     "o1-preview-2024-09-12",
     "o1-preview",
     "o3-mini",
     "o3-mini-2025-01-31",
     "gpt-4o-2024-08-06",
     "gpt-4o",
     "gpt-4o-mini-2024-07-18",
@@ -475,6 +478,7 @@ STANDARD_TEXT_MODELS = [
 STANDARD_AUDIO_MODELS = [
     "tts-1",
     "tts-1-hd",
 ]
 STANDARD_VOICES = [
@@ -484,6 +488,9 @@ STANDARD_VOICES = [
     "onyx",
     "nova",
     "shimmer",
 ]
 class DialogueItem(BaseModel):
@@ -735,7 +742,8 @@ with gr.Blocks(title="PDF to Audio", css="""
             audio_model = gr.Dropdown(
                 label="Audio Generation Model",
                 choices=STANDARD_AUDIO_MODELS,
-                value="tts-1",
                 info="Select the model to generate the audio.",
             )
             speaker_1_voice = gr.Dropdown(

     "o1-2024-12-17",
     "o1-preview-2024-09-12",
     "o1-preview",
+    "o1-pro",
     "o3-mini",
     "o3-mini-2025-01-31",
+    "o3",
+    "o4-mini",
     "gpt-4o-2024-08-06",
     "gpt-4o",
     "gpt-4o-mini-2024-07-18",
 STANDARD_AUDIO_MODELS = [
     "tts-1",
     "tts-1-hd",
+    "gpt-4o-mini-tts",
 ]
 STANDARD_VOICES = [
     "onyx",
     "nova",
     "shimmer",
+    "verse",
+    "sage",
+    "coral",
 ]
 class DialogueItem(BaseModel):
             audio_model = gr.Dropdown(
                 label="Audio Generation Model",
                 choices=STANDARD_AUDIO_MODELS,
+                value="gpt-4o-mini-tts",
+                #value="tts-1",
                 info="Select the model to generate the audio.",
             )
             speaker_1_voice = gr.Dropdown(