Spaces:

tacab
/

TTS

Sleeping

nurfarah57 commited on May 26

Commit

a6ca5e0

verified ·

1 Parent(s): 10950a5

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,17 +1,20 @@
 import os
-import io
 from fastapi import FastAPI
 from pydantic import BaseModel
-from transformers import AutoProcessor, VitsForConditionalGeneration
 import torch
 from fastapi.responses import StreamingResponse
-# Use /tmp for cache to avoid permission errors
-os.environ["HF_HOME"] = "/tmp"
 app = FastAPI()
-# Load processor and model once on startup
 model_name = "Somali-tts/somali_tts_model"
 processor = AutoProcessor.from_pretrained(model_name)
 model = VitsForConditionalGeneration.from_pretrained(model_name)
@@ -28,8 +31,6 @@ async def synthesize_tts(data: TextInput):
         audio = model.generate(**inputs)
     audio = audio.squeeze().cpu().numpy()
-    # Convert to WAV bytes in-memory
-    import soundfile as sf
     buf = io.BytesIO()
     sf.write(buf, audio, samplerate=22050, format="WAV")
     buf.seek(0)

 import os
+# Fix PyTorch Inductor cache directory and HF cache permission issues on Hugging Face Spaces
+os.environ["TORCHINDUCTOR_CACHE_DIR"] = "/tmp"
+os.environ["HF_HOME"] = "/tmp"
 from fastapi import FastAPI
 from pydantic import BaseModel
+from transformers import AutoProcessor
+from transformers.models.vits.modeling_vits import VitsForConditionalGeneration
 import torch
+import io
 from fastapi.responses import StreamingResponse
+import soundfile as sf
 app = FastAPI()
 model_name = "Somali-tts/somali_tts_model"
 processor = AutoProcessor.from_pretrained(model_name)
 model = VitsForConditionalGeneration.from_pretrained(model_name)
         audio = model.generate(**inputs)
     audio = audio.squeeze().cpu().numpy()
     buf = io.BytesIO()
     sf.write(buf, audio, samplerate=22050, format="WAV")
     buf.seek(0)