Spaces:

hijnu
/

EasySmartControl

Running

App Files Files Community

orztv commited on Oct 20, 2024

Commit

76374ce

1 Parent(s): 37635f4

update

Browse files

Files changed (9) hide show

Dockerfile +10 -3
src/openai-edge-tts.sh +21 -0
src/openai-edge-tts/.env.example +10 -0
src/openai-edge-tts/Dockerfile +11 -0
src/openai-edge-tts/app/server.py +75 -0
src/openai-edge-tts/app/tts_handler.py +74 -0
src/openai-edge-tts/app/utils.py +38 -0
src/openai-edge-tts/requirements.txt +5 -0
src/startup.sh +16 -5

Dockerfile CHANGED Viewed

@@ -4,6 +4,12 @@ ENV USER=pn \
     HOMEDIR=/home/pn \
     PORT=7860 \
     REMIX_NAME=remix-app
 RUN apt-get update && apt-get install -y --no-install-recommends \
     apt-utils \
@@ -17,7 +23,7 @@ RUN apt-get update && apt-get install -y --no-install-recommends \
 WORKDIR ${HOMEDIR}
-# 复制所有脚本文件到工作目录
 COPY src/* ${HOMEDIR}/
 # 给所有 .sh 文件添加执行权限
@@ -25,8 +31,9 @@ RUN chmod +x ${HOMEDIR}/*.sh
 # 运行 setup.sh、sshx.sh 和 remix.sh
 RUN ${HOMEDIR}/setup.sh \
-    && ${HOMEDIR}/remix.sh \
-    && ${HOMEDIR}/sshx.sh
 # 暴露 Remix 端口
 EXPOSE ${PORT}

     HOMEDIR=/home/pn \
     PORT=7860 \
     REMIX_NAME=remix-app
+    SSHX_INSTALL=true
+# 以下2选1，不然端口冲突
+ENV OPENAI_EDGE_TTS_INSTALL=true \
+    REMIX_INSTALL=false
 RUN apt-get update && apt-get install -y --no-install-recommends \
     apt-utils \
 WORKDIR ${HOMEDIR}
+# 复制src文件夹下的所有文件夹及文件到工作目录
 COPY src/* ${HOMEDIR}/
 # 给所有 .sh 文件添加执行权限
 # 运行 setup.sh、sshx.sh 和 remix.sh
 RUN ${HOMEDIR}/setup.sh \
+    && if [ "$REMIX_INSTALL" = true ]; then ${HOMEDIR}/remix.sh; fi \
+    && if [ "$SSHX_INSTALL" = true ]; then ${HOMEDIR}/sshx.sh; fi \
+    && if [ "$OPENAI_EDGE_TTS_INSTALL" = true ]; then ${HOMEDIR}/openai-edge-tts.sh; fi
 # 暴露 Remix 端口
 EXPOSE ${PORT}

src/openai-edge-tts.sh ADDED Viewed

	@@ -0,0 +1,21 @@

+#!/bin/sh
+set -e
+echo "开始安装 openai-edge-tts..."
+cp -r /tmp/openai-edge-tts $HOMEDIR/openai-edge-tts
+#检查openai-edge-tts文件夹是否存在
+if [ ! -d "$HOMEDIR/openai-edge-tts" ]; then
+    echo "openai-edge-tts文件夹不存在"
+    exit 1
+fi
+# 进入openai-edge-tts文件夹并安装依赖
+cd $HOMEDIR/openai-edge-tts
+pip install -r requirements.txt
+# .env 文件
+cp .env.example .env
+echo "openai-edge-tts安装完成"

src/openai-edge-tts/.env.example ADDED Viewed

	@@ -0,0 +1,10 @@

+API_KEY=your_api_key_here
+PORT=7860
+DEFAULT_VOICE=en-US-AndrewNeural
+DEFAULT_RESPONSE_FORMAT=mp3
+DEFAULT_SPEED=1.0
+DEFAULT_LANGUAGE=en-US
+REQUIRE_API_KEY=True

src/openai-edge-tts/Dockerfile ADDED Viewed

	@@ -0,0 +1,11 @@

+# Dockerfile
+FROM python:3.12-slim
+WORKDIR /app
+COPY requirements.txt /app
+RUN pip install -r requirements.txt
+COPY app/ /app
+CMD ["python", "server.py"]

src/openai-edge-tts/app/server.py ADDED Viewed

	@@ -0,0 +1,75 @@

+# server.py
+from flask import Flask, request, send_file, jsonify
+from gevent.pywsgi import WSGIServer
+from dotenv import load_dotenv
+import os
+from tts_handler import generate_speech, get_models, get_voices
+from utils import require_api_key, AUDIO_FORMAT_MIME_TYPES
+app = Flask(__name__)
+load_dotenv()
+API_KEY = os.getenv('API_KEY', 'your_api_key_here')
+PORT = int(os.getenv('PORT', 5050))
+DEFAULT_VOICE = os.getenv('DEFAULT_VOICE', 'en-US-AndrewNeural')
+DEFAULT_RESPONSE_FORMAT = os.getenv('DEFAULT_RESPONSE_FORMAT', 'mp3')
+DEFAULT_SPEED = float(os.getenv('DEFAULT_SPEED', 1.0))
+# DEFAULT_MODEL = os.getenv('DEFAULT_MODEL', 'tts-1')
+@app.route('/v1/audio/speech', methods=['POST'])
+@require_api_key
+def text_to_speech():
+    data = request.json
+    if not data or 'input' not in data:
+        return jsonify({"error": "Missing 'input' in request body"}), 400
+    text = data.get('input')
+    # model = data.get('model', DEFAULT_MODEL)
+    voice = data.get('voice', DEFAULT_VOICE)
+    response_format = data.get('response_format', DEFAULT_RESPONSE_FORMAT)
+    speed = float(data.get('speed', DEFAULT_SPEED))
+    mime_type = AUDIO_FORMAT_MIME_TYPES.get(response_format, "audio/mpeg")
+    # Generate the audio file in the specified format with speed adjustment
+    output_file_path = generate_speech(text, voice, response_format, speed)
+    # Return the file with the correct MIME type
+    return send_file(output_file_path, mimetype=mime_type, as_attachment=True, download_name=f"speech.{response_format}")
+@app.route('/v1/models', methods=['GET', 'POST'])
+@require_api_key
+def list_models():
+    return jsonify({"data": get_models()})
+@app.route('/v1/voices', methods=['GET', 'POST'])
+@require_api_key
+def list_voices():
+    specific_language = None
+    data = request.args if request.method == 'GET' else request.json
+    if data and ('language' in data or 'locale' in data):
+        specific_language = data.get('language') if 'language' in data else data.get('locale')
+    return jsonify({"voices": get_voices(specific_language)})
+@app.route('/v1/voices/all', methods=['GET', 'POST'])
+@require_api_key
+def list_all_voices():
+    return jsonify({"voices": get_voices('all')})
+print(f" Edge TTS (Free Azure TTS) Replacement for OpenAI's TTS API")
+print(f" ")
+print(f" * Serving OpenAI Edge TTS")
+print(f" * Server running on http://localhost:{PORT}")
+print(f" * TTS Endpoint: http://localhost:{PORT}/v1/audio/speech")
+print(f" ")
+if __name__ == '__main__':
+    http_server = WSGIServer(('0.0.0.0', PORT), app)
+    http_server.serve_forever()

src/openai-edge-tts/app/tts_handler.py ADDED Viewed

	@@ -0,0 +1,74 @@

+# tts_handler.py
+import edge_tts
+import asyncio
+import tempfile
+import subprocess
+import os
+# Language default (environment variable)
+DEFAULT_LANGUAGE = os.getenv('DEFAULT_LANGUAGE', 'en-US')
+# OpenAI voice names mapped to edge-tts equivalents
+voice_mapping = {
+    'alloy': 'en-US-AvaNeural',
+    'echo': 'en-US-AndrewNeural',
+    'fable': 'en-GB-SoniaNeural',
+    'onyx': 'en-US-EricNeural',
+    'nova': 'en-US-SteffanNeural',
+    'shimmer': 'en-US-EmmaNeural'
+}
+async def _generate_audio(text, voice, response_format, speed):
+    # Determine if the voice is an OpenAI-compatible voice or a direct edge-tts voice
+    edge_tts_voice = voice_mapping.get(voice, voice)  # Use mapping if in OpenAI names, otherwise use as-is
+    # Generate the TTS output in mp3 format first
+    temp_output_file = tempfile.NamedTemporaryFile(delete=False, suffix=".mp3")
+    communicator = edge_tts.Communicate(text, edge_tts_voice)
+    await communicator.save(temp_output_file.name)
+    # If the requested format is mp3 and speed is 1.0, return the generated file directly
+    if response_format == "mp3" and speed == 1.0:
+        return temp_output_file.name
+    # Convert to the requested format if not mp3 or if speed adjustment is needed
+    converted_output_file = tempfile.NamedTemporaryFile(delete=False, suffix=f".{response_format}")
+    # ffmpeg playback speed adjustment
+    speed_filter = f"atempo={speed}" if response_format != "pcm" else f"asetrate=44100*{speed},aresample=44100"
+    ffmpeg_command = [
+        "ffmpeg", "-i", temp_output_file.name,
+        "-filter:a", speed_filter,  # Apply speed adjustment
+        "-f", response_format, "-y",
+        converted_output_file.name
+    ]
+    try:
+        subprocess.run(ffmpeg_command, check=True)
+    except subprocess.CalledProcessError as e:
+        raise RuntimeError(f"Error in audio conversion: {e}")
+    return converted_output_file.name
+def generate_speech(text, voice, response_format, speed=1.0):
+    return asyncio.run(_generate_audio(text, voice, response_format, speed))
+def get_models():
+    return [
+        {"id": "tts-1", "name": "Text-to-speech v1"},
+        {"id": "tts-1-hd", "name": "Text-to-speech v1 HD"}
+    ]
+async def _get_voices(language=None):
+    # List all voices, filter by language if specified
+    all_voices = await edge_tts.list_voices()
+    language = language or DEFAULT_LANGUAGE  # Use default if no language specified
+    filtered_voices = [
+        {"name": v['ShortName'], "gender": v['Gender'], "language": v['Locale']}
+        for v in all_voices if language == 'all' or language is None or v['Locale'] == language
+    ]
+    return filtered_voices
+def get_voices(language=None):
+    return asyncio.run(_get_voices(language))

src/openai-edge-tts/app/utils.py ADDED Viewed

	@@ -0,0 +1,38 @@

+# utils.py
+from flask import request, jsonify
+from functools import wraps
+import os
+from dotenv import load_dotenv
+load_dotenv()
+def getenv_bool(name: str, default: bool = False) -> bool:
+    return os.getenv(name, str(default)).lower() in ("yes", "y", "true", "1", "t")
+API_KEY = os.getenv('API_KEY', 'your_api_key_here')
+REQUIRE_API_KEY = getenv_bool('REQUIRE_API_KEY', True)
+def require_api_key(f):
+    @wraps(f)
+    def decorated_function(*args, **kwargs):
+        if not REQUIRE_API_KEY:
+            return f(*args, **kwargs)
+        auth_header = request.headers.get('Authorization')
+        if not auth_header or not auth_header.startswith('Bearer '):
+            return jsonify({"error": "Missing or invalid API key"}), 401
+        token = auth_header.split('Bearer ')[1]
+        if token != API_KEY:
+            return jsonify({"error": "Invalid API key"}), 401
+        return f(*args, **kwargs)
+    return decorated_function
+# Mapping of audio format to MIME type
+AUDIO_FORMAT_MIME_TYPES = {
+    "mp3": "audio/mpeg",
+    "opus": "audio/ogg",
+    "aac": "audio/aac",
+    "flac": "audio/flac",
+    "wav": "audio/wav",
+    "pcm": "audio/L16"
+}

src/openai-edge-tts/requirements.txt ADDED Viewed

	@@ -0,0 +1,5 @@

+flask
+gevent
+python-dotenv
+edge-tts
+art

src/startup.sh CHANGED Viewed

@@ -1,11 +1,22 @@
 #!/bin/sh
-# 使用 PM2 启动 Remix 应用，并传递 PORT 环境变量
-cd ${HOMEDIR}/${REMIX_NAME}
-pm2 start ecosystem.config.cjs
-pm2 save
 # 只输出日志
-pm2 logs my-remix-app --lines 50
 cd ${HOMEDIR}

 #!/bin/sh
+# 检查REMIX_INSTALL是否为true
+if [ "$REMIX_INSTALL" = true ]; then
+    # 使用 PM2 启动 Remix 应用，并传递 PORT 环境变量
+    cd ${HOMEDIR}/${REMIX_NAME}
+    pm2 start ecosystem.config.cjs
+    pm2 save
+fi
+# 检查SSHX_INSTALL是否为true
+# 检查 OPENAI_EDGE_TTS_INSTALL是否为true
+if [ "$OPENAI_EDGE_TTS_INSTALL" = true ]; then
+    pm2 start python ${HOMEDIR}/openai-edge-tts/app/server.py --name openai-edge-tts
+    pm2 save
+fi
 # 只输出日志
+pm2 logs --lines 50
 cd ${HOMEDIR}