Spaces:

Justtalk
/

JusTalk

Running

App Files Files Community

rein0421 commited on Mar 21

Commit

77591a2

verified ·

1 Parent(s): 6cfbac7

Upload 10 files

Browse files

Files changed (6) hide show

.gitattributes +37 -37
Dockerfile +22 -22
README.md +10 -10
app.py +116 -94
process.py +184 -184
requirements.txt +19 -19

.gitattributes CHANGED Viewed

@@ -1,37 +1,37 @@
-*.7z filter=lfs diff=lfs merge=lfs -text
-*.arrow filter=lfs diff=lfs merge=lfs -text
-*.bin filter=lfs diff=lfs merge=lfs -text
-*.bz2 filter=lfs diff=lfs merge=lfs -text
-*.ckpt filter=lfs diff=lfs merge=lfs -text
-*.ftz filter=lfs diff=lfs merge=lfs -text
-*.gz filter=lfs diff=lfs merge=lfs -text
-*.h5 filter=lfs diff=lfs merge=lfs -text
-*.joblib filter=lfs diff=lfs merge=lfs -text
-*.lfs.* filter=lfs diff=lfs merge=lfs -text
-*.mlmodel filter=lfs diff=lfs merge=lfs -text
-*.model filter=lfs diff=lfs merge=lfs -text
-*.msgpack filter=lfs diff=lfs merge=lfs -text
-*.npy filter=lfs diff=lfs merge=lfs -text
-*.npz filter=lfs diff=lfs merge=lfs -text
-*.onnx filter=lfs diff=lfs merge=lfs -text
-*.ot filter=lfs diff=lfs merge=lfs -text
-*.parquet filter=lfs diff=lfs merge=lfs -text
-*.pb filter=lfs diff=lfs merge=lfs -text
-*.pickle filter=lfs diff=lfs merge=lfs -text
-*.pkl filter=lfs diff=lfs merge=lfs -text
-*.pt filter=lfs diff=lfs merge=lfs -text
-*.pth filter=lfs diff=lfs merge=lfs -text
-*.rar filter=lfs diff=lfs merge=lfs -text
-*.safetensors filter=lfs diff=lfs merge=lfs -text
-saved_model/**/* filter=lfs diff=lfs merge=lfs -text
-*.tar.* filter=lfs diff=lfs merge=lfs -text
-*.tar filter=lfs diff=lfs merge=lfs -text
-*.tflite filter=lfs diff=lfs merge=lfs -text
-*.tgz filter=lfs diff=lfs merge=lfs -text
-*.wasm filter=lfs diff=lfs merge=lfs -text
-*.xz filter=lfs diff=lfs merge=lfs -text
-*.zip filter=lfs diff=lfs merge=lfs -text
-*.zst filter=lfs diff=lfs merge=lfs -text
-*tfevents* filter=lfs diff=lfs merge=lfs -text
-segment_0[[:space:]](2).wav filter=lfs diff=lfs merge=lfs -text
-sample.wav filter=lfs diff=lfs merge=lfs -text

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
+segment_0[[:space:]](2).wav filter=lfs diff=lfs merge=lfs -text
+sample.wav filter=lfs diff=lfs merge=lfs -text

Dockerfile CHANGED Viewed

@@ -1,23 +1,23 @@
-FROM nvidia/cuda:12.1.1-cudnn8-devel-ubuntu22.04
-# タイムゾーン設定
-RUN ln -sf /usr/share/zoneinfo/Asia/Tokyo /etc/localtime
-# Python3、pip、ffmpegをインストール
-RUN apt-get update && \
-    apt-get install -y python3 python3-pip ffmpeg && \
-    rm -rf /var/lib/apt/lists/*
-# pipを最新版にアップグレード
-RUN python3 -m pip install --upgrade pip
-WORKDIR /app
-# requirements.txt をコンテナ内にコピーして、必要なパッケージをインストール
-COPY requirements.txt /app/
-RUN python3 -m pip install --no-cache-dir -r requirements.txt
-COPY . .
 CMD ["python3", "app.py"]

+FROM nvidia/cuda:12.1.1-cudnn8-devel-ubuntu22.04
+# タイムゾーン設定
+RUN ln -sf /usr/share/zoneinfo/Asia/Tokyo /etc/localtime
+# Python3、pip、ffmpegをインストール
+RUN apt-get update && \
+    apt-get install -y python3 python3-pip ffmpeg && \
+    rm -rf /var/lib/apt/lists/*
+# pipを最新版にアップグレード
+RUN python3 -m pip install --upgrade pip
+WORKDIR /app
+# requirements.txt をコンテナ内にコピーして、必要なパッケージをインストール
+COPY requirements.txt /app/
+RUN python3 -m pip install --no-cache-dir -r requirements.txt
+COPY . .
 CMD ["python3", "app.py"]

README.md CHANGED Viewed

@@ -1,10 +1,10 @@
----
-title: JusTalk
-emoji: ⚡
-colorFrom: gray
-colorTo: blue
-sdk: docker
-pinned: false
----
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

+---
+title: JusTalk
+emoji: ⚡
+colorFrom: gray
+colorTo: blue
+sdk: docker
+pinned: false
+---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

app.py CHANGED Viewed

@@ -1,95 +1,117 @@
-from flask import Flask, request, jsonify, render_template, send_from_directory
-import base64
-from pydub import AudioSegment  # 変換用にpydubをインポート
-import os
-import shutil
-from process import AudioProcessor
-process=AudioProcessor()
-app = Flask(__name__)
-users = ["ccc"]
-# トップページ（テンプレート: index.html）
-@app.route('/')
-@app.route('/index', methods=['GET', 'POST'])
-def index():
-    return render_template('index.html', users = users)
-# フィードバック画面（テンプレート: feedback.html）
-@app.route('/feedback', methods=['GET', 'POST'])
-def feedback():
-    return render_template('feedback.html')
-# 会話詳細画面（テンプレート: talkDetail.html）
-@app.route('/talk_detail', methods=['GET', 'POST'])
-def talk_detail():
-    return render_template('talkDetail.html')
-# 音声登録画面（テンプレート: userRegister.html）
-@app.route('/userregister', methods=['GET', 'POST'])
-def userregister():
-    return render_template('userRegister.html')
-# 音声アップロード＆解析エンドポイント
-@app.route('/upload_audio', methods=['POST'])
-def upload_audio():
-    try:
-        data = request.get_json()
-        if not data or 'audio_data' not in data or 'name' not in data:
-            return jsonify({"error": "音声データまたは名前がありません"}), 400
-        # Base64デコードして音声バイナリを取得
-        audio_binary = base64.b64decode(data['audio_data'])
-        name = data['name']  # 名前を取得
-        audio_dir = "/tmp/data"
-        os.makedirs(audio_dir, exist_ok=True)
-        # 固定ファイル名（必要に応じて generate_filename() で一意のファイル名に変更可能）
-        audio_path = os.path.join(audio_dir, f"{name}.wav")
-        with open(audio_path, 'wb') as f:
-            f.write(audio_binary)
-        # 参照音声ファイルのパスを指定（sample.wav を正しい場所に配置すること）
-        reference_audio = os.path.abspath("/tmp/data/base_audio/",  f"{name}.wav")
-        if not os.path.exists(reference_audio):
-            return jsonify({"error": "参照音声ファイルが見つかりません", "details": reference_audio}), 500
-        # 音声解析：参照音声とアップロードされた音声との類似度をセグメント毎に計算
-        # threshold の値は調整可能です（例: 0.1）
-        if(users.length > 2):
-            print("複数人の場合の処理")
-        else:
-            matched_time, unmatched_time = process.process_audio(reference_audio, audio_path, threshold=0.05)
-            total_time = matched_time + unmatched_time
-            rate = (matched_time / total_time) * 100 if total_time > 0 else 0
-        return jsonify({"rate": rate}), 200
-    except Exception as e:
-        print("Error in /upload_audio:", str(e))
-        return jsonify({"error": "サーバーエラー", "details": str(e)}), 500
-@app.route('/upload_base_audio', methods=['POST'])
-def upload_base_audio():
-    try:
-        data = request.get_json()
-        if not data or 'audio_data' not in data or 'name' not in data:
-            return jsonify({"error": "音声データまたは名前がありません"}), 400
-        name = data['name']  # 名前を取得
-        users.append(name)
-        audio_path=process.save_audio_from_base64(
-            base64_audio=data['audio_data'],    # 音声データ
-            output_dir= "/tmp/data",    #保存先
-            output_filename=f"{name}.wav"    # 固定ファイル名（必要に応じて generate_filename() で一意のファイル名に変更可能）
-        )
-        return jsonify({"state": "Registration Success!", "path": audio_path}), 200
-    except Exception as e:
-        print("Error in /upload_base_audio:", str(e))
-        return jsonify({"error": "サーバーエラー", "details": str(e)}), 500
-if __name__ == '__main__':
-    port = int(os.environ.get("PORT", 7860))
     app.run(debug=True, host="0.0.0.0", port=port)

+from flask import Flask, request, jsonify, render_template, send_from_directory
+import base64
+from pydub import AudioSegment  # 変換用にpydubをインポート
+import os
+import shutil
+from process import AudioProcessor
+process=AudioProcessor()
+app = Flask(__name__)
+users = []
+# トップページ（テンプレート: index.html）
+@app.route('/')
+@app.route('/index', methods=['GET', 'POST'])
+def index():
+    return render_template('index.html', users = users)
+# フィードバック画面（テンプレート: feedback.html）
+@app.route('/feedback', methods=['GET', 'POST'])
+def feedback():
+    return render_template('feedback.html')
+# 会話詳細画面（テンプレート: talkDetail.html）
+@app.route('/talk_detail', methods=['GET', 'POST'])
+def talk_detail():
+    return render_template('talkDetail.html')
+# 音声登録画面（テンプレート: userRegister.html）
+@app.route('/userregister', methods=['GET', 'POST'])
+def userregister():
+    return render_template('userRegister.html')
+#人数確認
+@app.route('/confirm', methods=['GET'])  # 基本的にGETで取得する想定なので、GETのみに変更
+def confirm():
+    return jsonify({'members': users}), 200
+# 音声アップロード＆解析エンドポイント
+@app.route('/upload_audio', methods=['POST'])
+def upload_audio():
+    try:
+        data = request.get_json()
+        # name か users のいずれかが必須。どちらも無い場合はエラー
+        if not data or 'audio_data' not in data or ('name' not in data and 'users' not in data):
+            return jsonify({"error": "音声データまたは名前がありません"}), 400
+        # Base64デコードして音声バイナリを取得
+        audio_binary = base64.b64decode(data['audio_data'])
+        upload_name = 'tmp'
+        audio_dir = "/tmp/data"
+        os.makedirs(audio_dir, exist_ok=True)
+        audio_path = os.path.join(audio_dir, f"{upload_name}.wav")
+        with open(audio_path, 'wb') as f:
+            f.write(audio_binary)
+        print(users)
+        # 各ユーザーの参照音声ファイルのパスをリストに格納
+        reference_paths = []
+        base_audio_dir = "/tmp/data/base_audio"
+        for user in users:
+            ref_path = os.path.abspath(os.path.join(base_audio_dir, f"{user}.wav"))
+            if not os.path.exists(ref_path):
+                return jsonify({"error": "参照音声ファイルが見つかりません", "details": ref_path}), 500
+            reference_paths.append(ref_path)
+        # 複数人の場合は参照パスのリストを、1人の場合は単一のパスを渡す
+        if len(users) > 1:
+            print("複数人の場合の処理")
+            matched_time, unmatched_time = process.process_multi_audio(reference_paths, audio_path, threshold=0.05)
+        else:
+            matched_time, unmatched_time = process.process_audio(reference_paths[0], audio_path, threshold=0.05)
+        total_time = matched_time + unmatched_time
+        rate = (matched_time / total_time) * 100 if total_time > 0 else 0
+        return jsonify({"rate": rate}), 200
+    except Exception as e:
+        print("Error in /upload_audio:", str(e))
+        return jsonify({"error": "サーバーエラー", "details": str(e)}), 500
+@app.route('/reset', methods=['GET'])
+def reset():
+    global users
+    users=[]
+    return 200
+@app.route('/upload_base_audio', methods=['POST'])
+def upload_base_audio():
+    global users#グローバル変数を編集できるようにする
+    try:
+        data = request.get_json()
+        if not data or 'audio_data' not in data or 'name' not in data:
+            return jsonify({"error": "音声データまたは名前がありません"}), 400
+        name = data['name']  # 名前を取得
+        print(name)
+        users.append(name)
+        users=list(set(users))#重複排除
+        print(users)
+        audio_path=process.save_audio_from_base64(
+            base64_audio=data['audio_data'],    # 音声データ
+            output_dir= "/tmp/data/base_audio",    #保存先
+            output_filename=f"{name}.wav"    # 固定ファイル名（必要に応じて generate_filename() で一意のファイル名に変更可能）
+        )
+        return jsonify({"state": "Registration Success!", "path": audio_path}), 200
+    except Exception as e:
+        print("Error in /upload_base_audio:", str(e))
+        return jsonify({"error": "サーバーエラー", "details": str(e)}), 500
+if __name__ == '__main__':
+    port = int(os.environ.get("PORT", 7860))
     app.run(debug=True, host="0.0.0.0", port=port)

process.py CHANGED Viewed

@@ -1,185 +1,185 @@
-import os
-import shutil
-import numpy as np
-import string
-import random
-from datetime import datetime
-from pyannote.audio import Model, Inference
-from pydub import AudioSegment
-import base64
-import binascii
-class AudioProcessor():
-    def __init__(self,cache_dir = "/tmp/hf_cache"):
-        hf_token = os.environ.get("HF")
-        if hf_token is None:
-            raise ValueError("HUGGINGFACE_HUB_TOKEN が設定されていません。")
-        os.makedirs(cache_dir, exist_ok=True)
-        # pyannote モデルの読み込み
-        model = Model.from_pretrained("pyannote/embedding", use_auth_token=hf_token, cache_dir=cache_dir)
-        self.inference = Inference(model)
-    def cosine_similarity(self,vec1, vec2):
-        vec1 = vec1 / np.linalg.norm(vec1)
-        vec2 = vec2 / np.linalg.norm(vec2)
-        return np.dot(vec1, vec2)
-    def segment_audio(self, path, target_path='/tmp/setup_voice', seg_duration=1.0):
-        # 出力先ディレクトリが存在していれば中身をクリアする
-        if os.path.exists(target_path):
-            for file in os.listdir(target_path):
-                file_path = os.path.join(target_path, file)
-                if os.path.isfile(file_path):
-                    os.remove(file_path)
-        else:
-            os.makedirs(target_path, exist_ok=True)
-        base_sound = AudioSegment.from_file(path)
-        duration_ms = len(base_sound)
-        seg_duration_ms = int(seg_duration * 1000)
-        for i, start in enumerate(range(0, duration_ms, seg_duration_ms)):
-            end = min(start + seg_duration_ms, duration_ms)
-            segment = base_sound[start:end]
-            # セグメントが指定長さに満たない場合、無音でパディングする
-            if len(segment) < seg_duration_ms:
-                silence = AudioSegment.silent(duration=(seg_duration_ms - len(segment)))
-                segment = segment + silence
-            segment.export(os.path.join(target_path, f'{i}.wav'), format="wav")
-        return target_path, duration_ms
-    def calculate_similarity(self,path1, path2):
-        embedding1 = self.inference(path1)
-        embedding2 = self.inference(path2)
-        return float(self.cosine_similarity(embedding1.data.flatten(), embedding2.data.flatten()))
-    def generate_random_string(self,length):
-        letters = string.ascii_letters + string.digits
-        return ''.join(random.choice(letters) for i in range(length))
-    def generate_filename(self,random_length):
-        random_string = self.generate_random_string(random_length)
-        current_time = datetime.now().strftime("%Y%m%d%H%M%S")
-        filename = f"{current_time}_{random_string}.wav"
-        return filename
-    def process_audio(self, reference_path, input_path, output_folder='/tmp/data/matched_segments', seg_duration=1.0, threshold=0.5):
-        # 出力先ディレクトリの中身をクリアする
-        if os.path.exists(output_folder):
-            for file in os.listdir(output_folder):
-                file_path = os.path.join(output_folder, file)
-                if os.path.isfile(file_path):
-                    os.remove(file_path)
-        else:
-            os.makedirs(output_folder, exist_ok=True)
-        segmented_path, total_duration_ms = self.segment_audio(input_path, seg_duration=seg_duration)
-        matched_time_ms = 0
-        for file in sorted(os.listdir(segmented_path)):
-            segment_file = os.path.join(segmented_path, file)
-            similarity = self.calculate_similarity(segment_file, reference_path)
-            if similarity > threshold:
-                shutil.copy(segment_file, output_folder)
-                matched_time_ms += len(AudioSegment.from_file(segment_file))
-        unmatched_time_ms = total_duration_ms - matched_time_ms
-        return matched_time_ms, unmatched_time_ms
-    def process_multi_audio(self, reference_pathes, input_path, output_folder='/tmp/data/matched_multi_segments', seg_duration=1.0, threshold=0.5):
-        # 出力先ディレクトリの中身をクリアする
-        if os.path.exists(output_folder):
-            for file in os.listdir(output_folder):
-                file_path = os.path.join(output_folder, file)
-                if os.path.isfile(file_path):
-                    os.remove(file_path)
-        else:
-            os.makedirs(output_folder, exist_ok=True)
-        # 入力音声をセグメントに分割
-        segmented_path, total_duration_ms = self.segment_audio(input_path, seg_duration=seg_duration)
-        segment_files = sorted(os.listdir(segmented_path))
-        num_segments = len(segment_files)
-        # 各リファレンスごとにセグメントとの類似度を計算し、行列 (rows: reference, columns: segment) を作成
-        similarity = []
-        for reference_path in reference_pathes:
-            ref_similarity = []
-            for file in segment_files:
-                segment_file = os.path.join(segmented_path, file)
-                sim = self.calculate_similarity(segment_file, reference_path)
-                ref_similarity.append(sim)
-            similarity.append(ref_similarity)
-        # 転置行列を作成 (rows: segment, columns: reference)
-        similarity_transposed = []
-        for seg_idx in range(num_segments):
-            seg_sim = []
-            for ref_idx in range(len(reference_pathes)):
-                seg_sim.append(similarity[ref_idx][seg_idx])
-            similarity_transposed.append(seg_sim)
-        # 各セグメントについて、最も高い類似度のリファレンスを選択
-        best_matches = []
-        for seg_sim in similarity_transposed:
-            best_ref = np.argmax(seg_sim)  # 最も類似度の高いリファレンスのインデックス
-            # 閾値チェック (必要に応じて)
-            if seg_sim[best_ref] < threshold:
-                best_matches.append(None)  # 閾値未満の場合はマッチなしとする
-            else:
-                best_matches.append(best_ref)
-        # 各リファレンスごとに一致時間を集計 (セグメントごとの長さ seg_duration を加算)
-        matched_time = [0] * len(reference_pathes)
-        for match in best_matches:
-            if match is not None:
-                matched_time[match] += seg_duration
-        return matched_time
-    def save_audio_from_base64(self,base64_audio,output_dir,output_filename,temp_format='webm'):
-        try:
-            # Base64デコードして音声バイナリを取得
-            try:
-                audio_binary = base64.b64decode(base64_audio)
-            except binascii.Error:
-                raise ValueError("Invalid Base64 input data")
-            # 保存するディレクトリを作成
-            os.makedirs(output_dir,exist_ok=True)
-            # 一時ファイルに保存（実際の形式は WebM などと仮定）
-            temp_audio_path = os.path.join(output_dir,"temp_audio")
-            try:
-                with open(temp_audio_path,'wb') as f:
-                    f.write(audio_binary)
-                # pydub を使って一時ファイルを WAV に変換
-                # ※ここでは WebM 形式と仮定していますが、実際の形式に合わせて format の指定を変更してください
-                try:
-                    audio = AudioSegment.from_file(temp_audio_path,format=temp_format)
-                except Exception as e:
-                    audio = AudioSegment.from_file(temp_audio_path) #形式が不明な場合は自動判別させる（ただし変換できない場合もあり）
-                # 音声ファイルを保存
-                wav_audio_path = os.path.join(output_dir,output_filename)
-                audio.export(wav_audio_path,format="wav")
-            finally:
-                #一時ファイルを削除
-                if os.path.exists(temp_audio_path):
-                    os.remove(temp_audio_path)
-            return wav_audio_path
-        except ValueError as e:
-            print(f"Value Error: {e}")
-        except FileNotFoundError as e:
-            print(f"File Not Found Error: {e}")
-        except Exception as e:
-            print(f"Unexpected Error: {e}")
         return None

+import os
+import shutil
+import numpy as np
+import string
+import random
+from datetime import datetime
+from pyannote.audio import Model, Inference
+from pydub import AudioSegment
+import base64
+import binascii
+class AudioProcessor():
+    def __init__(self,cache_dir = "/tmp/hf_cache"):
+        hf_token = os.environ.get("HF")
+        if hf_token is None:
+            raise ValueError("HUGGINGFACE_HUB_TOKEN が設定されていません。")
+        os.makedirs(cache_dir, exist_ok=True)
+        # pyannote モデルの読み込み
+        model = Model.from_pretrained("pyannote/embedding", use_auth_token=hf_token, cache_dir=cache_dir)
+        self.inference = Inference(model)
+    def cosine_similarity(self,vec1, vec2):
+        vec1 = vec1 / np.linalg.norm(vec1)
+        vec2 = vec2 / np.linalg.norm(vec2)
+        return np.dot(vec1, vec2)
+    def segment_audio(self, path, target_path='/tmp/setup_voice', seg_duration=1.0):
+        # 出力先ディレクトリが存在していれば中身をクリアする
+        if os.path.exists(target_path):
+            for file in os.listdir(target_path):
+                file_path = os.path.join(target_path, file)
+                if os.path.isfile(file_path):
+                    os.remove(file_path)
+        else:
+            os.makedirs(target_path, exist_ok=True)
+        base_sound = AudioSegment.from_file(path)
+        duration_ms = len(base_sound)
+        seg_duration_ms = int(seg_duration * 1000)
+        for i, start in enumerate(range(0, duration_ms, seg_duration_ms)):
+            end = min(start + seg_duration_ms, duration_ms)
+            segment = base_sound[start:end]
+            # セグメントが指定長さに満たない場合、無音でパディングする
+            if len(segment) < seg_duration_ms:
+                silence = AudioSegment.silent(duration=(seg_duration_ms - len(segment)))
+                segment = segment + silence
+            segment.export(os.path.join(target_path, f'{i}.wav'), format="wav")
+        return target_path, duration_ms
+    def calculate_similarity(self,path1, path2):
+        embedding1 = self.inference(path1)
+        embedding2 = self.inference(path2)
+        return float(self.cosine_similarity(embedding1.data.flatten(), embedding2.data.flatten()))
+    def generate_random_string(self,length):
+        letters = string.ascii_letters + string.digits
+        return ''.join(random.choice(letters) for i in range(length))
+    def generate_filename(self,random_length):
+        random_string = self.generate_random_string(random_length)
+        current_time = datetime.now().strftime("%Y%m%d%H%M%S")
+        filename = f"{current_time}_{random_string}.wav"
+        return filename
+    def process_audio(self, reference_path, input_path, output_folder='/tmp/data/matched_segments', seg_duration=1.0, threshold=0.5):
+        # 出力先ディレクトリの中身をクリアする
+        if os.path.exists(output_folder):
+            for file in os.listdir(output_folder):
+                file_path = os.path.join(output_folder, file)
+                if os.path.isfile(file_path):
+                    os.remove(file_path)
+        else:
+            os.makedirs(output_folder, exist_ok=True)
+        segmented_path, total_duration_ms = self.segment_audio(input_path, seg_duration=seg_duration)
+        matched_time_ms = 0
+        for file in sorted(os.listdir(segmented_path)):
+            segment_file = os.path.join(segmented_path, file)
+            similarity = self.calculate_similarity(segment_file, reference_path)
+            if similarity > threshold:
+                shutil.copy(segment_file, output_folder)
+                matched_time_ms += len(AudioSegment.from_file(segment_file))
+        unmatched_time_ms = total_duration_ms - matched_time_ms
+        return matched_time_ms, unmatched_time_ms
+    def process_multi_audio(self, reference_pathes, input_path, output_folder='/tmp/data/matched_multi_segments', seg_duration=1.0, threshold=0.5):
+        # 出力先ディレクトリの中身をクリアする
+        if os.path.exists(output_folder):
+            for file in os.listdir(output_folder):
+                file_path = os.path.join(output_folder, file)
+                if os.path.isfile(file_path):
+                    os.remove(file_path)
+        else:
+            os.makedirs(output_folder, exist_ok=True)
+        # 入力音声をセグメントに分割
+        segmented_path, total_duration_ms = self.segment_audio(input_path, seg_duration=seg_duration)
+        segment_files = sorted(os.listdir(segmented_path))
+        num_segments = len(segment_files)
+        # 各リファレンスごとにセグメントとの類似度を計算し、行列 (rows: reference, columns: segment) を作成
+        similarity = []
+        for reference_path in reference_pathes:
+            ref_similarity = []
+            for file in segment_files:
+                segment_file = os.path.join(segmented_path, file)
+                sim = self.calculate_similarity(segment_file, reference_path)
+                ref_similarity.append(sim)
+            similarity.append(ref_similarity)
+        # 転置行列を作成 (rows: segment, columns: reference)
+        similarity_transposed = []
+        for seg_idx in range(num_segments):
+            seg_sim = []
+            for ref_idx in range(len(reference_pathes)):
+                seg_sim.append(similarity[ref_idx][seg_idx])
+            similarity_transposed.append(seg_sim)
+        # 各セグメントについて、最も高い類似度のリファレンスを選択
+        best_matches = []
+        for seg_sim in similarity_transposed:
+            best_ref = np.argmax(seg_sim)  # 最も類似度の高いリファレンスのインデックス
+            # 閾値チェック (必要に応じて)
+            if seg_sim[best_ref] < threshold:
+                best_matches.append(None)  # 閾値未満の場合はマッチなしとする
+            else:
+                best_matches.append(best_ref)
+        # 各リファレンスごとに一致時間を集計 (セグメントごとの長さ seg_duration を加算)
+        matched_time = [0] * len(reference_pathes)
+        for match in best_matches:
+            if match is not None:
+                matched_time[match] += seg_duration
+        return matched_time
+    def save_audio_from_base64(self,base64_audio,output_dir,output_filename,temp_format='webm'):
+        try:
+            # Base64デコードして音声バイナリ���取得
+            try:
+                audio_binary = base64.b64decode(base64_audio)
+            except binascii.Error:
+                raise ValueError("Invalid Base64 input data")
+            # 保存するディレクトリを作成
+            os.makedirs(output_dir,exist_ok=True)
+            # 一時ファイルに保存（実際の形式は WebM などと仮定）
+            temp_audio_path = os.path.join(output_dir,"temp_audio")
+            try:
+                with open(temp_audio_path,'wb') as f:
+                    f.write(audio_binary)
+                # pydub を使って一時ファイルを WAV に変換
+                # ※ここでは WebM 形式と仮定していますが、実際の形式に合わせて format の指定を変更してください
+                try:
+                    audio = AudioSegment.from_file(temp_audio_path,format=temp_format)
+                except Exception as e:
+                    audio = AudioSegment.from_file(temp_audio_path) #形式が不明な場合は自動判別させる（ただし変換できない場合もあり）
+                # 音声ファイルを保存
+                wav_audio_path = os.path.join(output_dir,output_filename)
+                audio.export(wav_audio_path,format="wav")
+            finally:
+                #一時ファイルを削除
+                if os.path.exists(temp_audio_path):
+                    os.remove(temp_audio_path)
+            return wav_audio_path
+        except ValueError as e:
+            print(f"Value Error: {e}")
+        except FileNotFoundError as e:
+            print(f"File Not Found Error: {e}")
+        except Exception as e:
+            print(f"Unexpected Error: {e}")
         return None

requirements.txt CHANGED Viewed

@@ -1,19 +1,19 @@
-Flask==2.2.5
-Flask-WTF
-pyannote.audio==2.1.1
-numpy==1.23.5
-pydub==0.25.1
-matplotlib==3.6.3
-python-dotenv
-uwsgi
-Flask-SQLAlchemy==3.0.5
-PyMySQL
-Flask-Login==0.6.3
-requests==2.32.3
-google-auth==2.38.0
-google-auth-oauthlib==1.2.1
-google-auth-httplib2==0.2.0
-faster-whisper
-Flask-Migrate
-requests

+Flask==2.2.5
+Flask-WTF
+pyannote.audio==2.1.1
+numpy==1.23.5
+pydub==0.25.1
+matplotlib==3.6.3
+python-dotenv
+uwsgi
+Flask-SQLAlchemy==3.0.5
+PyMySQL
+Flask-Login==0.6.3
+requests==2.32.3
+google-auth==2.38.0
+google-auth-oauthlib==1.2.1
+google-auth-httplib2==0.2.0
+faster-whisper
+Flask-Migrate
+requests