voicechat

Running

App Files Files Community

seawolf2357 commited on Mar 2

Commit

868c0a3

verified ·

1 Parent(s): c909595

Update app.py

Browse files

Files changed (1) hide show

app.py +63 -30

app.py CHANGED Viewed

@@ -18,9 +18,15 @@ from fastrtc import (
 )
 from gradio.utils import get_space
 from openai.types.beta.realtime import ResponseAudioTranscriptDoneEvent
 load_dotenv()
 cur_dir = Path(__file__).parent
 SAMPLE_RATE = 24000
@@ -49,44 +55,71 @@ class OpenAIHandler(AsyncStreamHandler):
     ):
         """Connect to realtime API. Run forever in separate thread to keep connection open."""
         self.client = openai.AsyncOpenAI()
-        async with self.client.beta.realtime.connect(
-            model="gpt-4o-mini-realtime-preview-2024-12-17"
-        ) as conn:
-            await conn.session.update(
-                session={
-                    "turn_detection": {"type": "server_vad"},
-                    "system_prompt": self.system_prompt
-                }
-            )
-            self.connection = conn
-            async for event in self.connection:
-                if event.type == "response.audio_transcript.done":
-                    await self.output_queue.put(AdditionalOutputs(event))
-                if event.type == "response.audio.delta":
-                    await self.output_queue.put(
-                        (
-                            self.output_sample_rate,
-                            np.frombuffer(
-                                base64.b64decode(event.delta), dtype=np.int16
-                            ).reshape(1, -1),
-                        ),
-                    )
     async def receive(self, frame: tuple[int, np.ndarray]) -> None:
         if not self.connection:
             return
-        _, array = frame
-        array = array.squeeze()
-        audio_message = base64.b64encode(array.tobytes()).decode("utf-8")
-        await self.connection.input_audio_buffer.append(audio=audio_message)  # type: ignore
     async def emit(self) -> tuple[int, np.ndarray] | AdditionalOutputs | None:
-        return await wait_for_item(self.output_queue)
     async def shutdown(self) -> None:
         if self.connection:
-            await self.connection.close()
-            self.connection = None
 def update_chatbot(chatbot: list[dict], response: ResponseAudioTranscriptDoneEvent):
@@ -97,7 +130,7 @@ def update_chatbot(chatbot: list[dict], response: ResponseAudioTranscriptDoneEve
 chatbot = gr.Chatbot(type="messages")
 latest_message = gr.Textbox(type="text", visible=False)
 stream = Stream(
-    OpenAIHandler(system_prompt="당신은 친절한 한국어 AI 비서입니다. 너의 이름은 '비드래프��'입니다. 모든 질문에 한국어로 간결하고 명확하게, 항상 존댓말로 답변하세요."),
     mode="send-receive",
     modality="audio",
     additional_inputs=[chatbot],

 )
 from gradio.utils import get_space
 from openai.types.beta.realtime import ResponseAudioTranscriptDoneEvent
+import websockets.exceptions
+import logging
 load_dotenv()
+# 로깅 설정
+logging.basicConfig(level=logging.INFO)
+logger = logging.getLogger(__name__)
 cur_dir = Path(__file__).parent
 SAMPLE_RATE = 24000
     ):
         """Connect to realtime API. Run forever in separate thread to keep connection open."""
         self.client = openai.AsyncOpenAI()
+        try:
+            async with self.client.beta.realtime.connect(
+                model="gpt-4o-mini-realtime-preview-2024-12-17"
+            ) as conn:
+                await conn.session.update(
+                    session={
+                        "turn_detection": {"type": "server_vad"},
+                        "system_prompt": self.system_prompt
+                    }
+                )
+                self.connection = conn
+                async for event in self.connection:
+                    if event.type == "response.audio_transcript.done":
+                        await self.output_queue.put(AdditionalOutputs(event))
+                    if event.type == "response.audio.delta":
+                        await self.output_queue.put(
+                            (
+                                self.output_sample_rate,
+                                np.frombuffer(
+                                    base64.b64decode(event.delta), dtype=np.int16
+                                ).reshape(1, -1),
+                            ),
+                        )
+        except Exception as e:
+            logger.error(f"Error in start_up: {e}")
+            if self.connection:
+                await self.connection.close()
+                self.connection = None
     async def receive(self, frame: tuple[int, np.ndarray]) -> None:
         if not self.connection:
+            logger.warning("No connection available")
             return
+        try:
+            _, array = frame
+            array = array.squeeze()
+            audio_message = base64.b64encode(array.tobytes()).decode("utf-8")
+            await self.connection.input_audio_buffer.append(audio=audio_message)  # type: ignore
+        except websockets.exceptions.ConnectionClosedOK:
+            logger.info("WebSocket connection closed normally")
+            # 정상적인 종료는 무시하고 넘어감
+        except Exception as e:
+            logger.error(f"Error in receive: {e}")
+            if self.connection:
+                try:
+                    await self.connection.close()
+                except:
+                    pass
+                self.connection = None
     async def emit(self) -> tuple[int, np.ndarray] | AdditionalOutputs | None:
+        try:
+            return await wait_for_item(self.output_queue)
+        except Exception as e:
+            logger.error(f"Error in emit: {e}")
+            return None
     async def shutdown(self) -> None:
         if self.connection:
+            try:
+                await self.connection.close()
+            except Exception as e:
+                logger.error(f"Error closing connection: {e}")
+            finally:
+                self.connection = None
 def update_chatbot(chatbot: list[dict], response: ResponseAudioTranscriptDoneEvent):
 chatbot = gr.Chatbot(type="messages")
 latest_message = gr.Textbox(type="text", visible=False)
 stream = Stream(
+    OpenAIHandler(system_prompt="당신은 친절한 한국어 AI 비서 '마우스'입니다. 모든 질문에 한국어로 간결하고 명확하게, 항상 존댓말로 답변하세요."),
     mode="send-receive",
     modality="audio",
     additional_inputs=[chatbot],