Flux.1-Fill-dev

Running on Zero

vilarin commited on Jul 9, 2024

Commit

42681ce

verified ·

1 Parent(s): 6b07afa

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -98,7 +98,7 @@ def launch():
     OLLAMA_SERVICE_THREAD = threading.Thread(target=ollama_service_thread)
     OLLAMA_SERVICE_THREAD.start()
     print("Giving ollama serve a moment")
-    time.sleep(15)
 @spaces.GPU()
 async def stream_chat(message: str, history: list, model: str, temperature: float, max_new_tokens: int, top_p: float, top_k: int, penalty: float):
@@ -111,31 +111,31 @@ async def stream_chat(message: str, history: list, model: str, temperature: floa
             {"role": "user", "content": prompt},
             {"role": "assistant", "content": answer},
         ])
-        conversation.append({"role": "user", "content": message})
-        print(f"Conversation is -\n{conversation}")
-        response = client.chat(
-            model=model,
-            stream=True,
-            messages=conversation,
-            keep_alive="60s",
-            options={
-                'num_predict': max_new_tokens,
-                'temperature': temperature,
-                'top_p': top_p,
-                'top_k': top_k,
-                'repeat_penalty': penalty,
-                'low_vram': True,
-            },
-        )
-        print(response)
-        buffer = ""
-        for chunk in response:
-            buffer += chunk["message"]["content"]
-            yield buffer
 async def main(message: str, history: list, model: str, temperature: float, max_new_tokens: int, top_p: float, top_k: int, penalty: float):

     OLLAMA_SERVICE_THREAD = threading.Thread(target=ollama_service_thread)
     OLLAMA_SERVICE_THREAD.start()
     print("Giving ollama serve a moment")
+    time.sleep(10)
 @spaces.GPU()
 async def stream_chat(message: str, history: list, model: str, temperature: float, max_new_tokens: int, top_p: float, top_k: int, penalty: float):
             {"role": "user", "content": prompt},
             {"role": "assistant", "content": answer},
         ])
+    conversation.append({"role": "user", "content": message})
+    print(f"Conversation is -\n{conversation}")
+    response = client.chat(
+        model=model,
+        stream=True,
+        messages=conversation,
+        keep_alive="60s",
+        options={
+            'num_predict': max_new_tokens,
+            'temperature': temperature,
+            'top_p': top_p,
+            'top_k': top_k,
+            'repeat_penalty': penalty,
+            'low_vram': True,
+        },
+    )
+    print(response)
+    buffer = ""
+    for chunk in response:
+        buffer += chunk["message"]["content"]
+        yield buffer
 async def main(message: str, history: list, model: str, temperature: float, max_new_tokens: int, top_p: float, top_k: int, penalty: float):