Napoleon_Vision

Build error

App Files Files Community

baconnier commited on Mar 17

Commit

623abec

verified ·

1 Parent(s): caca082

Update app.py

Browse files

Files changed (1) hide show

app.py +17 -43

app.py CHANGED Viewed

@@ -13,7 +13,6 @@ import torch
 import numpy as np
 from PIL import Image
 import cv2
-import translators as ts
 from transformers import (
     AutoModelForCausalLM,
@@ -100,22 +99,8 @@ ENABLE_CPU_OFFLOAD = os.getenv("ENABLE_CPU_OFFLOAD", "0") == "1"
 dtype = torch.float16 if device.type == "cuda" else torch.float32
-# NAPOLEON 4B MULTIMODAL MODEL - Remplacer Gemma3 par Napoleon
-napoleon_model_id = "baconnier/Napoleon_4B_V0.0"
-napoleon_model = AutoModelForCausalLM.from_pretrained(
-    napoleon_model_id, device_map="auto", torch_dtype=torch.bfloat16
-).eval()
-napoleon_processor = AutoProcessor.from_pretrained(napoleon_model_id)
-# Fonction de traduction
-def translate_text(text, target_lang="fr", source_lang="auto"):
-    try:
-        return ts.deepl(text, from_language=source_lang, to_language=target_lang)
-    except:
-        try:
-            return ts.google(text, from_language=source_lang, to_language=target_lang)
-        except:
-            return text  # Retourner le texte original en cas d'échec
 # VIDEO PROCESSING HELPER
 def downsample_video(video_path):
@@ -158,9 +143,6 @@ def generate(
         # Remove the napoleon flag from the prompt.
         prompt_clean = re.sub(r"@napoleon", "", text, flags=re.IGNORECASE).strip().strip('"')
-        # Traduire en français si le texte n'est pas déjà en français
-        prompt_clean_fr = translate_text(prompt_clean, target_lang="fr")
         if files:
             # If image files are provided, load them.
             images = [load_image(f) for f in files]
@@ -168,26 +150,26 @@ def generate(
                 "role": "user",
                 "content": [
                     *[{"type": "image", "image": image} for image in images],
-                    {"type": "text", "text": prompt_clean_fr},
                 ]
             }]
         else:
             messages = [
                 {"role": "system", "content": [{"type": "text", "text": "Vous êtes un assistant utile qui parle français."}]},
-                {"role": "user", "content": [{"type": "text", "text": prompt_clean_fr}]}
             ]
-        inputs = napoleon_processor.apply_chat_template(
             messages, add_generation_prompt=True, tokenize=True,
             return_dict=True, return_tensors="pt"
-        ).to(napoleon_model.device, dtype=torch.bfloat16)
         streamer = TextIteratorStreamer(
-            napoleon_processor.tokenizer, timeout=20.0, skip_prompt=True, skip_special_tokens=True
         )
         generation_kwargs = {
-            **inputs,
             "streamer": streamer,
             "max_new_tokens": max_new_tokens,
             "do_sample": True,
@@ -197,7 +179,7 @@ def generate(
             "repetition_penalty": repetition_penalty,
         }
-        thread = Thread(target=napoleon_model.generate, kwargs=generation_kwargs)
         thread.start()
         buffer = ""
@@ -213,9 +195,6 @@ def generate(
         # Remove the video flag from the prompt.
         prompt_clean = re.sub(r"@video", "", text, flags=re.IGNORECASE).strip().strip('"')
-        # Traduire en français si le texte n'est pas déjà en français
-        prompt_clean_fr = translate_text(prompt_clean, target_lang="fr")
         if files:
             # Assume the first file is a video.
             video_path = files[0]
@@ -223,7 +202,7 @@ def generate(
             messages = [
                 {"role": "system", "content": [{"type": "text", "text": "Vous êtes un assistant utile qui parle français."}]},
-                {"role": "user", "content": [{"type": "text", "text": prompt_clean_fr}]}
             ]
             # Append each frame as an image with a timestamp label.
@@ -236,20 +215,20 @@ def generate(
         else:
             messages = [
                 {"role": "system", "content": [{"type": "text", "text": "Vous êtes un assistant utile qui parle français."}]},
-                {"role": "user", "content": [{"type": "text", "text": prompt_clean_fr}]}
             ]
-        inputs = napoleon_processor.apply_chat_template(
             messages, add_generation_prompt=True, tokenize=True,
             return_dict=True, return_tensors="pt"
-        ).to(napoleon_model.device, dtype=torch.bfloat16)
         streamer = TextIteratorStreamer(
-            napoleon_processor.tokenizer, timeout=20.0, skip_prompt=True, skip_special_tokens=True
         )
         generation_kwargs = {
-            **inputs,
             "streamer": streamer,
             "max_new_tokens": max_new_tokens,
             "do_sample": True,
@@ -259,7 +238,7 @@ def generate(
             "repetition_penalty": repetition_penalty,
         }
-        thread = Thread(target=napoleon_model.generate, kwargs=generation_kwargs)
         thread.start()
         buffer = ""
@@ -298,12 +277,7 @@ def generate(
             time.sleep(0.01)
             yield buffer
     else:
-        # Traduire le texte en français pour Napoleon
-        text_fr = translate_text(text, target_lang="fr")
-        conversation_fr = clean_chat_history(chat_history)
-        conversation_fr.append({"role": "user", "content": text_fr})
-        input_ids = tokenizer.apply_chat_template(conversation_fr, add_generation_prompt=True, return_tensors="pt")
         if input_ids.shape[1] > MAX_INPUT_TOKEN_LENGTH:
             input_ids = input_ids[:, -MAX_INPUT_TOKEN_LENGTH:]
             gr.Warning(f"Texte d'entrée tronqué car plus long que {MAX_INPUT_TOKEN_LENGTH} tokens.")

 import numpy as np
 from PIL import Image
 import cv2
 from transformers import (
     AutoModelForCausalLM,
 dtype = torch.float16 if device.type == "cuda" else torch.float32
+# NAPOLEON 4B MULTIMODAL MODEL - Pour le traitement des images et vidéos
+napoleon_processor = AutoProcessor.from_pretrained(model_id)
 # VIDEO PROCESSING HELPER
 def downsample_video(video_path):
         # Remove the napoleon flag from the prompt.
         prompt_clean = re.sub(r"@napoleon", "", text, flags=re.IGNORECASE).strip().strip('"')
         if files:
             # If image files are provided, load them.
             images = [load_image(f) for f in files]
                 "role": "user",
                 "content": [
                     *[{"type": "image", "image": image} for image in images],
+                    {"type": "text", "text": prompt_clean},
                 ]
             }]
         else:
             messages = [
                 {"role": "system", "content": [{"type": "text", "text": "Vous êtes un assistant utile qui parle français."}]},
+                {"role": "user", "content": [{"type": "text", "text": prompt_clean}]}
             ]
+        inputs = tokenizer.apply_chat_template(
             messages, add_generation_prompt=True, tokenize=True,
             return_dict=True, return_tensors="pt"
+        ).to(model.device, dtype=torch.bfloat16)
         streamer = TextIteratorStreamer(
+            tokenizer, timeout=20.0, skip_prompt=True, skip_special_tokens=True
         )
         generation_kwargs = {
+            "input_ids": inputs,
             "streamer": streamer,
             "max_new_tokens": max_new_tokens,
             "do_sample": True,
             "repetition_penalty": repetition_penalty,
         }
+        thread = Thread(target=model.generate, kwargs=generation_kwargs)
         thread.start()
         buffer = ""
         # Remove the video flag from the prompt.
         prompt_clean = re.sub(r"@video", "", text, flags=re.IGNORECASE).strip().strip('"')
         if files:
             # Assume the first file is a video.
             video_path = files[0]
             messages = [
                 {"role": "system", "content": [{"type": "text", "text": "Vous êtes un assistant utile qui parle français."}]},
+                {"role": "user", "content": [{"type": "text", "text": prompt_clean}]}
             ]
             # Append each frame as an image with a timestamp label.
         else:
             messages = [
                 {"role": "system", "content": [{"type": "text", "text": "Vous êtes un assistant utile qui parle français."}]},
+                {"role": "user", "content": [{"type": "text", "text": prompt_clean}]}
             ]
+        inputs = tokenizer.apply_chat_template(
             messages, add_generation_prompt=True, tokenize=True,
             return_dict=True, return_tensors="pt"
+        ).to(model.device, dtype=torch.bfloat16)
         streamer = TextIteratorStreamer(
+            tokenizer, timeout=20.0, skip_prompt=True, skip_special_tokens=True
         )
         generation_kwargs = {
+            "input_ids": inputs,
             "streamer": streamer,
             "max_new_tokens": max_new_tokens,
             "do_sample": True,
             "repetition_penalty": repetition_penalty,
         }
+        thread = Thread(target=model.generate, kwargs=generation_kwargs)
         thread.start()
         buffer = ""
             time.sleep(0.01)
             yield buffer
     else:
+        input_ids = tokenizer.apply_chat_template(conversation, add_generation_prompt=True, return_tensors="pt")
         if input_ids.shape[1] > MAX_INPUT_TOKEN_LENGTH:
             input_ids = input_ids[:, -MAX_INPUT_TOKEN_LENGTH:]
             gr.Warning(f"Texte d'entrée tronqué car plus long que {MAX_INPUT_TOKEN_LENGTH} tokens.")