Celebrity

Runtime error

Keltezaa commited on Nov 24, 2024

Commit

f27fc80

verified ·

1 Parent(s): 99ee3ff

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -28,6 +28,10 @@ clip_model = CLIPModel.from_pretrained("openai/clip-vit-base-patch16")
 longformer_tokenizer = LongformerTokenizer.from_pretrained("allenai/longformer-base-4096")
 longformer_model = LongformerModel.from_pretrained("allenai/longformer-base-4096")
 def preprocess_prompt(input_text, max_clip_tokens=77):
     """
     Preprocess the input prompt based on its length:
@@ -68,13 +72,16 @@ def process_summarized_input(input_text):
     return inputs
-# Chunking Function (Option 3)
-def split_prompt(prompt, chunk_size=77):
-    """Splits a long prompt into chunks of the specified token size."""
     tokens = clip_processor.tokenizer(prompt, return_tensors="pt")["input_ids"][0]
-    chunks = [tokens[i:i + chunk_size] for i in range(0, len(tokens), chunk_size)]
     return chunks
 def process_clip_chunks(input_text):
     """
@@ -89,11 +96,6 @@ def process_clip_chunks(input_text):
         processed_chunks.append(inputs)
     return processed_chunks  # Return processed chunks for downstream usage
-# Example usage
-input_text = "Your long prompt goes here..."
-inputs = preprocess_prompt(input_text)
 # Load prompts for randomization
 df = pd.read_csv('prompts.csv', header=None)
 prompt_values = df.values.flatten()

 longformer_tokenizer = LongformerTokenizer.from_pretrained("allenai/longformer-base-4096")
 longformer_model = LongformerModel.from_pretrained("allenai/longformer-base-4096")
+# Example usage
+input_text = "Your long prompt goes here..."
+inputs = preprocess_prompt(input_text)
 def preprocess_prompt(input_text, max_clip_tokens=77):
     """
     Preprocess the input prompt based on its length:
     return inputs
+def split_prompt_with_overlap(prompt, chunk_size=77, overlap=10):
     tokens = clip_processor.tokenizer(prompt, return_tensors="pt")["input_ids"][0]
+    chunks = [
+        tokens[i:max(i + chunk_size, len(tokens))]
+        for i in range(0, len(tokens), chunk_size - overlap)
+    ]
     return chunks
+chunks = split_prompt("Test " * 200)
+assert all(len(chunk) <= 77 for chunk in chunks), "Chunk size exceeded"
 def process_clip_chunks(input_text):
     """
         processed_chunks.append(inputs)
     return processed_chunks  # Return processed chunks for downstream usage
 # Load prompts for randomization
 df = pd.read_csv('prompts.csv', header=None)
 prompt_values = df.values.flatten()