Celebrity

Running

App Files Files Community

Keltezaa commited on Nov 24, 2024

Commit

d683517

verified ·

1 Parent(s): 3891a4f

Update app.py

Browse files

Files changed (1) hide show

app.py +9 -84

app.py CHANGED Viewed

@@ -19,70 +19,6 @@ import pandas as pd
 # Disable tokenizer parallelism
 os.environ["TOKENIZERS_PARALLELISM"] = "false"
-# Summarization Function (Option 5)
-def summarize_prompt(input_text, max_length=77):
-    """
-    Summarizes the input text to fit within the CLIP token limit.
-    Basic implementation uses the first `max_length` tokens.
-    """
-    summarized_text = " ".join(input_text.split()[:max_length])  # Simple summarization: First 77 words
-    print(f"Summarized prompt: {summarized_text}")
-    return summarized_text
-def process_summarized_input(input_text):
-    """
-    Prepares summarized text for CLIP processing.
-    """
-    summarized_text = summarize_prompt(input_text, max_length=77)
-    inputs = clip_processor(text=summarized_text, return_tensors="pt", padding=True, truncation=True, max_length=77)
-    return inputs
-def split_prompt_with_overlap(prompt, chunk_size=77, overlap=10):
-    tokens = clip_processor.tokenizer(prompt, return_tensors="pt")["input_ids"][0]
-    chunks = [
-        tokens[i:max(i + chunk_size, len(tokens))]
-        for i in range(0, len(tokens), chunk_size - overlap)
-    ]
-    return chunks
-def split_prompt(prompt, chunk_size=77):
-    """Splits a long prompt into chunks of the specified token size."""
-    tokens = clip_processor.tokenizer(prompt, return_tensors="pt")["input_ids"][0]
-    chunks = [tokens[i:i + chunk_size] for i in range(0, len(tokens), chunk_size)]
-    return chunks
-def process_clip_chunks(input_text):
-    """
-    Tokenizes and processes a long input text in chunks for CLIP.
-    Each chunk respects the model's 77-token limit.
-    """
-    chunks = split_prompt(input_text)
-    processed_chunks = []
-    for chunk in chunks:
-        chunk_text = clip_processor.tokenizer.decode(chunk, skip_special_tokens=True)
-        inputs = clip_processor(text=chunk_text, return_tensors="pt", padding=True, truncation=True, max_length=77)
-        processed_chunks.append(inputs)
-    return processed_chunks  # Return processed chunks for downstream usage
-def preprocess_prompt(input_text, max_clip_tokens=77):
-    """
-    Preprocess the input prompt based on its length:
-    - If the prompt is <= max_clip_tokens, summarize it.
-    - If the prompt is > max_clip_tokens, split and process it.
-    """
-    # Tokenize the prompt to determine its token length
-    tokens = clip_processor.tokenizer(input_text, return_tensors="pt")["input_ids"][0]
-    token_count = len(tokens)
-    if token_count <= max_clip_tokens:
-        # Use summarization for shorter prompts
-        print("Using summarization (Option 5) as the prompt is short.")
-        return process_summarized_input(input_text)
-    else:
-        # Use split-and-process for longer prompts
-        print("Using chunking (Option 3) as the prompt exceeds 77 tokens.")
-        return process_clip_chunks(input_text)
 # Initialize the CLIP tokenizer and model
 clip_tokenizer = CLIPTokenizer.from_pretrained("openai/clip-vit-base-patch16")
 clip_processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch16")
@@ -92,10 +28,6 @@ clip_model = CLIPModel.from_pretrained("openai/clip-vit-base-patch16")
 longformer_tokenizer = LongformerTokenizer.from_pretrained("allenai/longformer-base-4096")
 longformer_model = LongformerModel.from_pretrained("allenai/longformer-base-4096")
-# Example usage
-input_text = "Your long prompt goes here..."
-inputs = preprocess_prompt(input_text)
 # Load prompts for randomization
 df = pd.read_csv('prompts.csv', header=None)
 prompt_values = df.values.flatten()
@@ -113,26 +45,19 @@ taef1 = AutoencoderTiny.from_pretrained("madebyollin/taef1", torch_dtype=dtype).
 good_vae = AutoencoderKL.from_pretrained(base_model, subfolder="vae", torch_dtype=dtype).to(device)
 pipe = DiffusionPipeline.from_pretrained(base_model, torch_dtype=dtype, vae=taef1).to(device)
-# Gradio interface function
-taef1 = AutoencoderTiny.from_pretrained("madebyollin/taef1", torch_dtype=dtype).to(device)
-good_vae = AutoencoderKL.from_pretrained(base_model, subfolder="vae", torch_dtype=dtype).to(device)
-pipe = DiffusionPipeline.from_pretrained(base_model, torch_dtype=dtype, vae=taef1).to(device)
-pipe_i2i = AutoPipelineForImage2Image.from_pretrained(
-    base_model,
-    vae=good_vae,
-    transformer=pipe.transformer,
-    text_encoder=pipe.text_encoder,
-    tokenizer=pipe.tokenizer,
-    text_encoder_2=pipe.text_encoder_2,
-    tokenizer_2=pipe.tokenizer_2,
-    torch_dtype=dtype
-)
 MAX_SEED = 2**32 - 1
 pipe.flux_pipe_call_that_returns_an_iterable_of_images = flux_pipe_call_that_returns_an_iterable_of_images.__get__(pipe)
 class calculateDuration:
     def __init__(self, activity_name=""):
         self.activity_name = activity_name

 # Disable tokenizer parallelism
 os.environ["TOKENIZERS_PARALLELISM"] = "false"
 # Initialize the CLIP tokenizer and model
 clip_tokenizer = CLIPTokenizer.from_pretrained("openai/clip-vit-base-patch16")
 clip_processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch16")
 longformer_tokenizer = LongformerTokenizer.from_pretrained("allenai/longformer-base-4096")
 longformer_model = LongformerModel.from_pretrained("allenai/longformer-base-4096")
 # Load prompts for randomization
 df = pd.read_csv('prompts.csv', header=None)
 prompt_values = df.values.flatten()
 good_vae = AutoencoderKL.from_pretrained(base_model, subfolder="vae", torch_dtype=dtype).to(device)
 pipe = DiffusionPipeline.from_pretrained(base_model, torch_dtype=dtype, vae=taef1).to(device)
 MAX_SEED = 2**32 - 1
 pipe.flux_pipe_call_that_returns_an_iterable_of_images = flux_pipe_call_that_returns_an_iterable_of_images.__get__(pipe)
+def process_input(input_text):
+    # Tokenize and truncate input
+    inputs = clip_processor(text=input_text, return_tensors="pt", padding=True, truncation=True, max_length=77)
+    return inputs
+# Example usage
+input_text = "Your long prompt goes here..."
+inputs = process_input(input_text)
 class calculateDuration:
     def __init__(self, activity_name=""):
         self.activity_name = activity_name