Spaces:

yeq6x
/

PositionMapVisualizer

Running on Zero

App Files Files Community

yeq6x commited on Jan 1

Commit

f459619

1 Parent(s): 8c5f93c

de

Browse files

Files changed (1) hide show

app.py +72 -145

app.py CHANGED Viewed

@@ -1,136 +1,32 @@
 import open3d_zerogpu_fix
-import spaces
-from diffusers import ControlNetModel
-from diffusers import StableDiffusionXLControlNetPipeline
-from diffusers import EulerAncestralDiscreteScheduler
-from PIL import Image
-import torch
 import numpy as np
-import cv2
 import gradio as gr
-from torchvision import transforms
-from controlnet_aux import OpenposeDetector
-import random
 import open3d as o3d
-from collections import Counter
 import trimesh
-ratios_map =  {
-    0.5:{"width":704,"height":1408},
-    0.57:{"width":768,"height":1344},
-    0.68:{"width":832,"height":1216},
-    0.72:{"width":832,"height":1152},
-    0.78:{"width":896,"height":1152},
-    0.82:{"width":896,"height":1088},
-    0.88:{"width":960,"height":1088},
-    0.94:{"width":960,"height":1024},
-    1.00:{"width":1024,"height":1024},
-    1.13:{"width":1088,"height":960},
-    1.21:{"width":1088,"height":896},
-    1.29:{"width":1152,"height":896},
-    1.38:{"width":1152,"height":832},
-    1.46:{"width":1216,"height":832},
-    1.67:{"width":1280,"height":768},
-    1.75:{"width":1344,"height":768},
-    2.00:{"width":1408,"height":704}
-}
-ratios = np.array(list(ratios_map.keys()))
-openpose = OpenposeDetector.from_pretrained('lllyasviel/ControlNet')
-controlnet = ControlNetModel.from_pretrained(
-    "yeq6x/Image2PositionColor_v3",
-    torch_dtype=torch.float16
-).to('cuda')
-pipe = StableDiffusionXLControlNetPipeline.from_pretrained(
-    "yeq6x/animagine_position_map",
-    controlnet=controlnet,
-    torch_dtype=torch.float16,
-    low_cpu_mem_usage=True,
-    offload_state_dict=True,
-).to('cuda').to(torch.float16)
-pipe.scheduler = EulerAncestralDiscreteScheduler(
-    beta_start=0.00085,
-    beta_end=0.012,
-    beta_schedule="scaled_linear",
-    num_train_timesteps=1000,
-    steps_offset=1
-)
-# pipe.enable_freeu(b1=1.1, b2=1.1, s1=0.5, s2=0.7)
-# pipe.enable_xformers_memory_efficient_attention()
-pipe.force_zeros_for_empty_prompt = False
-def get_size(init_image):
-    w,h=init_image.size
-    curr_ratio = w/h
-    ind = np.argmin(np.abs(curr_ratio-ratios))
-    ratio = ratios[ind]
-    chosen_ratio  = ratios_map[ratio]
-    w,h = chosen_ratio['width'], chosen_ratio['height']
-    return w,h
-def resize_image(image):
-    image = image.convert('RGB')
-    w,h = get_size(image)
-    resized_image = image.resize((w, h))
-    return resized_image
-def resize_image_old(image):
-    image = image.convert('RGB')
-    current_size = image.size
-    if current_size[0] > current_size[1]:
-        center_cropped_image = transforms.functional.center_crop(image, (current_size[1], current_size[1]))
-    else:
-        center_cropped_image = transforms.functional.center_crop(image, (current_size[0], current_size[0]))
-    resized_image = transforms.functional.resize(center_cropped_image, (1024, 1024))
-    return resized_image
-@spaces.GPU
-def generate_(prompt, negative_prompt, pose_image, input_image, controlnet_conditioning_scale):
-    generator = torch.Generator()
-    generator.manual_seed(random.randint(0, 2147483647))
-    images = pipe(
-    prompt, negative_prompt=negative_prompt, image=pose_image, num_inference_steps=20, controlnet_conditioning_scale=float(controlnet_conditioning_scale),
-    generator=generator, height=input_image.size[1], width=input_image.size[0],
-    ).images
-    return images
-@spaces.GPU
-def process(input_image, prompt, negative_prompt, controlnet_conditioning_scale):
-    # resize input_image to 1024x1024
-    input_image = resize_image(input_image)
-    pose_image = openpose(input_image, include_body=True, include_hand=True, include_face=True)
-    images = generate_(prompt, negative_prompt, pose_image, input_image, controlnet_conditioning_scale)
-    return [pose_image,images[0]]
-@spaces.GPU
-def predict_image(cond_image, prompt, negative_prompt, controlnet_conditioning_scale):
-  print("predict position map")
-  global pipe
-  generator = torch.Generator()
-  generator.manual_seed(random.randint(0, 2147483647))
-  image = pipe(
-      prompt,
-      negative_prompt=negative_prompt,
-      image = cond_image,
-      width=1024,
-      height=1024,
-      guidance_scale=8,
-      num_inference_steps=20,
-      generator=generator,
-      guess_mode = True,
-      controlnet_conditioning_scale = controlnet_conditioning_scale
-  ).images[0]
-  return image
 def convert_pil_to_opencv(pil_image):
   return np.array(pil_image)
@@ -243,25 +139,56 @@ def outpaint_image(image):
   image = paste_image(resized_img)
   return image
-block = gr.Blocks().queue()
-with block:
-    gr.Markdown("## BRIA 2.3 ControlNet Pose")
-    with gr.Row():
-        with gr.Column():
-            input_image = gr.Image(sources=None, type="pil") # None for upload, ctrl+v and webcam
-            prompt = gr.Textbox(label="Prompt")
-            negative_prompt = gr.Textbox(label="Negative prompt", value="Logo,Watermark,Text,Ugly,Morbid,Extra fingers,Poorly drawn hands,Mutation,Blurry,Extra limbs,Gross proportions,Missing arms,Mutated hands,Long neck,Duplicate,Mutilated,Mutilated hands,Poorly drawn face,Deformed,Bad anatomy,Cloned face,Malformed limbs,Missing legs,Too many fingers")
-            controlnet_conditioning_scale = gr.Slider(label="ControlNet conditioning scale", minimum=0.1, maximum=2.0, value=1.0, step=0.05)
-            run_button = gr.Button(value="Run")
-        with gr.Column():
-            with gr.Row():
-                pose_image_output = gr.Image(label="Pose Image", type="pil", interactive=False)
-                generated_image_output = gr.Image(label="Generated Image", type="pil", interactive=False)
-    run_button.click(fn=process, inputs=[input_image, prompt, negative_prompt, controlnet_conditioning_scale], outputs=[pose_image_output, generated_image_output])
-block.launch(debug = True)

 import open3d_zerogpu_fix
 import numpy as np
+from PIL import Image
 import gradio as gr
 import open3d as o3d
 import trimesh
+from diffusers import ControlNetModel, StableDiffusionXLControlNetPipeline, EulerAncestralDiscreteScheduler
+import torch
+from collections import Counter
+import random
+import spaces
+pipe = None
+device = None
+torch_dtype = None
+def load_model():
+  global pipe, device, torch_dtype
+  device = "cuda" if torch.cuda.is_available() else "cpu"
+  torch_dtype = torch.float16 if device == "cuda" else torch.float32
+  pipe = StableDiffusionXLControlNetPipeline.from_pretrained(
+      "yeq6x/animagine_position_map",
+      controlnet=ControlNetModel.from_pretrained("yeq6x/Image2PositionColor_v3"),
+  ).to(device)
+  pipe.scheduler = EulerAncestralDiscreteScheduler.from_config(pipe.scheduler.config)
+  return pipe
 def convert_pil_to_opencv(pil_image):
   return np.array(pil_image)
   image = paste_image(resized_img)
   return image
+@spaces.GPU
+def predict_image(cond_image, prompt, negative_prompt):
+  print("predict position map")
+  global pipe
+  generator = torch.Generator()
+  generator.manual_seed(random.randint(0, 2147483647))
+  image = pipe(
+      prompt,
+      prompt,
+      cond_image,
+      negative_prompt=negative_prompt,
+      width=1024,
+      height=1024,
+      guidance_scale=8,
+      num_inference_steps=20,
+      generator=generator,
+      guess_mode = True,
+      controlnet_conditioning_scale = 0.6,
+  ).images[0]
+  return image
+load_model()
+# Gradioアプリケーション
+with gr.Blocks() as demo:
+  gr.Markdown("## Position Map Visualizer")
+  with gr.Row():
+    with gr.Column():
+      with gr.Row():
+        img1 = gr.Image(type="pil", label="color Image", height=300)
+        img2 = gr.Image(type="pil", label="map Image", height=300)
+      prompt = gr.Textbox("position map, 1girl, white background", label="Prompt")
+      negative_prompt = gr.Textbox("lowres, bad anatomy, bad hands, bad feet, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry", label="Negative Prompt")
+      predict_map_btn = gr.Button("Predict Position Map")
+      visualize_3d_btn = gr.Button("Generate 3D Point Cloud")
+    with gr.Column():
+      reconstruction_output = gr.Model3D(label="3D Viewer", height=600)
+      gr.Examples(
+          examples=[
+          ["resources/source/000006.png", "resources/target/000006.png"],
+          ["resources/source/006420.png", "resources/target/006420.png"],
+      ],
+          inputs=[img1, img2]
+      )
+  img1.input(outpaint_image, inputs=img1, outputs=img1)
+  predict_map_btn.click(predict_image, inputs=[img1, prompt, negative_prompt], outputs=img2)
+  visualize_3d_btn.click(visualize_3d, inputs=[img2, img1], outputs=reconstruction_output)
+demo.launch()