Spaces:

yslan
/

GaussianAnything-AIGC3D

Running on Zero

App Files Files Community

yslan commited on Dec 21, 2024

Commit

fc5658b

1 Parent(s): ce56ec2

update

Browse files

Files changed (1) hide show

app.py +9 -6

app.py CHANGED Viewed

@@ -10,7 +10,7 @@ print('xformers version: {}'.format(xformers.__version__))
 def install_cuda_toolkit():
     # CUDA_TOOLKIT_URL = "https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda_11.8.0_520.61.05_linux.run"
-    CUDA_TOOLKIT_URL = "https://developer.download.nvidia.com/compute/cuda/12.2.0/local_installers/cuda_12.2.0_535.54.03_linux.run"
     CUDA_TOOLKIT_FILE = "/tmp/%s" % os.path.basename(CUDA_TOOLKIT_URL)
     subprocess.call(["wget", "-q", CUDA_TOOLKIT_URL, "-O", CUDA_TOOLKIT_FILE])
     subprocess.call(["chmod", "+x", CUDA_TOOLKIT_FILE])
@@ -114,6 +114,9 @@ from utils.infer_utils import remove_background, resize_foreground
 SEED = 0
 def resize_to_224(img):
     img = transforms.functional.resize(img, 518, # required by dino.
         interpolation=transforms.InterpolationMode.LANCZOS)
@@ -147,7 +150,7 @@ def main(args_1, args_2):
     dist_util.setup_dist(args_1)
     logger.configure(dir=args_1.logdir)
-    th.cuda.empty_cache()
     th.cuda.manual_seed_all(SEED)
     np.random.seed(SEED)
@@ -170,9 +173,9 @@ def main(args_1, args_2):
     opts = eg3d_options_default()
-    denoise_model_stage1.to(dist_util.dev())
     denoise_model_stage1.eval()
-    denoise_model_stage2.to(dist_util.dev())
     denoise_model_stage2.eval()
     # * auto-encoder reconstruction model
@@ -181,7 +184,7 @@ def main(args_1, args_2):
         **args_to_dict(args_1,
                        encoder_and_nsr_defaults().keys()))
-    auto_encoder.to(dist_util.dev())
     auto_encoder.eval()
     # faster inference
@@ -287,7 +290,7 @@ def main(args_1, args_2):
             </div>
             # GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation
-            **GaussianAnything is a native 3D diffusion model that supports high-quality 2D Gaussians generation.
             It first trains a 3D VAE on **Objaverse**, which compress each 3D asset into a compact point cloud-structured latent.
             After that, a image/text-conditioned diffusion model is trained following LDM paradigm.
             The model used in the demo adopts 3D DiT architecture and flow-matching framework, and supports single-image condition.

 def install_cuda_toolkit():
     # CUDA_TOOLKIT_URL = "https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda_11.8.0_520.61.05_linux.run"
+    CUDA_TOOLKIT_URL = "https://developer.download.nvidia.com/compute/cuda/12.2.0/local_installers/cuda_12.2.0_535.54.03_linux.run" # ! cu121 already installed
     CUDA_TOOLKIT_FILE = "/tmp/%s" % os.path.basename(CUDA_TOOLKIT_URL)
     subprocess.call(["wget", "-q", CUDA_TOOLKIT_URL, "-O", CUDA_TOOLKIT_FILE])
     subprocess.call(["chmod", "+x", CUDA_TOOLKIT_FILE])
 SEED = 0
+torch.set_grad_enabled(False)
+device = torch.device('cuda')
 def resize_to_224(img):
     img = transforms.functional.resize(img, 518, # required by dino.
         interpolation=transforms.InterpolationMode.LANCZOS)
     dist_util.setup_dist(args_1)
     logger.configure(dir=args_1.logdir)
+    # th.cuda.empty_cache()
     th.cuda.manual_seed_all(SEED)
     np.random.seed(SEED)
     opts = eg3d_options_default()
+    denoise_model_stage1.to(device)
     denoise_model_stage1.eval()
+    denoise_model_stage2.to(device)
     denoise_model_stage2.eval()
     # * auto-encoder reconstruction model
         **args_to_dict(args_1,
                        encoder_and_nsr_defaults().keys()))
+    auto_encoder.to(device)
     auto_encoder.eval()
     # faster inference
             </div>
             # GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation
+            **GaussianAnything** is a native 3D diffusion model that supports high-quality 2D Gaussians generation.
             It first trains a 3D VAE on **Objaverse**, which compress each 3D asset into a compact point cloud-structured latent.
             After that, a image/text-conditioned diffusion model is trained following LDM paradigm.
             The model used in the demo adopts 3D DiT architecture and flow-matching framework, and supports single-image condition.