CatCon-One-Shot-Controlnet-SD-1-5-b2

Sleeping

App Files Files Community

Ryukijano commited on 29 days ago

Commit

dff7251

•

1 Parent(s): b556a2f

LLAMA MESH

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

MacLab-Era3D-512-6view/feature_extractor/preprocessor_config.json +0 -27
MacLab-Era3D-512-6view/image_encoder/config.json +0 -23
MacLab-Era3D-512-6view/image_encoder/model.safetensors +0 -3
MacLab-Era3D-512-6view/image_noising_scheduler/scheduler_config.json +0 -19
MacLab-Era3D-512-6view/image_normalizer/config.json +0 -6
MacLab-Era3D-512-6view/image_normalizer/diffusion_pytorch_model.safetensors +0 -3
MacLab-Era3D-512-6view/model_index.json +0 -40
MacLab-Era3D-512-6view/scheduler/scheduler_config.json +0 -20
MacLab-Era3D-512-6view/text_encoder/config.json +0 -25
MacLab-Era3D-512-6view/text_encoder/model.safetensors +0 -3
MacLab-Era3D-512-6view/tokenizer/merges.txt +0 -0
MacLab-Era3D-512-6view/tokenizer/special_tokens_map.json +0 -24
MacLab-Era3D-512-6view/tokenizer/tokenizer_config.json +0 -38
MacLab-Era3D-512-6view/tokenizer/vocab.json +0 -0
MacLab-Era3D-512-6view/unet/config.json +0 -95
MacLab-Era3D-512-6view/unet/diffusion_pytorch_model.safetensors +0 -3
MacLab-Era3D-512-6view/vae/config.json +0 -32
MacLab-Era3D-512-6view/vae/diffusion_pytorch_model.safetensors +0 -3
assets/advanced/img1.png +0 -3
assets/advanced/img2.png +0 -3
assets/advanced/img3.png +0 -3
assets/advanced/img4.png +0 -3
assets/advanced/img5.png +0 -3
assets/advanced/img6.png +0 -3
assets/advanced/img7.png +0 -3
assets/advanced/img8.png +0 -3
assets/basic/img1.png +0 -3
assets/basic/img2.png +0 -3
assets/basic/img3.png +0 -3
assets/basic/img4.png +0 -3
assets/basic/img5.png +0 -3
assets/basic/img6.png +0 -3
assets/basic/img7.png +0 -3
assets/basic/img_temp2.png +0 -3
configs/inpaint.yaml +0 -31
configs/sd_upsampler.yaml +0 -32
configs/sd_upsampler_temporal.yaml +0 -36
configs/sd_upsampler_train.yaml +0 -36
configs/test_unclip-512-6view.yaml +0 -56
configs/train.yaml +0 -35
configs/train_floyd.yaml +0 -32
configs/train_lora.yaml +0 -28
configs/train_mv.yaml +0 -33
configs/train_mv_256.yaml +0 -33
configs/upsample_gen_single.yaml +0 -37
configs/upsample_generation.yaml +0 -37
examples/3968940-PH.png +0 -0
examples/A_beautiful_cyborg_with_brown_hair_rgba.png +0 -3
examples/A_bulldog_with_a_black_pirate_hat_rgba.png +0 -0
examples/A_pig_wearing_a_backpack_rgba.png +0 -0

MacLab-Era3D-512-6view/feature_extractor/preprocessor_config.json DELETED Viewed

@@ -1,27 +0,0 @@
-{
-  "crop_size": {
-    "height": 224,
-    "width": 224
-  },
-  "do_center_crop": true,
-  "do_convert_rgb": true,
-  "do_normalize": true,
-  "do_rescale": true,
-  "do_resize": true,
-  "image_mean": [
-    0.48145466,
-    0.4578275,
-    0.40821073
-  ],
-  "image_processor_type": "CLIPImageProcessor",
-  "image_std": [
-    0.26862954,
-    0.26130258,
-    0.27577711
-  ],
-  "resample": 3,
-  "rescale_factor": 0.00392156862745098,
-  "size": {
-    "shortest_edge": 224
-  }
-}

MacLab-Era3D-512-6view/image_encoder/config.json DELETED Viewed

@@ -1,23 +0,0 @@
-{
-  "_name_or_path": "stabilityai/stable-diffusion-2-1-unclip",
-  "architectures": [
-    "CLIPVisionModelWithProjection"
-  ],
-  "attention_dropout": 0.0,
-  "dropout": 0.0,
-  "hidden_act": "gelu",
-  "hidden_size": 1280,
-  "image_size": 224,
-  "initializer_factor": 1.0,
-  "initializer_range": 0.02,
-  "intermediate_size": 5120,
-  "layer_norm_eps": 1e-05,
-  "model_type": "clip_vision_model",
-  "num_attention_heads": 16,
-  "num_channels": 3,
-  "num_hidden_layers": 32,
-  "patch_size": 14,
-  "projection_dim": 1024,
-  "torch_dtype": "float16",
-  "transformers_version": "4.37.2"
-}

MacLab-Era3D-512-6view/image_encoder/model.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:ae616c24393dd1854372b0639e5541666f7521cbe219669255e865cb7f89466a
-size 1264217240

MacLab-Era3D-512-6view/image_noising_scheduler/scheduler_config.json DELETED Viewed

@@ -1,19 +0,0 @@
-{
-  "_class_name": "DDPMScheduler",
-  "_diffusers_version": "0.26.0.dev0",
-  "beta_end": 0.02,
-  "beta_schedule": "squaredcos_cap_v2",
-  "beta_start": 0.0001,
-  "clip_sample": true,
-  "clip_sample_range": 1.0,
-  "dynamic_thresholding_ratio": 0.995,
-  "num_train_timesteps": 1000,
-  "prediction_type": "epsilon",
-  "rescale_betas_zero_snr": false,
-  "sample_max_value": 1.0,
-  "steps_offset": 0,
-  "thresholding": false,
-  "timestep_spacing": "leading",
-  "trained_betas": null,
-  "variance_type": "fixed_small"
-}

MacLab-Era3D-512-6view/image_normalizer/config.json DELETED Viewed

@@ -1,6 +0,0 @@
-{
-  "_class_name": "StableUnCLIPImageNormalizer",
-  "_diffusers_version": "0.26.0.dev0",
-  "_name_or_path": "stabilityai/stable-diffusion-2-1-unclip",
-  "embedding_dim": 1024
-}

MacLab-Era3D-512-6view/image_normalizer/diffusion_pytorch_model.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:7772cf09639cea0c65639a3bfc88004a66d42259090d03fa8e15efdc255f240a
-size 4272

MacLab-Era3D-512-6view/model_index.json DELETED Viewed

@@ -1,40 +0,0 @@
-{
-  "_class_name": "StableUnCLIPImg2ImgPipeline",
-  "_diffusers_version": "0.26.0.dev0",
-  "feature_extractor": [
-    "transformers",
-    "CLIPImageProcessor"
-  ],
-  "image_encoder": [
-    "transformers",
-    "CLIPVisionModelWithProjection"
-  ],
-  "image_noising_scheduler": [
-    "diffusers",
-    "DDPMScheduler"
-  ],
-  "image_normalizer": [
-    "stable_diffusion",
-    "StableUnCLIPImageNormalizer"
-  ],
-  "scheduler": [
-    "diffusers",
-    "DDIMScheduler"
-  ],
-  "text_encoder": [
-    "transformers",
-    "CLIPTextModel"
-  ],
-  "tokenizer": [
-    "transformers",
-    "CLIPTokenizer"
-  ],
-  "unet": [
-    "mvdiffusion.models.unet_mv2d_condition",
-    "UNetMV2DConditionModel"
-  ],
-  "vae": [
-    "diffusers",
-    "AutoencoderKL"
-  ]
-}

MacLab-Era3D-512-6view/scheduler/scheduler_config.json DELETED Viewed

@@ -1,20 +0,0 @@
-{
-  "_class_name": "DDIMScheduler",
-  "_diffusers_version": "0.26.0.dev0",
-  "beta_end": 0.012,
-  "beta_schedule": "linear",
-  "beta_start": 0.00085,
-  "clip_sample": false,
-  "clip_sample_range": 1.0,
-  "dynamic_thresholding_ratio": 0.995,
-  "num_train_timesteps": 1000,
-  "prediction_type": "v_prediction",
-  "rescale_betas_zero_snr": false,
-  "sample_max_value": 1.0,
-  "set_alpha_to_one": false,
-  "skip_prk_steps": true,
-  "steps_offset": 1,
-  "thresholding": false,
-  "timestep_spacing": "leading",
-  "trained_betas": null
-}

MacLab-Era3D-512-6view/text_encoder/config.json DELETED Viewed

@@ -1,25 +0,0 @@
-{
-  "_name_or_path": "stabilityai/stable-diffusion-2-1-unclip",
-  "architectures": [
-    "CLIPTextModel"
-  ],
-  "attention_dropout": 0.0,
-  "bos_token_id": 0,
-  "dropout": 0.0,
-  "eos_token_id": 2,
-  "hidden_act": "gelu",
-  "hidden_size": 1024,
-  "initializer_factor": 1.0,
-  "initializer_range": 0.02,
-  "intermediate_size": 4096,
-  "layer_norm_eps": 1e-05,
-  "max_position_embeddings": 77,
-  "model_type": "clip_text_model",
-  "num_attention_heads": 16,
-  "num_hidden_layers": 23,
-  "pad_token_id": 1,
-  "projection_dim": 512,
-  "torch_dtype": "float16",
-  "transformers_version": "4.37.2",
-  "vocab_size": 49408
-}

MacLab-Era3D-512-6view/text_encoder/model.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:bc1827c465450322616f06dea41596eac7d493f4e95904dcb51f0fc745c4e13f
-size 680820392

MacLab-Era3D-512-6view/tokenizer/merges.txt DELETED Viewed

The diff for this file is too large to render. See raw diff

MacLab-Era3D-512-6view/tokenizer/special_tokens_map.json DELETED Viewed

@@ -1,24 +0,0 @@
-{
-  "bos_token": {
-    "content": "<|startoftext|>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
-  "eos_token": {
-    "content": "<|endoftext|>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
-  "pad_token": "!",
-  "unk_token": {
-    "content": "<|endoftext|>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  }
-}

MacLab-Era3D-512-6view/tokenizer/tokenizer_config.json DELETED Viewed

@@ -1,38 +0,0 @@
-{
-  "add_prefix_space": false,
-  "added_tokens_decoder": {
-    "0": {
-      "content": "!",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "49406": {
-      "content": "<|startoftext|>",
-      "lstrip": false,
-      "normalized": true,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "49407": {
-      "content": "<|endoftext|>",
-      "lstrip": false,
-      "normalized": true,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    }
-  },
-  "bos_token": "<|startoftext|>",
-  "clean_up_tokenization_spaces": true,
-  "do_lower_case": true,
-  "eos_token": "<|endoftext|>",
-  "errors": "replace",
-  "model_max_length": 77,
-  "pad_token": "!",
-  "tokenizer_class": "CLIPTokenizer",
-  "unk_token": "<|endoftext|>"
-}

MacLab-Era3D-512-6view/tokenizer/vocab.json DELETED Viewed

The diff for this file is too large to render. See raw diff

MacLab-Era3D-512-6view/unet/config.json DELETED Viewed

@@ -1,95 +0,0 @@
-{
-  "_class_name": "UNetMV2DConditionModel",
-  "_diffusers_version": "0.26.0.dev0",
-  "_name_or_path": "../checkpoint_backup/output/unit-unclip-512-6view-randomele-self+row-8w-selfcd-rowmv-2block-linear-depthfilter-step-removewh-bs256-three/checkpoint-40000/unet_ema",
-  "act_fn": "silu",
-  "addition_channels": [
-    1280,
-    1280,
-    1280
-  ],
-  "addition_downsample": false,
-  "addition_embed_type": null,
-  "addition_embed_type_num_heads": 64,
-  "addition_time_embed_dim": null,
-  "attention_head_dim": [
-    5,
-    10,
-    20,
-    20
-  ],
-  "block_out_channels": [
-    320,
-    640,
-    1280,
-    1280
-  ],
-  "cd_attention_last": false,
-  "cd_attention_mid": false,
-  "center_input_sample": false,
-  "class_embed_type": "projection",
-  "class_embeddings_concat": false,
-  "conv_in_kernel": 3,
-  "conv_out_kernel": 3,
-  "cross_attention_dim": 1024,
-  "cross_attention_norm": null,
-  "decay": 0.9999,
-  "down_block_types": [
-    "CrossAttnDownBlockMV2D",
-    "CrossAttnDownBlockMV2D",
-    "CrossAttnDownBlockMV2D",
-    "DownBlock2D"
-  ],
-  "downsample_padding": 1,
-  "dual_cross_attention": false,
-  "encoder_hid_dim": null,
-  "encoder_hid_dim_type": null,
-  "flip_sin_to_cos": true,
-  "freq_shift": 0,
-  "in_channels": 8,
-  "inv_gamma": 1.0,
-  "layers_per_block": 2,
-  "mid_block_only_cross_attention": null,
-  "mid_block_scale_factor": 1,
-  "mid_block_type": "UNetMidBlockMV2DCrossAttn",
-  "min_decay": 0.0,
-  "multiview_attention": true,
-  "mvcd_attention": true,
-  "norm_eps": 1e-05,
-  "norm_num_groups": 32,
-  "num_attention_heads": null,
-  "num_class_embeds": null,
-  "num_regress_blocks": 3,
-  "num_views": 6,
-  "only_cross_attention": false,
-  "optimization_step": 40000,
-  "out_channels": 4,
-  "power": 0.6666666666666666,
-  "projection_camera_embeddings_input_dim": 4,
-  "projection_class_embeddings_input_dim": 2048,
-  "regress_elevation": true,
-  "regress_focal_length": true,
-  "resnet_out_scale_factor": 1.0,
-  "resnet_skip_time_act": false,
-  "resnet_time_scale_shift": "default",
-  "sample_size": 64,
-  "selfattn_block": "self_rowwise",
-  "sparse_mv_attention": true,
-  "time_cond_proj_dim": null,
-  "time_embedding_act_fn": null,
-  "time_embedding_dim": null,
-  "time_embedding_type": "positional",
-  "timestep_post_act": null,
-  "transformer_layers_per_block": 1,
-  "up_block_types": [
-    "UpBlock2D",
-    "CrossAttnUpBlockMV2D",
-    "CrossAttnUpBlockMV2D",
-    "CrossAttnUpBlockMV2D"
-  ],
-  "upcast_attention": true,
-  "update_after_step": 0,
-  "use_dino": false,
-  "use_ema_warmup": false,
-  "use_linear_projection": true
-}

MacLab-Era3D-512-6view/unet/diffusion_pytorch_model.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:af12a68fdbfa51bb857422b42bd5ac5101467e22e5e58ea6d8b06dd9426c93af
-size 1895432652

MacLab-Era3D-512-6view/vae/config.json DELETED Viewed

@@ -1,32 +0,0 @@
-{
-  "_class_name": "AutoencoderKL",
-  "_diffusers_version": "0.26.0.dev0",
-  "_name_or_path": "stabilityai/stable-diffusion-2-1-unclip",
-  "act_fn": "silu",
-  "block_out_channels": [
-    128,
-    256,
-    512,
-    512
-  ],
-  "down_block_types": [
-    "DownEncoderBlock2D",
-    "DownEncoderBlock2D",
-    "DownEncoderBlock2D",
-    "DownEncoderBlock2D"
-  ],
-  "force_upcast": true,
-  "in_channels": 3,
-  "latent_channels": 4,
-  "layers_per_block": 2,
-  "norm_num_groups": 32,
-  "out_channels": 3,
-  "sample_size": 768,
-  "scaling_factor": 0.18215,
-  "up_block_types": [
-    "UpDecoderBlock2D",
-    "UpDecoderBlock2D",
-    "UpDecoderBlock2D",
-    "UpDecoderBlock2D"
-  ]
-}

MacLab-Era3D-512-6view/vae/diffusion_pytorch_model.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:3e4c08995484ee61270175e9e7a072b66a6e4eeb5f0c266667fe1f45b90daf9a
-size 167335342

assets/advanced/img1.png DELETED Viewed

Git LFS Details

SHA256: 0b6ee0af34eb5fa6bce208003dbad31301303572172346e978a6069fc45c67c8
Pointer size: 132 Bytes
Size of remote file: 1.25 MB

assets/advanced/img2.png DELETED Viewed

Git LFS Details

SHA256: 46b83c749171ee3105795ec7cc35ce4f37fcb2f18e1578ab8f7b41a5972ca4ed
Pointer size: 132 Bytes
Size of remote file: 1.22 MB

assets/advanced/img3.png DELETED Viewed

Git LFS Details

SHA256: aea4f2b59581dc012b353ed405e15bc286d24c6211e54748fbc6692be6203479
Pointer size: 132 Bytes
Size of remote file: 1.53 MB

assets/advanced/img4.png DELETED Viewed

Git LFS Details

SHA256: 34235863cf886241b37129a4fd3e7d24788ecef3ef29c2038211f1ddfe0cad28
Pointer size: 132 Bytes
Size of remote file: 1.27 MB

assets/advanced/img5.png DELETED Viewed

Git LFS Details

SHA256: 8b9b107ff5712c15114cc1dcafb3e847c8035941bb7c74111a54fbc6bfce5188
Pointer size: 132 Bytes
Size of remote file: 1.41 MB

assets/advanced/img6.png DELETED Viewed

Git LFS Details

SHA256: cdc8b4a173321f3a01ae7e167770bd3b67d8157310ed8055b2c984626e8589df
Pointer size: 132 Bytes
Size of remote file: 1.64 MB

assets/advanced/img7.png DELETED Viewed

Git LFS Details

SHA256: f399a24a822cff263cd5e310b6ef265500f0dfcdb48e92c398405b5761908446
Pointer size: 132 Bytes
Size of remote file: 1.66 MB

assets/advanced/img8.png DELETED Viewed

Git LFS Details

SHA256: 4541dbd422a4994b4219e2c89db08f514b406fb3f8d4c45084faeb13d7d6482e
Pointer size: 132 Bytes
Size of remote file: 1.74 MB

assets/basic/img1.png DELETED Viewed

Git LFS Details

SHA256: dd92c705faecc52785e9e114762747cfdc748abd770f7967ca3a97859abbc873
Pointer size: 132 Bytes
Size of remote file: 1.4 MB

assets/basic/img2.png DELETED Viewed

Git LFS Details

SHA256: 0a5d29c163ce3e6e8ee87c128e606b34ee911c2ff51ba112b0b801bf37f32c0c
Pointer size: 132 Bytes
Size of remote file: 1.62 MB

assets/basic/img3.png DELETED Viewed

Git LFS Details

SHA256: 4401231e8f735e12ff6741c4b5da2ce71e8bc9174b9c1f84770e04fad9d7cd63
Pointer size: 132 Bytes
Size of remote file: 1.39 MB

assets/basic/img4.png DELETED Viewed

Git LFS Details

SHA256: ca831c0265505b62a316fe5950b84dcfd83cc3a4ff92d721ea42350a01c28862
Pointer size: 132 Bytes
Size of remote file: 1.4 MB

assets/basic/img5.png DELETED Viewed

Git LFS Details

SHA256: 81ba340c301fd82a8fe41efd9f877d052b0999b2a62f46a6bc3250528f35bf01
Pointer size: 132 Bytes
Size of remote file: 1.94 MB

assets/basic/img6.png DELETED Viewed

Git LFS Details

SHA256: 928cc4876a697603597b5d9273e607cea6bd8c2d08b5c9f70e5b8e354309f845
Pointer size: 132 Bytes
Size of remote file: 1.94 MB

assets/basic/img7.png DELETED Viewed

Git LFS Details

SHA256: 8bfcad7363ff53c742fe13a49ecbbbcaea1142dc138a6a8020c21bcbfbce30b8
Pointer size: 132 Bytes
Size of remote file: 1.88 MB

assets/basic/img_temp2.png DELETED Viewed

Git LFS Details

SHA256: 8c1a083c1a06637ab7e871270e7b755082db9562ae67219533e06ed5e2b0831c
Pointer size: 132 Bytes
Size of remote file: 1.78 MB

configs/inpaint.yaml DELETED Viewed

@@ -1,31 +0,0 @@
-dataset:
-  num_views_low_res: 8
-  num_views_high_res: 1
-  image_root_dir: training/mp3d_skybox
-  fov: 90
-  rot_low_res: 45
-  resolution: 256
-train:
-  log_dir: sd_upsampler
-  lr: 0.0002
-test:
-  fuse_type: single # multidiff
-model:
-  guidance_scale: 9.
-  diff_timestep: 1
-  low_res_noise_level: 30 # from the default SD upsampler setting
-  model_type: upsample
-  upsample_model:
-    model_id: stabilityai/stable-diffusion-x4-upscaler
-    num_coarse_cp_blocks: 5
-    lora_layers: True
-    homo_cp_attn: True
-    diff_timestep: 75
-  base_model:
-    diff_timestep: 50
-    model_id: stabilityai/stable-diffusion-2-base
-    lora_layers: True

configs/sd_upsampler.yaml DELETED Viewed

@@ -1,32 +0,0 @@
-dataset:
-  name: mp3d
-  num_views_low_res: 8
-  num_views_high_res: 1
-  image_root_dir: training/mp3d_skybox
-  fov: 90
-  rot_low_res: 45
-  resolution: 128
-train:
-  log_dir: sd_upsampler
-  lr: 0.0002
-test:
-  fuse_type: single # multidiff
-model:
-  guidance_scale: 9.
-  diff_timestep: 1
-  low_res_noise_level: 20 # from the default SD upsampler setting
-  model_type: upsample
-  upsample_model:
-    model_id: stabilityai/stable-diffusion-x4-upscaler
-    num_coarse_cp_blocks: 5
-    lora_layers: True
-    homo_cp_attn: True
-    diff_timestep: 75
-  base_model:
-    diff_timestep: 50
-    model_id: stabilityai/stable-diffusion-2-base
-    lora_layers: True

configs/sd_upsampler_temporal.yaml DELETED Viewed

@@ -1,36 +0,0 @@
-dataset:
-  name: mp3d
-  num_views_low_res: 8
-  num_views_high_res: 6
-  image_root_dir: training/mp3d_skybox
-  fov: 90
-  rot_low_res: 45
-  rot_high_res: 45
-  resolution: 256
-  resolution_high_res: 1024
-  crop_size_high_res: 384
-train:
-  log_dir: sd_upsampler
-  lr: 0.0001
-test:
-  fuse_type: single # multidiff
-model:
-  guidance_scale: 9.
-  diff_timestep: 1
-  low_res_noise_level: 20 # from the default SD upsampler setting
-  model_type: upsample
-  upsample_model:
-    model_id: stabilityai/stable-diffusion-x4-upscaler
-    num_coarse_cp_blocks: 5
-    lora_layers: False
-    homo_cp_attn: True
-    diff_timestep: 75
-    multiframe_fuse: True
-  base_model:
-    diff_timestep: 50
-    model_id: stabilityai/stable-diffusion-2-base
-    lora_layers: True

configs/sd_upsampler_train.yaml DELETED Viewed

@@ -1,36 +0,0 @@
-dataset:
-  name: mp3d
-  num_views_low_res: 8
-  num_views_high_res: 1
-  image_root_dir: training/mp3d_skybox
-  fov: 90
-  rot_low_res: 45
-  rot_high_res: 10
-  resolution: 256
-  resolution_high_res: 1024
-  crop_size_high_res: 512
-train:
-  log_dir: sd_upsampler
-  lr: 0.000005
-test:
-  fuse_type: single # multidiff
-model:
-  guidance_scale: 9.
-  diff_timestep: 1
-  low_res_noise_level: 20 # from the default SD upsampler setting
-  model_type: upsample
-  upsample_model:
-    model_id: stabilityai/stable-diffusion-x4-upscaler
-    num_coarse_cp_blocks: 5
-    lora_layers: False
-    homo_cp_attn: True
-    diff_timestep: 75
-    multiframe_fuse: False
-  base_model:
-    diff_timestep: 50
-    model_id: stabilityai/stable-diffusion-2-base
-    lora_layers: True

configs/test_unclip-512-6view.yaml DELETED Viewed

@@ -1,56 +0,0 @@
-pretrained_model_name_or_path: 'pengHTYX/MacLab-Era3D-512-6view'
-revision: null
-num_views: 6
-validation_dataset:
-  prompt_embeds_path: mvdiffusion/data/fixed_prompt_embeds_6view
-  root_dir: 'examples'
-  num_views: ${num_views}
-  bg_color: 'white'
-  img_wh:  [512, 512]
-  num_validation_samples: 1000
-  crop_size: 420
-pred_type: 'joint'
-save_dir: 'mv_res'
-save_mode: 'rgba' # 'concat', 'rgba', 'rgb'
-seed: 42
-validation_batch_size: 1
-dataloader_num_workers: 1
-local_rank: -1
-pipe_kwargs:
-  num_views: ${num_views}
-validation_guidance_scales: [3.0]
-pipe_validation_kwargs:
-  num_inference_steps: 40
-  eta: 1.0
-validation_grid_nrow: ${num_views}
-regress_elevation: true
-regress_focal_length: true
-unet_from_pretrained_kwargs:
-  unclip: true
-  sdxl: false
-  num_views: ${num_views}
-  sample_size: 64
-  zero_init_conv_in: false # modify
-  regress_elevation: ${regress_elevation}
-  regress_focal_length: ${regress_focal_length}
-  camera_embedding_type: e_de_da_sincos
-  projection_camera_embeddings_input_dim: 4 # 2 for elevation and 6 for focal_length
-  zero_init_camera_projection: false
-  num_regress_blocks: 3
-  cd_attention_last: false
-  cd_attention_mid: false
-  multiview_attention: true
-  sparse_mv_attention: true
-  selfattn_block: self_rowwise
-  mvcd_attention: true
-  use_dino: false
-enable_xformers_memory_efficient_attention: true

configs/train.yaml DELETED Viewed

@@ -1,35 +0,0 @@
-dataset:
-  name: 'mp3d'
-  num_views_low_res: 1
-  num_views_high_res: 1
-  image_root_dir: training/mp3d_skybox
-  fov: 90
-  rot_low_res: 45
-  rot_high_res: 10
-  resolution: 512
-  resolution_high_res: 1024
-  crop_size_high_res: 256
-train:
-  log_dir: high_res_upsample
-  lr: 0.0002
-test:
-  fuse_type: diffcollage # multidiff
-model:
-  model_id: stabilityai/stable-diffusion-2-base
-  guidance_scale: 9.
-  model_type: base
-  low_res_noise_level: 20
-  upsample_model:
-    num_coarse_cp_blocks: 5
-    lora_layers: True
-    homo_cp_attn: True
-    diff_timestep: 75
-  base_model:
-    model_id: stabilityai/stable-diffusion-2-base
-    diff_timestep: 50
-    lora_layers: False
-    single_image_ft: True

configs/train_floyd.yaml DELETED Viewed

@@ -1,32 +0,0 @@
-dataset:
-  name: 'mp3d'
-  num_views_low_res: 12
-  num_views_high_res: 1
-  image_root_dir: training/mp3d_skybox
-  fov: 90
-  rot_low_res: 30
-  rot_high_res: 10
-  resolution: 256
-  crop_size_high_res: 256
-train:
-  log_dir: high_res_upsample
-  lr: 0.0001
-test:
-  fuse_type: diffcollage # multidiff
-model:
-  guidance_scale: 9.
-  model_type: base
-  low_res_noise_level: 20
-  upsample_model:
-    num_coarse_cp_blocks: 5
-    lora_layers: True
-    homo_cp_attn: True
-    diff_timestep: 75
-  base_model:
-    model_id: DeepFloyd/IF-I-XL-v1.0
-    lora_layers: False
-    single_image_ft: False
-    diff_timestep: 50

configs/train_lora.yaml DELETED Viewed

@@ -1,28 +0,0 @@
-dataset:
-  num_views_low_res: 1
-  num_views_high_res: 1
-  image_root_dir: training/mp3d_skybox
-  fov: 90
-  rot_low_res: 45
-  resolution: 256
-train:
-  log_dir: high_res_upsample
-  lr: 0.0002
-test:
-  fuse_type: diffcollage # multidiff
-model:
-  model_id: stabilityai/stable-diffusion-2-base
-  guidance_scale: 9.
-  diff_timestep: 50
-  model_type: base
-  upsample_model:
-    num_coarse_cp_blocks: 5
-    lora_layers: True
-    homo_cp_attn: True
-  base_model:
-    lora_layers: True
-    single_image_ft: True

configs/train_mv.yaml DELETED Viewed

@@ -1,33 +0,0 @@
-dataset:
-  name: 'mp3d'
-  num_views_low_res: 8
-  num_views_high_res: 1
-  image_root_dir: training/mp3d_skybox
-  fov: 90
-  rot_low_res: 45
-  rot_high_res: 10
-  resolution: 512
-  resolution_high_res: 1024
-  crop_size_high_res: 256
-train:
-  log_dir: high_res_upsample
-  lr: 0.0001
-test:
-  fuse_type: diffcollage # multidiff
-model:
-  guidance_scale: 9.
-  model_type: base
-  low_res_noise_level: 20
-  upsample_model:
-    num_coarse_cp_blocks: 5
-    lora_layers: True
-    homo_cp_attn: True
-    diff_timestep: 75
-  base_model:
-    model_id: stabilityai/stable-diffusion-2-base
-    lora_layers: False
-    single_image_ft: False
-    diff_timestep: 50

configs/train_mv_256.yaml DELETED Viewed

@@ -1,33 +0,0 @@
-dataset:
-  name: 'mp3d'
-  num_views_low_res: 2
-  num_views_high_res: 1
-  image_root_dir: training/mp3d_skybox
-  fov: 90
-  rot_low_res: 45
-  rot_high_res: 10
-  resolution: 256
-  resolution_high_res: 1024
-  crop_size_high_res: 256
-train:
-  log_dir: high_res_upsample
-  lr: 0.00001
-test:
-  fuse_type: diffcollage # multidiff
-model:
-  guidance_scale: 9.
-  model_type: base
-  low_res_noise_level: 20
-  upsample_model:
-    num_coarse_cp_blocks: 5
-    lora_layers: True
-    homo_cp_attn: True
-    diff_timestep: 75
-  base_model:
-    model_id: stabilityai/stable-diffusion-2-base
-    lora_layers: False
-    single_image_ft: False
-    diff_timestep: 50

configs/upsample_gen_single.yaml DELETED Viewed

@@ -1,37 +0,0 @@
-dataset:
-  name: generation
-  num_views_low_res: 8
-  num_views_high_res: 8
-  image_root_dir: logs/tb_logs/test_mp3d_base_mv_all=1/version_1/images
-  resume_dir: logs/tb_logs/test_mp3d_upsample_seperate=2/version_0/images
-  fov: 90
-  rot_low_res: 45
-  rot_high_res: 45
-  resolution: 256
-  resolution_high_res: 1024
-  crop_size_high_res: 1024
-train:
-  log_dir: sd_upsampler
-  lr: 0.0002
-test:
-  fuse_type: single # multidiff
-model:
-  guidance_scale: 9.
-  diff_timestep: 1
-  low_res_noise_level: 50 # from the default SD upsampler setting
-  model_type: upsample
-  upsample_model:
-    model_id: stabilityai/stable-diffusion-x4-upscaler
-    num_coarse_cp_blocks: 5
-    lora_layers: False
-    homo_cp_attn: True
-    diff_timestep: 75
-    multiframe_fuse: False
-  base_model:
-    diff_timestep: 30
-    model_id: stabilityai/stable-diffusion-2-base
-    lora_layers: True

configs/upsample_generation.yaml DELETED Viewed

@@ -1,37 +0,0 @@
-dataset:
-  name: generation
-  num_views_low_res: 8
-  num_views_high_res: 8
-  image_root_dir: logs/tb_logs/test_mp3d_base_mv_all=1/version_1/images
-  resume_dir: logs/tb_logs/test_mp3d_upsample_all=7/version_0/images
-  fov: 90
-  rot_low_res: 45
-  rot_high_res: 45
-  resolution: 256
-  resolution_high_res: 1024
-  crop_size_high_res: 1024
-train:
-  log_dir: sd_upsampler
-  lr: 0.0002
-test:
-  fuse_type: single # multidiff
-model:
-  guidance_scale: 9.
-  diff_timestep: 1
-  low_res_noise_level: 1 # from the default SD upsampler setting
-  model_type: upsample
-  upsample_model:
-    model_id: stabilityai/stable-diffusion-x4-upscaler
-    num_coarse_cp_blocks: 5
-    lora_layers: False
-    homo_cp_attn: True
-    diff_timestep: 75
-    multiframe_fuse: True
-  base_model:
-    diff_timestep: 30
-    model_id: stabilityai/stable-diffusion-2-base
-    lora_layers: True

examples/3968940-PH.png DELETED Viewed

Binary file (206 kB)

examples/A_beautiful_cyborg_with_brown_hair_rgba.png DELETED Viewed

Git LFS Details

SHA256: 3dd8d815ba5bc0a7e17587f8a4d2cec64d196ba5b5f44fff3fed13e1783de366
Pointer size: 132 Bytes
Size of remote file: 1.13 MB

examples/A_bulldog_with_a_black_pirate_hat_rgba.png DELETED Viewed

Binary file (488 kB)

examples/A_pig_wearing_a_backpack_rgba.png DELETED Viewed

Binary file (652 kB)