jburtoft
/

TDXL

Model card Files Files and versions Community

TDXL / unet /config.json

jburtoft

c821a69cb4cbeedf4df3448a295ec647fe2e9bef799346a39dc7cba7c0812293

37f5ca6 verified 9 months ago

raw

history blame

2.81 kB

	{
	"_class_name": "UNet2DConditionModel",
	"_commit_hash": null,
	"_diffusers_version": "0.25.0",
	"_name_or_path": "/home/ubuntu/.cache/huggingface/hub/models--ThinkDiffusion--ThinkDiffusionXL/snapshots/e31c4693b7f87128fee02fa6b16c4dc2ada13721/unet",
	"_use_default_values": [
	"reverse_transformer_layers_per_block"
	],
	"act_fn": "silu",
	"addition_embed_type": "text_time",
	"addition_embed_type_num_heads": 64,
	"addition_time_embed_dim": 256,
	"attention_head_dim": [
	5,
	10,
	20
	],
	"attention_type": "default",
	"block_out_channels": [
	320,
	640,
	1280
	],
	"center_input_sample": false,
	"class_embed_type": null,
	"class_embeddings_concat": false,
	"conv_in_kernel": 3,
	"conv_out_kernel": 3,
	"cross_attention_dim": 2048,
	"cross_attention_norm": null,
	"down_block_types": [
	"DownBlock2D",
	"CrossAttnDownBlock2D",
	"CrossAttnDownBlock2D"
	],
	"downsample_padding": 1,
	"dropout": 0.0,
	"dual_cross_attention": false,
	"encoder_hid_dim": null,
	"encoder_hid_dim_type": null,
	"flip_sin_to_cos": true,
	"freq_shift": 0,
	"in_channels": 4,
	"layers_per_block": 2,
	"mid_block_only_cross_attention": null,
	"mid_block_scale_factor": 1,
	"mid_block_type": "UNetMidBlock2DCrossAttn",
	"neuron": {
	"auto_cast": "all",
	"auto_cast_type": "bf16",
	"compiler_type": "neuronx-cc",
	"compiler_version": "2.12.68.0+4480452af",
	"disable_fallback": false,
	"disable_fast_relayout": false,
	"dynamic_batch_size": false,
	"input_names": [
	"sample",
	"timestep",
	"encoder_hidden_states",
	"text_embeds",
	"time_ids"
	],
	"model_type": "unet",
	"optlevel": "2",
	"output_attentions": false,
	"output_hidden_states": false,
	"output_names": [
	"sample"
	],
	"static_batch_size": 1,
	"static_height": 128,
	"static_num_beams": 1,
	"static_num_channels": 4,
	"static_sequence_length": 77,
	"static_width": 128
	},
	"norm_eps": 1e-05,
	"norm_num_groups": 32,
	"num_attention_heads": null,
	"num_class_embeds": null,
	"only_cross_attention": false,
	"out_channels": 4,
	"projection_class_embeddings_input_dim": 2816,
	"resnet_out_scale_factor": 1.0,
	"resnet_skip_time_act": false,
	"resnet_time_scale_shift": "default",
	"reverse_transformer_layers_per_block": null,
	"sample_size": 128,
	"task": "semantic-segmentation",
	"time_cond_proj_dim": null,
	"time_embedding_act_fn": null,
	"time_embedding_dim": null,
	"time_embedding_type": "positional",
	"timestep_post_act": null,
	"transformer_layers_per_block": [
	1,
	2,
	10
	],
	"transformers_version": null,
	"up_block_types": [
	"CrossAttnUpBlock2D",
	"CrossAttnUpBlock2D",
	"UpBlock2D"
	],
	"upcast_attention": null,
	"use_linear_projection": true
	}