add vit and onnx

Files changed (9) hide show

onnx/swin32.onnx +3 -0
onnx/swin_ctrs.onnx +3 -0
onnx/vit32.onnx +3 -0
vits_eurosat/wandb/latest-run/files/config.yaml +163 -0
vits_eurosat/wandb/latest-run/files/src/best_model.pth +3 -0
vits_eurosat/wandb/latest-run/files/src/vit_mix_ctrs.yaml +81 -0
vits_scannet/wandb/latest-run/files/config.yaml +163 -0
vits_scannet/wandb/latest-run/files/src/best_model.pth +3 -0
vits_scannet/wandb/latest-run/files/src/vit_mix_ctrs.yaml +83 -0

onnx/swin32.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:588dd3567f6a9c6e890d85e06c5e973d5d3bd874f2767eb359e99fb17c47021f
+size 202214212

onnx/swin_ctrs.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7d5878a1300b29c2073f59c3045e0fbfb6a99d17f939e7d05716970ff44a34cc
+size 203092027

onnx/vit32.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:affdd7a4f26ff3deba302d1396b6b244ce2638669e40e0d94a1146760585eafa
+size 346501141

vits_eurosat/wandb/latest-run/files/config.yaml ADDED Viewed

	@@ -0,0 +1,163 @@

+wandb_version: 1
+CONFIG:
+  desc: null
+  value: vit_mix_ctrs.yaml
+FUSED_WINDOW_PROCESS:
+  desc: null
+  value: false
+MODEL:
+  desc: null
+  value:
+    NAME: ViT-B_16
+    TYPE: vit
+    DROP_PATH_RATE: 0.3
+    DROP_RATE: 0.0
+    clip_dim: 1024
+    PRETRAINED: pretrained_weights/ViT-B_16-224.npz
+    QUANTIZE_VERSION: 1
+TRAIN:
+  desc: null
+  value:
+    EPOCHS: 120
+    WARMUP_EPOCHS: 0
+    USE_CHECKPOINT: false
+    BASE_LR: 1.0e-06
+    WEIGHT_DECAY: 0.001
+    WARMUP_LR: 5.0e-07
+    MIN_LR: 5.0e-07
+    CLIP_GRAD: 5.0
+    LR_SCHEDULER:
+      NAME: cosine
+      DECAY_EPOCHS: 30
+      DECAY_RATE: 0.1
+      MULTISTEPS: []
+      WARMUP_PREFIX: true
+    OPTIMIZER:
+      NAME: adamw
+      EPS: 1.0e-08
+      BETAS:
+      - 0.9
+      - 0.999
+      MOMENTUM: 0.9
+    CRETERION:
+      NAME: TripletMarginLoss
+      TRIPLET_MARGIN: 0.3
+      MINING_METHOD:
+        POSITIVE: easy
+        NEGATIVE: random
+        TOTAL: semihard
+      NEG_NUM: 3
+      KD:
+        ENABLE: false
+        WEIGHT: 10
+      WEIGHT: 0.05
+DATA:
+  desc: null
+  value:
+    DATASET: eurosat
+    IMG_SIZE: 224
+    ROOT: dbs
+    BATCH_SIZE: 4
+    VAL_BATCH_SIZE: 32
+    EMBEDDING_BATCH_SIZE: 32
+    DEPTH_TRANSFORM: rgb
+    LABEL_TYPE: pseudo_labels
+    IS_SUBSET: true
+    DATASET_THRESHOLD: 0.25
+GPU:
+  desc: null
+  value: 0
+SEED:
+  desc: null
+  value: 1
+CLIP_MODEL:
+  desc: null
+  value:
+    NAME: ViT-g-14
+    PRETRAINED: laion2b_s34b_b88k
+MODAL:
+  desc: null
+  value: depth
+PHASE:
+  desc: null
+  value: train_ctrs
+CKPT:
+  desc: null
+  value: logs/vit_0216_143839/wandb/latest-run/files/src/best_model.pth
+MIX_INPUT:
+  desc: null
+  value:
+    ENABLE: true
+    NUM_MIX: 2
+    WEIGHTED: false
+ATTENTION:
+  desc: null
+  value:
+    ENABLE: false
+WEIGHTED_SAMPLE:
+  desc: null
+  value:
+    ENABLE: false
+quantization:
+  desc: null
+  value:
+    method: jacob
+    weight:
+      num_bits: 8
+      axis: per_channel
+      calib_method: max
+    activation:
+      num_bits: 8
+      axis: per_tensor
+      calib_method: max
+    calibration:
+      num_batch: 2
+      modal: rgbd
+    pre_calibration: false
+cmd:
+  desc: null
+  value: run.py --phase=train_ctrs --config=configs/eurosat/vit_mix_ctrs.yaml --quant_config=quantization_configs/d2_jacob.yaml
+_wandb:
+  desc: null
+  value:
+    code_path: code/run.py
+    python_version: 3.10.13
+    cli_version: 0.16.2
+    framework: huggingface
+    huggingface_version: 4.36.2
+    is_jupyter_run: false
+    is_kaggle_kernel: false
+    start_time: 1708335908.768161
+    t:
+      1:
+      - 1
+      - 5
+      - 11
+      - 41
+      - 49
+      - 53
+      - 55
+      - 63
+      - 80
+      2:
+      - 1
+      - 5
+      - 11
+      - 41
+      - 49
+      - 53
+      - 55
+      - 63
+      - 80
+      3:
+      - 3
+      - 13
+      - 16
+      - 23
+      4: 3.10.13
+      5: 0.16.2
+      6: 4.36.2
+      8:
+      - 5
+      13: linux-x86_64

vits_eurosat/wandb/latest-run/files/src/best_model.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:22dc81cd32da31bbe67a088b2b5049a00ea561ab562f61a0b354bf376c6f72d7
+size 346449478

vits_eurosat/wandb/latest-run/files/src/vit_mix_ctrs.yaml ADDED Viewed

	@@ -0,0 +1,81 @@

+CONFIG: vit_mix_ctrs.yaml
+FUSED_WINDOW_PROCESS: False
+MODEL:
+  NAME: 'ViT-B_16'
+  TYPE: "vit"
+  DROP_PATH_RATE: 0.3
+  DROP_RATE: 0.0
+  clip_dim: 1024
+  PRETRAINED: pretrained_weights/ViT-B_16-224.npz
+  QUANTIZE_VERSION: 1
+TRAIN:
+  EPOCHS: 120
+  WARMUP_EPOCHS: 0
+  USE_CHECKPOINT: False
+  BASE_LR: 1e-6
+  WEIGHT_DECAY: 1e-3
+  WARMUP_LR: 5e-7
+  MIN_LR: 5e-7
+  CLIP_GRAD: 5.0
+  LR_SCHEDULER:
+    NAME: "cosine"
+    DECAY_EPOCHS: 30
+    DECAY_RATE: 0.1
+    MULTISTEPS: []
+    WARMUP_PREFIX: True
+  OPTIMIZER:
+    NAME: "adamw"
+    EPS: 1e-8
+    BETAS: [0.9, 0.999]
+    MOMENTUM: 0.9
+  CRETERION:
+    NAME: "TripletMarginLoss"  # MSE
+    TRIPLET_MARGIN: 0.3
+    MINING_METHOD:
+      POSITIVE: "easy"  # easy, hard, random
+      NEGATIVE: "random"  # easy, hard, random
+      TOTAL: "semihard"   # all, semihard, hard
+    NEG_NUM: 3
+    KD:
+      ENABLE: False
+      WEIGHT: 10
+    WEIGHT: 5e-2
+DATA:
+  DATASET: "eurosat"
+  IMG_SIZE: 224
+  ROOT: "dbs"
+  BATCH_SIZE: 4
+  VAL_BATCH_SIZE: 32
+  EMBEDDING_BATCH_SIZE: 32
+  DEPTH_TRANSFORM: "rgb"
+  LABEL_TYPE: "pseudo_labels"  # "gt" or "clip_vitb32"
+  IS_SUBSET: True
+  DATASET_THRESHOLD: 0.25
+GPU: 0
+SEED: 1
+CLIP_MODEL:
+  NAME: "ViT-g-14"      # "ViT-B/32"
+  PRETRAINED: "laion2b_s34b_b88k"
+MODAL: "depth"  # "rgb" or "depth"
+PHASE: "train_ctrs"  # "train_ctrs" # "test"
+CKPT: "logs/vit_0216_143839/wandb/latest-run/files/src/best_model.pth"
+# [] Mix Input
+MIX_INPUT:
+  ENABLE: True
+  NUM_MIX: 2
+  WEIGHTED: False
+# [] Attention
+ATTENTION:
+  ENABLE: False
+# [] Weighted samples
+WEIGHTED_SAMPLE:
+  ENABLE: False

vits_scannet/wandb/latest-run/files/config.yaml ADDED Viewed

	@@ -0,0 +1,163 @@

+wandb_version: 1
+CONFIG:
+  desc: null
+  value: vit_mix_ctrs.yaml
+FUSED_WINDOW_PROCESS:
+  desc: null
+  value: false
+MODEL:
+  desc: null
+  value:
+    NAME: ViT-B_16
+    TYPE: vit
+    DROP_PATH_RATE: 0.3
+    DROP_RATE: 0.0
+    clip_dim: 1024
+    PRETRAINED: pretrained_weights/ViT-B_16-224.npz
+    QUANTIZE_VERSION: 1
+TRAIN:
+  desc: null
+  value:
+    EPOCHS: 120
+    WARMUP_EPOCHS: 0
+    USE_CHECKPOINT: false
+    BASE_LR: 1.0e-06
+    WEIGHT_DECAY: 0.001
+    WARMUP_LR: 5.0e-07
+    MIN_LR: 5.0e-07
+    CLIP_GRAD: 5.0
+    LR_SCHEDULER:
+      NAME: cosine
+      DECAY_EPOCHS: 30
+      DECAY_RATE: 0.1
+      MULTISTEPS: []
+      WARMUP_PREFIX: true
+    OPTIMIZER:
+      NAME: adamw
+      EPS: 1.0e-08
+      BETAS:
+      - 0.9
+      - 0.999
+      MOMENTUM: 0.9
+    CRETERION:
+      NAME: TripletMarginLoss
+      TRIPLET_MARGIN: 0.3
+      MINING_METHOD:
+        POSITIVE: easy
+        NEGATIVE: random
+        TOTAL: semihard
+      NEG_NUM: 3
+      KD:
+        ENABLE: false
+        WEIGHT: 10
+      WEIGHT: 0.05
+DATA:
+  desc: null
+  value:
+    DATASET: scannet
+    IMG_SIZE: 224
+    ROOT: dbs
+    BATCH_SIZE: 4
+    VAL_BATCH_SIZE: 32
+    EMBEDDING_BATCH_SIZE: 32
+    DEPTH_TRANSFORM: rgb
+    LABEL_TYPE: pseudo_labels
+    IS_SUBSET: true
+    DATASET_THRESHOLD: 0.25
+GPU:
+  desc: null
+  value: 0
+SEED:
+  desc: null
+  value: 1
+CLIP_MODEL:
+  desc: null
+  value:
+    NAME: ViT-g-14
+    PRETRAINED: laion2b_s34b_b88k
+MODAL:
+  desc: null
+  value: depth
+PHASE:
+  desc: null
+  value: train_ctrs
+CKPT:
+  desc: null
+  value: logs/vit_0219_164526/wandb/latest-run/files/src/best_model.pth
+MIX_INPUT:
+  desc: null
+  value:
+    ENABLE: true
+    NUM_MIX: 2
+    WEIGHTED: false
+ATTENTION:
+  desc: null
+  value:
+    ENABLE: false
+WEIGHTED_SAMPLE:
+  desc: null
+  value:
+    ENABLE: false
+quantization:
+  desc: null
+  value:
+    method: jacob
+    weight:
+      num_bits: 8
+      axis: per_channel
+      calib_method: max
+    activation:
+      num_bits: 8
+      axis: per_tensor
+      calib_method: max
+    calibration:
+      num_batch: 2
+      modal: rgbd
+    pre_calibration: false
+cmd:
+  desc: null
+  value: run.py --phase=train_ctrs --config=configs/scannet/vit_mix_ctrs.yaml --quant_config=quantization_configs/d2_jacob.yaml
+_wandb:
+  desc: null
+  value:
+    code_path: code/run.py
+    python_version: 3.10.13
+    cli_version: 0.16.2
+    framework: huggingface
+    huggingface_version: 4.37.1
+    is_jupyter_run: false
+    is_kaggle_kernel: false
+    start_time: 1708385324.534928
+    t:
+      1:
+      - 1
+      - 5
+      - 11
+      - 41
+      - 49
+      - 53
+      - 55
+      - 63
+      - 80
+      2:
+      - 1
+      - 5
+      - 11
+      - 41
+      - 49
+      - 53
+      - 55
+      - 63
+      - 80
+      3:
+      - 3
+      - 13
+      - 16
+      - 23
+      4: 3.10.13
+      5: 0.16.2
+      6: 4.37.1
+      8:
+      - 5
+      13: linux-x86_64

vits_scannet/wandb/latest-run/files/src/best_model.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5e3edfe8f477bac0369da9a6b3d7d51b1bc1f90694761b86129ab65441e6d963
+size 346449478

vits_scannet/wandb/latest-run/files/src/vit_mix_ctrs.yaml ADDED Viewed

	@@ -0,0 +1,83 @@

+CONFIG: vit_mix_ctrs.yaml
+FUSED_WINDOW_PROCESS: False
+MODEL:
+  NAME: 'ViT-B_16'
+  TYPE: "vit"
+  DROP_PATH_RATE: 0.3
+  DROP_RATE: 0.0
+  clip_dim: 1024
+  PRETRAINED: pretrained_weights/ViT-B_16-224.npz
+  QUANTIZE_VERSION: 1
+TRAIN:
+  EPOCHS: 120
+  WARMUP_EPOCHS: 0
+  USE_CHECKPOINT: False
+  BASE_LR: 1e-6
+  WEIGHT_DECAY: 1e-3
+  WARMUP_LR: 5e-7
+  MIN_LR: 5e-7
+  CLIP_GRAD: 5.0
+  LR_SCHEDULER:
+    NAME: "cosine"
+    DECAY_EPOCHS: 30
+    DECAY_RATE: 0.1
+    MULTISTEPS: []
+    WARMUP_PREFIX: True
+  OPTIMIZER:
+    NAME: "adamw"
+    EPS: 1e-8
+    BETAS: [0.9, 0.999]
+    MOMENTUM: 0.9
+  CRETERION:
+    NAME: "TripletMarginLoss"  # MSE
+    TRIPLET_MARGIN: 0.3
+    MINING_METHOD:
+      POSITIVE: "easy"  # easy, hard, random
+      NEGATIVE: "random"  # easy, hard, random
+      TOTAL: "semihard"   # all, semihard, hard
+    NEG_NUM: 3
+    KD:
+      ENABLE: False
+      WEIGHT: 10
+    WEIGHT: 5e-2
+DATA:
+  DATASET: "scannet"
+  IMG_SIZE: 224
+  ROOT: "dbs"
+  BATCH_SIZE: 4
+  VAL_BATCH_SIZE: 32
+  EMBEDDING_BATCH_SIZE: 32
+  DEPTH_TRANSFORM: "rgb"
+  LABEL_TYPE: "pseudo_labels"  # "gt" or "clip_vitb32"
+  IS_SUBSET: True
+  DATASET_THRESHOLD: 0.25
+GPU: 0
+SEED: 1
+CLIP_MODEL:
+  NAME: "ViT-g-14"      # "ViT-B/32"
+  PRETRAINED: "laion2b_s34b_b88k"
+MODAL: "depth"  # "rgb" or "depth"
+PHASE: "train_ctrs"  # "train_ctrs" # "test"
+CKPT: "logs/vit_0219_164526/wandb/latest-run/files/src/best_model.pth"
+# [] Mix Input
+MIX_INPUT:
+  ENABLE: True
+  NUM_MIX: 2
+  WEIGHTED: False
+# [] Attention
+ATTENTION:
+  ENABLE: False
+# [] Weighted samples
+WEIGHTED_SAMPLE:
+  ENABLE: False