danieldk HF Staff commited on 5 days ago

Commit

b65f8ab

1 Parent(s): 4dcf20d

Build (x86_64)

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

build/torch26-cxx11-cu118-x86_64-linux/quantization/__pycache__/__init__.cpython-312.pyc +0 -0
build/torch26-cxx11-cu118-x86_64-linux/quantization/__pycache__/_ops.cpython-312.pyc +0 -0
build/torch26-cxx11-cu118-x86_64-linux/quantization/__pycache__/compressed_tensors.cpython-312.pyc +0 -0
build/torch26-cxx11-cu118-x86_64-linux/quantization/__pycache__/cutlass.cpython-312.pyc +0 -0
build/torch26-cxx11-cu118-x86_64-linux/quantization/__pycache__/marlin.cpython-312.pyc +0 -0
build/torch26-cxx11-cu118-x86_64-linux/quantization/__pycache__/platforms.cpython-312.pyc +0 -0
build/torch26-cxx11-cu118-x86_64-linux/quantization/__pycache__/scalar_type.cpython-312.pyc +0 -0
build/torch26-cxx11-cu118-x86_64-linux/quantization/_ops.py +3 -3
build/torch26-cxx11-cu118-x86_64-linux/quantization/{_quantization_dfa7d18.abi3.so → _quantization_3313895.abi3.so} +2 -2
build/torch26-cxx11-cu118-x86_64-linux/quantization/utils/__pycache__/__init__.cpython-312.pyc +0 -0
build/torch26-cxx11-cu118-x86_64-linux/quantization/utils/__pycache__/marlin_utils.cpython-312.pyc +0 -0
build/torch26-cxx11-cu118-x86_64-linux/quantization/utils/__pycache__/marlin_utils_fp4.cpython-312.pyc +0 -0
build/torch26-cxx11-cu118-x86_64-linux/quantization/utils/__pycache__/marlin_utils_fp8.cpython-312.pyc +0 -0
build/torch26-cxx11-cu118-x86_64-linux/quantization/utils/__pycache__/quant_utils.cpython-312.pyc +0 -0
build/torch26-cxx11-cu118-x86_64-linux/quantization/utils/marlin_utils.py +3 -4
build/torch26-cxx11-cu118-x86_64-linux/quantization/utils/marlin_utils_fp4.py +6 -7
build/torch26-cxx11-cu118-x86_64-linux/quantization/utils/marlin_utils_fp8.py +3 -3
build/torch26-cxx11-cu118-x86_64-linux/quantization/utils/marlin_utils_test.py +1 -2
build/torch26-cxx11-cu118-x86_64-linux/quantization/utils/marlin_utils_test_24.py +1 -2
build/torch26-cxx11-cu118-x86_64-linux/quantization/utils/quant_utils.py +1 -1
build/torch26-cxx11-cu124-x86_64-linux/quantization/__pycache__/__init__.cpython-312.pyc +0 -0
build/torch26-cxx11-cu124-x86_64-linux/quantization/__pycache__/_ops.cpython-312.pyc +0 -0
build/torch26-cxx11-cu124-x86_64-linux/quantization/__pycache__/compressed_tensors.cpython-312.pyc +0 -0
build/torch26-cxx11-cu124-x86_64-linux/quantization/__pycache__/cutlass.cpython-312.pyc +0 -0
build/torch26-cxx11-cu124-x86_64-linux/quantization/__pycache__/marlin.cpython-312.pyc +0 -0
build/torch26-cxx11-cu124-x86_64-linux/quantization/__pycache__/platforms.cpython-312.pyc +0 -0
build/torch26-cxx11-cu124-x86_64-linux/quantization/__pycache__/scalar_type.cpython-312.pyc +0 -0
build/torch26-cxx11-cu124-x86_64-linux/quantization/_ops.py +3 -3
build/torch26-cxx11-cu124-x86_64-linux/quantization/{_quantization_dfa7d18.abi3.so → _quantization_3313895.abi3.so} +2 -2
build/torch26-cxx11-cu124-x86_64-linux/quantization/utils/__pycache__/__init__.cpython-312.pyc +0 -0
build/torch26-cxx11-cu124-x86_64-linux/quantization/utils/__pycache__/marlin_utils.cpython-312.pyc +0 -0
build/torch26-cxx11-cu124-x86_64-linux/quantization/utils/__pycache__/marlin_utils_fp4.cpython-312.pyc +0 -0
build/torch26-cxx11-cu124-x86_64-linux/quantization/utils/__pycache__/marlin_utils_fp8.cpython-312.pyc +0 -0
build/torch26-cxx11-cu124-x86_64-linux/quantization/utils/__pycache__/quant_utils.cpython-312.pyc +0 -0
build/torch26-cxx11-cu124-x86_64-linux/quantization/utils/marlin_utils.py +3 -4
build/torch26-cxx11-cu124-x86_64-linux/quantization/utils/marlin_utils_fp4.py +6 -7
build/torch26-cxx11-cu124-x86_64-linux/quantization/utils/marlin_utils_fp8.py +3 -3
build/torch26-cxx11-cu124-x86_64-linux/quantization/utils/marlin_utils_test.py +1 -2
build/torch26-cxx11-cu124-x86_64-linux/quantization/utils/marlin_utils_test_24.py +1 -2
build/torch26-cxx11-cu124-x86_64-linux/quantization/utils/quant_utils.py +1 -1
build/torch26-cxx11-cu126-x86_64-linux/quantization/__pycache__/__init__.cpython-312.pyc +0 -0
build/torch26-cxx11-cu126-x86_64-linux/quantization/__pycache__/_ops.cpython-312.pyc +0 -0
build/torch26-cxx11-cu126-x86_64-linux/quantization/__pycache__/compressed_tensors.cpython-312.pyc +0 -0
build/torch26-cxx11-cu126-x86_64-linux/quantization/__pycache__/cutlass.cpython-312.pyc +0 -0
build/torch26-cxx11-cu126-x86_64-linux/quantization/__pycache__/marlin.cpython-312.pyc +0 -0
build/torch26-cxx11-cu126-x86_64-linux/quantization/__pycache__/platforms.cpython-312.pyc +0 -0
build/torch26-cxx11-cu126-x86_64-linux/quantization/__pycache__/scalar_type.cpython-312.pyc +0 -0
build/torch26-cxx11-cu126-x86_64-linux/quantization/_ops.py +3 -3
build/torch26-cxx11-cu126-x86_64-linux/quantization/{_quantization_dfa7d18.abi3.so → _quantization_3313895.abi3.so} +2 -2
build/torch26-cxx11-cu126-x86_64-linux/quantization/utils/__pycache__/__init__.cpython-312.pyc +0 -0

build/torch26-cxx11-cu118-x86_64-linux/quantization/__pycache__/__init__.cpython-312.pyc ADDED Viewed

Binary file (1.02 kB). View file

build/torch26-cxx11-cu118-x86_64-linux/quantization/__pycache__/_ops.cpython-312.pyc ADDED Viewed

Binary file (538 Bytes). View file

build/torch26-cxx11-cu118-x86_64-linux/quantization/__pycache__/compressed_tensors.cpython-312.pyc ADDED Viewed

Binary file (5.33 kB). View file

build/torch26-cxx11-cu118-x86_64-linux/quantization/__pycache__/cutlass.cpython-312.pyc ADDED Viewed

Binary file (3.88 kB). View file

build/torch26-cxx11-cu118-x86_64-linux/quantization/__pycache__/marlin.cpython-312.pyc ADDED Viewed

Binary file (7.9 kB). View file

build/torch26-cxx11-cu118-x86_64-linux/quantization/__pycache__/platforms.cpython-312.pyc ADDED Viewed

Binary file (5.75 kB). View file

build/torch26-cxx11-cu118-x86_64-linux/quantization/__pycache__/scalar_type.cpython-312.pyc ADDED Viewed

Binary file (14.2 kB). View file

build/torch26-cxx11-cu118-x86_64-linux/quantization/_ops.py CHANGED Viewed

@@ -1,9 +1,9 @@
 import torch
-from . import _quantization_dfa7d18
-ops = torch.ops._quantization_dfa7d18
 def add_op_namespace_prefix(op_name: str):
     """
     Prefix op by namespace.
     """
-    return f"_quantization_dfa7d18::{op_name}"

 import torch
+from . import _quantization_3313895
+ops = torch.ops._quantization_3313895
 def add_op_namespace_prefix(op_name: str):
     """
     Prefix op by namespace.
     """
+    return f"_quantization_3313895::{op_name}"

build/torch26-cxx11-cu118-x86_64-linux/quantization/{_quantization_dfa7d18.abi3.so → _quantization_3313895.abi3.so} RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:05b3dbcc1c3200458ec526bc95169a8b286704dbbfe93b1b5bb580d490be4f3d
-size 155751904

 version https://git-lfs.github.com/spec/v1
+oid sha256:8234b0e279e6da2eb6bfe5a6a88635365f861d8a8cbe2a1c3340f507c37ca487
+size 155756104

build/torch26-cxx11-cu118-x86_64-linux/quantization/utils/__pycache__/__init__.cpython-312.pyc ADDED Viewed

Binary file (185 Bytes). View file

build/torch26-cxx11-cu118-x86_64-linux/quantization/utils/__pycache__/marlin_utils.cpython-312.pyc ADDED Viewed

Binary file (17.6 kB). View file

build/torch26-cxx11-cu118-x86_64-linux/quantization/utils/__pycache__/marlin_utils_fp4.cpython-312.pyc ADDED Viewed

Binary file (11.9 kB). View file

build/torch26-cxx11-cu118-x86_64-linux/quantization/utils/__pycache__/marlin_utils_fp8.cpython-312.pyc ADDED Viewed

Binary file (5.31 kB). View file

build/torch26-cxx11-cu118-x86_64-linux/quantization/utils/__pycache__/quant_utils.cpython-312.pyc ADDED Viewed

Binary file (20 kB). View file

build/torch26-cxx11-cu118-x86_64-linux/quantization/utils/marlin_utils.py CHANGED Viewed

@@ -6,8 +6,7 @@ from typing import Optional
 import numpy
 import torch
-import quantization as ops
-from quantization.scalar_type import ScalarType, scalar_types
 from .quant_utils import pack_cols, unpack_cols
@@ -383,7 +382,7 @@ def apply_gptq_marlin_linear(
                                                   device=input.device,
                                                   dtype=input.dtype)
-    output = ops.gptq_marlin_gemm(reshaped_x,
                                   None,
                                   weight,
                                   weight_scale,
@@ -429,7 +428,7 @@ def apply_awq_marlin_linear(
                                                   device=input.device,
                                                   dtype=input.dtype)
-    output = ops.gptq_marlin_gemm(reshaped_x,
                                   None,
                                   weight,
                                   weight_scale,

 import numpy
 import torch
+from .. import ScalarType, gptq_marlin_gemm, scalar_types
 from .quant_utils import pack_cols, unpack_cols
                                                   device=input.device,
                                                   dtype=input.dtype)
+    output = gptq_marlin_gemm(reshaped_x,
                                   None,
                                   weight,
                                   weight_scale,
                                                   device=input.device,
                                                   dtype=input.dtype)
+    output = gptq_marlin_gemm(reshaped_x,
                                   None,
                                   weight,
                                   weight_scale,

build/torch26-cxx11-cu118-x86_64-linux/quantization/utils/marlin_utils_fp4.py CHANGED Viewed

@@ -5,12 +5,11 @@ from typing import Optional
 import torch
-import quantization as ops
 from .marlin_utils import (
     USE_FP32_REDUCE_DEFAULT, marlin_make_workspace_new, marlin_permute_scales,
     should_use_atomic_add_reduce)
-from quantization.scalar_type import scalar_types
 FP4_MARLIN_SUPPORTED_GROUP_SIZES = [16]
@@ -90,7 +89,7 @@ def apply_fp4_marlin_linear(
                                                   device=input.device,
                                                   dtype=input.dtype)
-    output = ops.gptq_marlin_gemm(a=reshaped_x,
                                   c=None,
                                   b_q_weight=weight,
                                   b_scales=weight_scale,
@@ -135,7 +134,7 @@ def prepare_fp4_layer_for_marlin(layer: torch.nn.Module) -> None:
     perm = torch.empty(0, dtype=torch.int, device=device)
     qweight = layer.weight.view(torch.int32).T.contiguous()
-    marlin_qweight = ops.gptq_marlin_repack(b_q_weight=qweight,
                                             perm=perm,
                                             size_k=part_size_k,
                                             size_n=part_size_n,
@@ -192,7 +191,7 @@ def prepare_moe_fp4_layer_for_marlin(layer: torch.nn.Module) -> None:
         for i in range(e):
             qweight = weight[i].view(torch.int32).T.contiguous()
-            marlin_qweight = ops.gptq_marlin_repack(b_q_weight=qweight,
                                                     perm=perm,
                                                     size_k=size_k,
                                                     size_n=size_n,
@@ -263,7 +262,7 @@ def rand_marlin_weight_fp4_like(weight, group_size):
     weight_ref = weight_ref * global_scale.to(weight.dtype) * \
         scales.repeat_interleave(group_size, 1).to(weight.dtype)
-    marlin_qweight = ops.gptq_marlin_repack(
         b_q_weight=fp4_weight.view(torch.int32).T.contiguous(),
         perm=torch.empty(0, dtype=torch.int, device=device),
         size_k=size_k,

 import torch
+from .. import gptq_marlin_gemm, gptq_marlin_repack
 from .marlin_utils import (
     USE_FP32_REDUCE_DEFAULT, marlin_make_workspace_new, marlin_permute_scales,
     should_use_atomic_add_reduce)
+from ..scalar_type import scalar_types
 FP4_MARLIN_SUPPORTED_GROUP_SIZES = [16]
                                                   device=input.device,
                                                   dtype=input.dtype)
+    output = gptq_marlin_gemm(a=reshaped_x,
                                   c=None,
                                   b_q_weight=weight,
                                   b_scales=weight_scale,
     perm = torch.empty(0, dtype=torch.int, device=device)
     qweight = layer.weight.view(torch.int32).T.contiguous()
+    marlin_qweight = gptq_marlin_repack(b_q_weight=qweight,
                                             perm=perm,
                                             size_k=part_size_k,
                                             size_n=part_size_n,
         for i in range(e):
             qweight = weight[i].view(torch.int32).T.contiguous()
+            marlin_qweight = gptq_marlin_repack(b_q_weight=qweight,
                                                     perm=perm,
                                                     size_k=size_k,
                                                     size_n=size_n,
     weight_ref = weight_ref * global_scale.to(weight.dtype) * \
         scales.repeat_interleave(group_size, 1).to(weight.dtype)
+    marlin_qweight = gptq_marlin_repack(
         b_q_weight=fp4_weight.view(torch.int32).T.contiguous(),
         perm=torch.empty(0, dtype=torch.int, device=device),
         size_k=size_k,

build/torch26-cxx11-cu118-x86_64-linux/quantization/utils/marlin_utils_fp8.py CHANGED Viewed

@@ -5,7 +5,7 @@ from typing import Optional
 import torch
-import quantization as ops
 from .marlin_utils import USE_FP32_REDUCE_DEFAULT, marlin_make_workspace, marlin_permute_scales
@@ -51,7 +51,7 @@ def apply_fp8_marlin_linear(
                                                   device=input.device,
                                                   dtype=input.dtype)
-    output = ops.gptq_marlin_gemm(a=reshaped_x,
                                   c=None,
                                   b_q_weight=weight,
                                   b_scales=weight_scale,
@@ -104,7 +104,7 @@ def marlin_quant_fp8_torch(weight, group_size):
         weight_ref = fp8_weight.to(weight.dtype) * repeated_scales
     packed_weight = pack_fp8_to_int32(fp8_weight, False).T.contiguous()
-    marlin_qweight = ops.gptq_marlin_repack(
         b_q_weight=packed_weight,
         perm=torch.empty(0, dtype=torch.int, device=device),
         size_k=size_k,

 import torch
+from .. import gptq_marlin_gemm, gptq_marlin_repack
 from .marlin_utils import USE_FP32_REDUCE_DEFAULT, marlin_make_workspace, marlin_permute_scales
                                                   device=input.device,
                                                   dtype=input.dtype)
+    output = gptq_marlin_gemm(a=reshaped_x,
                                   c=None,
                                   b_q_weight=weight,
                                   b_scales=weight_scale,
         weight_ref = fp8_weight.to(weight.dtype) * repeated_scales
     packed_weight = pack_fp8_to_int32(fp8_weight, False).T.contiguous()
+    marlin_qweight = gptq_marlin_repack(
         b_q_weight=packed_weight,
         perm=torch.empty(0, dtype=torch.int, device=device),
         size_k=size_k,

build/torch26-cxx11-cu118-x86_64-linux/quantization/utils/marlin_utils_test.py CHANGED Viewed

@@ -5,8 +5,7 @@ from typing import List, Optional
 import numpy as np
 import torch
-from quantization.scalar_type import ScalarType
 from .marlin_utils import GPTQ_MARLIN_TILE, marlin_permute_scales, marlin_zero_points
 from .quant_utils import (
     get_pack_factor,

 import numpy as np
 import torch
+from ..scalar_type import ScalarType
 from .marlin_utils import GPTQ_MARLIN_TILE, marlin_permute_scales, marlin_zero_points
 from .quant_utils import (
     get_pack_factor,

build/torch26-cxx11-cu118-x86_64-linux/quantization/utils/marlin_utils_test_24.py CHANGED Viewed

@@ -6,8 +6,7 @@ from typing import List
 import numpy
 import torch
-from quantization.scalar_type import ScalarType
 from .marlin_utils_test import marlin_weights
 from .quant_utils import gptq_quantize_weights

 import numpy
 import torch
+from ..scalar_type import ScalarType
 from .marlin_utils_test import marlin_weights
 from .quant_utils import gptq_quantize_weights

build/torch26-cxx11-cu118-x86_64-linux/quantization/utils/quant_utils.py CHANGED Viewed

@@ -5,7 +5,7 @@ from typing import List, Optional
 import numpy
 import torch
-from quantization.scalar_type import ScalarType, scalar_types
 SUPPORTED_GPTQ_QUANT_TYPES = [scalar_types.uint4b8, scalar_types.uint8b128]
 SUPPORTED_GROUP_SIZES = [-1, 32, 64, 128]

 import numpy
 import torch
+from ..scalar_type import ScalarType, scalar_types
 SUPPORTED_GPTQ_QUANT_TYPES = [scalar_types.uint4b8, scalar_types.uint8b128]
 SUPPORTED_GROUP_SIZES = [-1, 32, 64, 128]

build/torch26-cxx11-cu124-x86_64-linux/quantization/__pycache__/__init__.cpython-312.pyc ADDED Viewed

Binary file (1.02 kB). View file

build/torch26-cxx11-cu124-x86_64-linux/quantization/__pycache__/_ops.cpython-312.pyc ADDED Viewed

Binary file (538 Bytes). View file

build/torch26-cxx11-cu124-x86_64-linux/quantization/__pycache__/compressed_tensors.cpython-312.pyc ADDED Viewed

Binary file (5.33 kB). View file

build/torch26-cxx11-cu124-x86_64-linux/quantization/__pycache__/cutlass.cpython-312.pyc ADDED Viewed

Binary file (3.88 kB). View file

build/torch26-cxx11-cu124-x86_64-linux/quantization/__pycache__/marlin.cpython-312.pyc ADDED Viewed

Binary file (7.9 kB). View file

build/torch26-cxx11-cu124-x86_64-linux/quantization/__pycache__/platforms.cpython-312.pyc ADDED Viewed

Binary file (5.75 kB). View file

build/torch26-cxx11-cu124-x86_64-linux/quantization/__pycache__/scalar_type.cpython-312.pyc ADDED Viewed

Binary file (14.2 kB). View file

build/torch26-cxx11-cu124-x86_64-linux/quantization/_ops.py CHANGED Viewed

@@ -1,9 +1,9 @@
 import torch
-from . import _quantization_dfa7d18
-ops = torch.ops._quantization_dfa7d18
 def add_op_namespace_prefix(op_name: str):
     """
     Prefix op by namespace.
     """
-    return f"_quantization_dfa7d18::{op_name}"

 import torch
+from . import _quantization_3313895
+ops = torch.ops._quantization_3313895
 def add_op_namespace_prefix(op_name: str):
     """
     Prefix op by namespace.
     """
+    return f"_quantization_3313895::{op_name}"

build/torch26-cxx11-cu124-x86_64-linux/quantization/{_quantization_dfa7d18.abi3.so → _quantization_3313895.abi3.so} RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b5dc49e9b5709f18d3e12ab2d76e37743c31cb2602d219e80173a9c5c0ba1acd
-size 159574040

 version https://git-lfs.github.com/spec/v1
+oid sha256:70790ec67aaa48046db424362f76724cf70ecc91bf479c88da71ea6592bb637f
+size 159578136

build/torch26-cxx11-cu124-x86_64-linux/quantization/utils/__pycache__/__init__.cpython-312.pyc ADDED Viewed

Binary file (185 Bytes). View file

build/torch26-cxx11-cu124-x86_64-linux/quantization/utils/__pycache__/marlin_utils.cpython-312.pyc ADDED Viewed

Binary file (17.6 kB). View file

build/torch26-cxx11-cu124-x86_64-linux/quantization/utils/__pycache__/marlin_utils_fp4.cpython-312.pyc ADDED Viewed

Binary file (11.9 kB). View file

build/torch26-cxx11-cu124-x86_64-linux/quantization/utils/__pycache__/marlin_utils_fp8.cpython-312.pyc ADDED Viewed

Binary file (5.31 kB). View file

build/torch26-cxx11-cu124-x86_64-linux/quantization/utils/__pycache__/quant_utils.cpython-312.pyc ADDED Viewed

Binary file (20 kB). View file

build/torch26-cxx11-cu124-x86_64-linux/quantization/utils/marlin_utils.py CHANGED Viewed

@@ -6,8 +6,7 @@ from typing import Optional
 import numpy
 import torch
-import quantization as ops
-from quantization.scalar_type import ScalarType, scalar_types
 from .quant_utils import pack_cols, unpack_cols
@@ -383,7 +382,7 @@ def apply_gptq_marlin_linear(
                                                   device=input.device,
                                                   dtype=input.dtype)
-    output = ops.gptq_marlin_gemm(reshaped_x,
                                   None,
                                   weight,
                                   weight_scale,
@@ -429,7 +428,7 @@ def apply_awq_marlin_linear(
                                                   device=input.device,
                                                   dtype=input.dtype)
-    output = ops.gptq_marlin_gemm(reshaped_x,
                                   None,
                                   weight,
                                   weight_scale,

 import numpy
 import torch
+from .. import ScalarType, gptq_marlin_gemm, scalar_types
 from .quant_utils import pack_cols, unpack_cols
                                                   device=input.device,
                                                   dtype=input.dtype)
+    output = gptq_marlin_gemm(reshaped_x,
                                   None,
                                   weight,
                                   weight_scale,
                                                   device=input.device,
                                                   dtype=input.dtype)
+    output = gptq_marlin_gemm(reshaped_x,
                                   None,
                                   weight,
                                   weight_scale,

build/torch26-cxx11-cu124-x86_64-linux/quantization/utils/marlin_utils_fp4.py CHANGED Viewed

@@ -5,12 +5,11 @@ from typing import Optional
 import torch
-import quantization as ops
 from .marlin_utils import (
     USE_FP32_REDUCE_DEFAULT, marlin_make_workspace_new, marlin_permute_scales,
     should_use_atomic_add_reduce)
-from quantization.scalar_type import scalar_types
 FP4_MARLIN_SUPPORTED_GROUP_SIZES = [16]
@@ -90,7 +89,7 @@ def apply_fp4_marlin_linear(
                                                   device=input.device,
                                                   dtype=input.dtype)
-    output = ops.gptq_marlin_gemm(a=reshaped_x,
                                   c=None,
                                   b_q_weight=weight,
                                   b_scales=weight_scale,
@@ -135,7 +134,7 @@ def prepare_fp4_layer_for_marlin(layer: torch.nn.Module) -> None:
     perm = torch.empty(0, dtype=torch.int, device=device)
     qweight = layer.weight.view(torch.int32).T.contiguous()
-    marlin_qweight = ops.gptq_marlin_repack(b_q_weight=qweight,
                                             perm=perm,
                                             size_k=part_size_k,
                                             size_n=part_size_n,
@@ -192,7 +191,7 @@ def prepare_moe_fp4_layer_for_marlin(layer: torch.nn.Module) -> None:
         for i in range(e):
             qweight = weight[i].view(torch.int32).T.contiguous()
-            marlin_qweight = ops.gptq_marlin_repack(b_q_weight=qweight,
                                                     perm=perm,
                                                     size_k=size_k,
                                                     size_n=size_n,
@@ -263,7 +262,7 @@ def rand_marlin_weight_fp4_like(weight, group_size):
     weight_ref = weight_ref * global_scale.to(weight.dtype) * \
         scales.repeat_interleave(group_size, 1).to(weight.dtype)
-    marlin_qweight = ops.gptq_marlin_repack(
         b_q_weight=fp4_weight.view(torch.int32).T.contiguous(),
         perm=torch.empty(0, dtype=torch.int, device=device),
         size_k=size_k,

 import torch
+from .. import gptq_marlin_gemm, gptq_marlin_repack
 from .marlin_utils import (
     USE_FP32_REDUCE_DEFAULT, marlin_make_workspace_new, marlin_permute_scales,
     should_use_atomic_add_reduce)
+from ..scalar_type import scalar_types
 FP4_MARLIN_SUPPORTED_GROUP_SIZES = [16]
                                                   device=input.device,
                                                   dtype=input.dtype)
+    output = gptq_marlin_gemm(a=reshaped_x,
                                   c=None,
                                   b_q_weight=weight,
                                   b_scales=weight_scale,
     perm = torch.empty(0, dtype=torch.int, device=device)
     qweight = layer.weight.view(torch.int32).T.contiguous()
+    marlin_qweight = gptq_marlin_repack(b_q_weight=qweight,
                                             perm=perm,
                                             size_k=part_size_k,
                                             size_n=part_size_n,
         for i in range(e):
             qweight = weight[i].view(torch.int32).T.contiguous()
+            marlin_qweight = gptq_marlin_repack(b_q_weight=qweight,
                                                     perm=perm,
                                                     size_k=size_k,
                                                     size_n=size_n,
     weight_ref = weight_ref * global_scale.to(weight.dtype) * \
         scales.repeat_interleave(group_size, 1).to(weight.dtype)
+    marlin_qweight = gptq_marlin_repack(
         b_q_weight=fp4_weight.view(torch.int32).T.contiguous(),
         perm=torch.empty(0, dtype=torch.int, device=device),
         size_k=size_k,

build/torch26-cxx11-cu124-x86_64-linux/quantization/utils/marlin_utils_fp8.py CHANGED Viewed

@@ -5,7 +5,7 @@ from typing import Optional
 import torch
-import quantization as ops
 from .marlin_utils import USE_FP32_REDUCE_DEFAULT, marlin_make_workspace, marlin_permute_scales
@@ -51,7 +51,7 @@ def apply_fp8_marlin_linear(
                                                   device=input.device,
                                                   dtype=input.dtype)
-    output = ops.gptq_marlin_gemm(a=reshaped_x,
                                   c=None,
                                   b_q_weight=weight,
                                   b_scales=weight_scale,
@@ -104,7 +104,7 @@ def marlin_quant_fp8_torch(weight, group_size):
         weight_ref = fp8_weight.to(weight.dtype) * repeated_scales
     packed_weight = pack_fp8_to_int32(fp8_weight, False).T.contiguous()
-    marlin_qweight = ops.gptq_marlin_repack(
         b_q_weight=packed_weight,
         perm=torch.empty(0, dtype=torch.int, device=device),
         size_k=size_k,

 import torch
+from .. import gptq_marlin_gemm, gptq_marlin_repack
 from .marlin_utils import USE_FP32_REDUCE_DEFAULT, marlin_make_workspace, marlin_permute_scales
                                                   device=input.device,
                                                   dtype=input.dtype)
+    output = gptq_marlin_gemm(a=reshaped_x,
                                   c=None,
                                   b_q_weight=weight,
                                   b_scales=weight_scale,
         weight_ref = fp8_weight.to(weight.dtype) * repeated_scales
     packed_weight = pack_fp8_to_int32(fp8_weight, False).T.contiguous()
+    marlin_qweight = gptq_marlin_repack(
         b_q_weight=packed_weight,
         perm=torch.empty(0, dtype=torch.int, device=device),
         size_k=size_k,

build/torch26-cxx11-cu124-x86_64-linux/quantization/utils/marlin_utils_test.py CHANGED Viewed

@@ -5,8 +5,7 @@ from typing import List, Optional
 import numpy as np
 import torch
-from quantization.scalar_type import ScalarType
 from .marlin_utils import GPTQ_MARLIN_TILE, marlin_permute_scales, marlin_zero_points
 from .quant_utils import (
     get_pack_factor,

 import numpy as np
 import torch
+from ..scalar_type import ScalarType
 from .marlin_utils import GPTQ_MARLIN_TILE, marlin_permute_scales, marlin_zero_points
 from .quant_utils import (
     get_pack_factor,

build/torch26-cxx11-cu124-x86_64-linux/quantization/utils/marlin_utils_test_24.py CHANGED Viewed

@@ -6,8 +6,7 @@ from typing import List
 import numpy
 import torch
-from quantization.scalar_type import ScalarType
 from .marlin_utils_test import marlin_weights
 from .quant_utils import gptq_quantize_weights

 import numpy
 import torch
+from ..scalar_type import ScalarType
 from .marlin_utils_test import marlin_weights
 from .quant_utils import gptq_quantize_weights

build/torch26-cxx11-cu124-x86_64-linux/quantization/utils/quant_utils.py CHANGED Viewed

@@ -5,7 +5,7 @@ from typing import List, Optional
 import numpy
 import torch
-from quantization.scalar_type import ScalarType, scalar_types
 SUPPORTED_GPTQ_QUANT_TYPES = [scalar_types.uint4b8, scalar_types.uint8b128]
 SUPPORTED_GROUP_SIZES = [-1, 32, 64, 128]

 import numpy
 import torch
+from ..scalar_type import ScalarType, scalar_types
 SUPPORTED_GPTQ_QUANT_TYPES = [scalar_types.uint4b8, scalar_types.uint8b128]
 SUPPORTED_GROUP_SIZES = [-1, 32, 64, 128]

build/torch26-cxx11-cu126-x86_64-linux/quantization/__pycache__/__init__.cpython-312.pyc ADDED Viewed

Binary file (1.02 kB). View file

build/torch26-cxx11-cu126-x86_64-linux/quantization/__pycache__/_ops.cpython-312.pyc ADDED Viewed

Binary file (538 Bytes). View file

build/torch26-cxx11-cu126-x86_64-linux/quantization/__pycache__/compressed_tensors.cpython-312.pyc ADDED Viewed

Binary file (5.33 kB). View file

build/torch26-cxx11-cu126-x86_64-linux/quantization/__pycache__/cutlass.cpython-312.pyc ADDED Viewed

Binary file (3.88 kB). View file

build/torch26-cxx11-cu126-x86_64-linux/quantization/__pycache__/marlin.cpython-312.pyc ADDED Viewed

Binary file (7.9 kB). View file

build/torch26-cxx11-cu126-x86_64-linux/quantization/__pycache__/platforms.cpython-312.pyc ADDED Viewed

Binary file (5.75 kB). View file

build/torch26-cxx11-cu126-x86_64-linux/quantization/__pycache__/scalar_type.cpython-312.pyc ADDED Viewed

Binary file (14.2 kB). View file

build/torch26-cxx11-cu126-x86_64-linux/quantization/_ops.py CHANGED Viewed

@@ -1,9 +1,9 @@
 import torch
-from . import _quantization_dfa7d18
-ops = torch.ops._quantization_dfa7d18
 def add_op_namespace_prefix(op_name: str):
     """
     Prefix op by namespace.
     """
-    return f"_quantization_dfa7d18::{op_name}"

 import torch
+from . import _quantization_3313895
+ops = torch.ops._quantization_3313895
 def add_op_namespace_prefix(op_name: str):
     """
     Prefix op by namespace.
     """
+    return f"_quantization_3313895::{op_name}"

build/torch26-cxx11-cu126-x86_64-linux/quantization/{_quantization_dfa7d18.abi3.so → _quantization_3313895.abi3.so} RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:af7fad3054f0981d175aa7dcabf9dbe3c556ba0dcee7f20a2c104abd17dce7a5
-size 160280624

 version https://git-lfs.github.com/spec/v1
+oid sha256:c33c0b9d3ba9e713cdb661ee669e95379212181902123b84161cf84dee599bca
+size 160276536

build/torch26-cxx11-cu126-x86_64-linux/quantization/utils/__pycache__/__init__.cpython-312.pyc ADDED Viewed

Binary file (185 Bytes). View file