ISTA-DASLab
/

Llama-2-7b-AQLM-2Bit-2x8-hf

Text Generation

text-generation-inference

Inference Endpoints

8-bit precision

Model card Files Files and versions Community

Andrei Panferov commited on Jan 30, 2024

Commit

400eeaa

·

1 Parent(s): aebd979

try except import

Files changed (1) hide show

modeling_llama_aqlm.py +5 -2

modeling_llama_aqlm.py CHANGED Viewed

@@ -56,8 +56,11 @@ from transformers.utils.import_utils import is_torch_fx_available
 from .configuration_llama_aqlm import LlamaConfig
 if is_flash_attn_2_available():
-    from flash_attn import flash_attn_func, flash_attn_varlen_func
-    from flash_attn.bert_padding import index_first_axis, pad_input, unpad_input  # noqa
 # This makes `_prepare_4d_causal_attention_mask` a leaf function in the FX graph.

 from .configuration_llama_aqlm import LlamaConfig
 if is_flash_attn_2_available():
+    try:
+        from flash_attn import flash_attn_func, flash_attn_varlen_func
+        from flash_attn.bert_padding import index_first_axis, pad_input, unpad_input  # noqa
+    except:
+        pass
 # This makes `_prepare_4d_causal_attention_mask` a leaf function in the FX graph.