modularStarEncoder
/

ModularStarEncoder

Feature Extraction

ModularStarEncoder

Model card Files Files and versions Community

andreagurioli1995 commited on Mar 6

Commit

1ed2cc0

·

verified ·

1 Parent(s): f6044a7

Update README.md

Files changed (1) hide show

README.md +1 -1

README.md CHANGED Viewed

@@ -20,7 +20,7 @@ To enhance efficiency, we replaced the causal self-attention layers with bidirec
 Finally, our implementation integrates FlashAttention V2 for faster inference.
-- **Paper:** [Link](https://arxiv.org/abs/2503.03008)
 - **Languages:** 600+ Programming languages

 Finally, our implementation integrates FlashAttention V2 for faster inference.
+- **Paper:** [One Model to Train them All: Hierarchical Self-Distillation for Enhanced Early Layer Embeddings](https://arxiv.org/abs/2503.03008)
 - **Languages:** 600+ Programming languages