Create README.md

d710030 verified 20 days ago

16.8 kB

	---
	license: apache-2.0
	language:
	- en
	pipeline_tag: text-generation
	library_name: transformers
	---

	# Monet: Mixture of Monosemantic Experts for Transformers

	## Model Summary

	Monet introduces a novel approach for improving mechanistic interpretability in large language models (LLMs) using a Sparse Mixture-of-Experts (SMoE) architecture with 262,144 experts. By integrating sparse dictionary learning directly into end-to-end pretraining, Monet tackles the core issue of polysemanticity—where single neurons encode multiple unrelated concepts—while preserving overall model performance.


	### Resources and Technical Documentation

	- GitHub Repository: https://github.com/dmis-lab/Monet
	- Paper: https://arxiv.org/abs/2412.04139
	- Model Hub: https://huggingface.co/MonetLLM
	- Demo: https://huggingface.co/spaces/MonetLLM/monet-vd-1.4B-100BT-hf-viewer

	### Available Checkpoints

	#### Base Models


	<table class="center">
	<tr>
	<td align="center"><b>Model</b></td>
	<td align="center"><b>Dataset</b></td>
	<td align="center"><b>#Params</b></td>
	<td align="center"><b>#Tokens</b></td>
	<td align="center"><b>Checkpoint</b></td>
	<td align="center"><b>Demo</b></td>
	</tr>
	<tr>
	<td align="center" rowspan="4"><b>Monet-VD</b></td>
	<td align="center" rowspan="3"><a href="https://huggingface.co/datasets/HuggingFaceFW/fineweb-edu">FineWeb-Edu</a></td>
	<td align="center">850M</td>
	<td align="center">100BT</td>
	<td><a href="https://huggingface.co/MonetLLM/monet-vd-850M-100BT-hf">monet-vd-850M-100BT-hf</a></td>
	<td></td>
	</tr>
	<tr>
	<td align="center">1.4B</td>
	<td align="center">100BT</td>
	<td><a href="https://huggingface.co/MonetLLM/monet-vd-1.4B-100BT-hf">monet-vd-1.4B-100BT-hf</a></td>
	<td><a href="https://huggingface.co/spaces/MonetLLM/monet-vd-1.4B-100BT-hf-viewer">Viewer</a></td>
	</tr>
	<tr>
	<td align="center">4.1B</td>
	<td align="center">100BT</td>
	<td><a href="https://huggingface.co/MonetLLM/monet-vd-4.1B-100BT-hf">monet-vd-4.1B-100BT-hf</a></td>
	<td></td>
	</tr>
	<tr>
	<td align="center"><a href="https://huggingface.co/datasets/bigcode/starcoderdata">StarCoderData</a></td>
	<td align="center">1.4B</td>
	<td align="center">100BT</td>
	<td><a href="https://huggingface.co/MonetLLM/codemonet-vd-1.4B-100BT-hf">codemonet-vd-1.4B-100BT-hf</a></td>
	<td><a href="https://huggingface.co/spaces/MonetLLM/codemonet-vd-1.4B-100BT-hf-viewer">Viewer</a></td>
	</tr>
	<tr>
	<td align="center" rowspan="3"><b>Monet-HD</b></td>
	<td align="center" rowspan="3"><a href="https://huggingface.co/datasets/HuggingFaceFW/fineweb-edu">FineWeb-Edu</a></td>
	<td align="center">850M</td>
	<td align="center">100BT</td>
	<td><a href="https://huggingface.co/MonetLLM/monet-hd-850M-100BT-hf">monet-hd-850M-100BT-hf</a></td>
	<td></td>
	</tr>
	<tr>
	<td align="center">1.4B</td>
	<td align="center">100BT</td>
	<td><a href="https://huggingface.co/MonetLLM/monet-hd-1.4B-100BT-hf">monet-hd-1.4B-100BT-hf</a></td>
	<td></td>
	</tr>
	<tr>
	<td align="center">4.1B</td>
	<td align="center">100BT</td>
	<td><a href="https://huggingface.co/MonetLLM/monet-hd-4.1B-100BT-hf">monet-hd-4.1B-100BT-hf</a></td>
	<td></td>
	</tr>
	</table>

	#### Instruction-Tuned Models

	<table class="center">
	<tr>
	<td align="center"><b>Model</b></td>
	<td align="center"><b>Purpose</b></td>
	<td align="center"><b>Recipe</b></td>
	<td align="center"><b>#Params</b></td>
	<td align="center"><b>Checkpoint</b></td>
	</tr>
	<tr>
	<td align="center" rowspan="2"><b>Monet-VD</b></td>
	<td align="center">Chat Completion</td>
	<td align="center"><a href="https://github.com/huggingface/alignment-handbook/tree/main/recipes/smollm">SmolLM</a></td>
	<td align="center">1.4B</td>
	<td><a href="https://huggingface.co/MonetLLM/monet-vd-1.4B-100BT-chat-hf">monet-vd-1.4B-100BT-chat-hf</a></td>
	</tr>
	<tr>
	<td align="center">Vision-Language Model</td>
	<td align="center"><a href="https://github.com/haotian-liu/LLaVA">LLaVA</a></td>
	<td align="center">1.6B</td>
	<td><a href="https://huggingface.co/MonetLLM/visionmonet-vd-1.4B-100BT-hf">visionmonet-vd-1.4B-100BT-hf</a></td>
	</tr>
	</table>

	## Evaluation

	### Open-Ended LLM Benchmarks
	<table>
	<thead>
	<th>Model</th><th>MMLU</th><th>ARC</th><th>WG</th><th>PIQA</th><th>SIQA</th><th>OBQA</th><th>HS</th><th>CSQA</th><th>Avg.</th>
	</thead>
	<tbody>
	<tr><td colspan="10" align="center"><b>0-shot</b></td></tr>
	<tr><td align="center"><b>Monet-HD 850M</b></td><td align="center">0.320</td><td align="center">0.460</td><td align="center">0.506</td><td align="center">0.699</td><td align="center">0.416</td><td align="center">0.364</td><td align="center">0.465</td><td align="center">0.337</td><td align="center">0.446</td></tr>
	<tr><td align="center"><b>Monet-VD 850M</b></td><td align="center">0.328</td><td align="center">0.456</td><td align="center">0.530</td><td align="center">0.708</td><td align="center">0.417</td><td align="center">0.356</td><td align="center">0.488</td><td align="center">0.343</td><td align="center">0.453</td></tr>
	<tr><td align="center"><b>Monet-HD 1.4B</b></td><td align="center">0.338</td><td align="center">0.471</td><td align="center">0.538</td><td align="center">0.714</td><td align="center">0.418</td><td align="center">0.382</td><td align="center">0.501</td><td align="center">0.339</td><td align="center">0.463</td></tr>
	<tr><td align="center"><b>Monet-VD 1.4B</b></td><td align="center">0.352</td><td align="center">0.495</td><td align="center">0.522</td><td align="center">0.727</td><td align="center">0.423</td><td align="center">0.418</td><td align="center">0.529</td><td align="center">0.363</td><td align="center">0.478</td></tr>
	<tr><td align="center"><b>Monet-HD 4.1B</b></td><td align="center">0.375</td><td align="center">0.558</td><td align="center">0.560</td><td align="center">0.741</td><td align="center">0.427</td><td align="center">0.414</td><td align="center">0.571</td><td align="center">0.379</td><td align="center">0.503</td></tr>
	<tr><td align="center"><b>Monet-VD 4.1B</b></td><td align="center">0.380</td><td align="center">0.547</td><td align="center">0.557</td><td align="center">0.751</td><td align="center">0.437</td><td align="center">0.424</td><td align="center">0.604</td><td align="center">0.389</td><td align="center">0.511</td></tr>
	<tr><td colspan="10" align="center"><b>5-shot</b></td></tr>
	<tr><td align="center"><b>Monet-HD 850M</b></td><td align="center">0.332</td><td align="center">0.537</td><td align="center">0.510</td><td align="center">0.697</td><td align="center">0.409</td><td align="center">0.346</td><td align="center">0.479</td><td align="center">0.420</td><td align="center">0.466</td></tr>
	<tr><td align="center"><b>Monet-VD 850M</b></td><td align="center">0.341</td><td align="center">0.548</td><td align="center">0.520</td><td align="center">0.709</td><td align="center">0.437</td><td align="center">0.368</td><td align="center">0.504</td><td align="center">0.454</td><td align="center">0.485</td></tr>
	<tr><td align="center"><b>Monet-HD 1.4B</b></td><td align="center">0.352</td><td align="center">0.544</td><td align="center">0.530</td><td align="center">0.720</td><td align="center">0.432</td><td align="center">0.360</td><td align="center">0.518</td><td align="center">0.441</td><td align="center">0.487</td></tr>
	<tr><td align="center"><b>Monet-VD 1.4B</b></td><td align="center">0.360</td><td align="center">0.547</td><td align="center">0.526</td><td align="center">0.730</td><td align="center">0.441</td><td align="center">0.422</td><td align="center">0.551</td><td align="center">0.501</td><td align="center">0.510</td></tr>
	<tr><td align="center"><b>Monet-HD 4.1B</b></td><td align="center">0.385</td><td align="center">0.603</td><td align="center">0.545</td><td align="center">0.742</td><td align="center">0.463</td><td align="center">0.412</td><td align="center">0.588</td><td align="center">0.545</td><td align="center">0.535</td></tr>
	<tr><td align="center"><b>Monet-VD 4.1B</b></td><td align="center">0.398</td><td align="center">0.625</td><td align="center">0.564</td><td align="center">0.761</td><td align="center">0.470</td><td align="center">0.438</td><td align="center">0.619</td><td align="center">0.525</td><td align="center">0.550</td></tr>
	</tbody>
	</table>

	### Detoxification

	Detoxification task performances are evaluated on the [Monet-VD 1.4B](MonetLLM/monet-vd-1.4B-100BT-hf) model.

	#### RealToxicityPrompts

	<table>
	<thead>
	<tr>
	<th rowspan="2">Masking<br/>Threshold</th>
	<th rowspan="2">Masking<br/>Ratio</th>
	<th colspan="2">Exp. Max. Toxicity</th>
	<th colspan="2">Toxicity Prob.</th>
	<th rowspan="2">Avg. Perf.</th>
	</tr>
	<tr>
	<th>Toxic</th>
	<th>Non-Toxic</th>
	<th>Toxic</th>
	<th>Non-Toxic</th>
	</tr>
	</thead>
	<tbody>
	<tr>
	<td align="center">–</td>
	<td align="center">–</td>
	<td align="center">0.795</td>
	<td align="center">0.269</td>
	<td align="center">0.926</td>
	<td align="center">0.08</td>
	<td align="center"><b>0.478</b></td>
	</tr>
	<tr>
	<td align="center">0.2</td>
	<td align="center">1.0%</td>
	<td align="center">0.767</td>
	<td align="center">0.268</td>
	<td align="center">0.909</td>
	<td align="center">0.07</td>
	<td align="center"><b>0.479</b></td>
	</tr>
	<tr>
	<td align="center">0.1</td>
	<td align="center">4.1%</td>
	<td align="center">0.657</td>
	<td align="center">0.270</td>
	<td align="center">0.768</td>
	<td align="center">0.08</td>
	<td align="center"><b>0.478</b></td>
	</tr>
	<tr>
	<td align="center">0.05</td>
	<td align="center">14.4%</td>
	<td align="center"><b>0.552</b></td>
	<td align="center"><b>0.256</b></td>
	<td align="center"><b>0.564</b></td>
	<td align="center"><b>0.05</b></td>
	<td align="center">0.467</td>
	</tr>
	</tbody>
	</table>

	#### ToxiGen
	<table>
	<thead>
	<tr>
	<th rowspan="2">Masking<br/>Threshold</th>
	<th rowspan="2">Masking<br/>Ratio</th>
	<th colspan="2">RoBERTa Score</th>
	<th rowspan="2">Avg. Perf.</th>
	</tr>
	<tr>
	<th>Hate</th>
	<th>Neutral</th>
	</tr>
	</thead>
	<tbody>
	<tr>
	<td align="center">–</td>
	<td align="center">–</td>
	<td align="center">0.642</td>
	<td align="center">0.035</td>
	<td align="center"><b>0.478</b></td>
	</tr>
	<tr>
	<td align="center">0.2</td>
	<td align="center">1.4%</td>
	<td align="center">0.643</td>
	<td align="center">0.033</td>
	<td align="center"><b>0.478</b></td>
	</tr>
	<tr>
	<td align="center">0.1</td>
	<td align="center">5.4%</td>
	<td align="center">0.504</td>
	<td align="center">0.028</td>
	<td align="center">0.473</td>
	</tr>
	<tr>
	<td align="center">0.05</td>
	<td align="center">15.0%</td>
	<td align="center"><b>0.430</b></td>
	<td align="center"><b>0.027</b></td>
	<td align="center">0.455</td>
	</tr>
	</tbody>
	</table>


	## Examples

	### Text Generation

	```python
	from transformers import pipeline

	model_name = "MonetLLM/monet-vd-1.4B-100BT-hf"
	pipe = pipeline(
	"text-generation",
	model_name,
	tokenizer=AutoTokenizer.from_pretrained(model_name),
	torch_dtype=torch.bfloat16,
	device_map="auto",
	trust_remote_code=True,
	)
	print(pipe("The key to life is", max_new_tokens=20, do_sample=True)[0]["generated_text"])
	```

	### Code Generation

	```python
	from transformers import pipeline

	model_name = "MonetLLM/codemonet-vd-1.4B-100BT-hf"
	pipe = pipeline(
	"text-generation",
	model_name,
	tokenizer=AutoTokenizer.from_pretrained(model_name),
	torch_dtype=torch.bfloat16,
	device_map="auto",
	trust_remote_code=True,
	)

	text = '''
	def print_len(x: str):
	"""For a given string x, print the length of x."""
	'''
	print(pipe(text, max_new_tokens=10)[0]["generated_text"].split("\n\n")[0])
	```

	### Chat Completion

	```python
	from transformers import pipeline

	model_name = "MonetLLM/codemonet-vd-1.4B-100BT-chat-hf"
	pipe = pipeline(
	"text-generation",
	model_name,
	tokenizer=AutoTokenizer.from_pretrained(model_name),
	torch_dtype=torch.bfloat16,
	device_map="auto",
	trust_remote_code=True,
	)

	text = tokenizer.apply_chat_template(
	[{"role": "user", "content": "Hi! How are you?"}],
	add_generation_prompt=True,
	tokenize=False,
	)
	print(pipe(text, max_new_tokens=30, do_sample=True)[0]["generated_text"])
	```

	### Using vLLM

	The custom implementation of vLLM is provided in [the repository](https://github.com/dmis-lab/Monet/blob/main/modeling_monet_vllm.py).

	```python
	from vllm import LLM, ModelRegistry, SamplingParams
	from modeling_monet_vllm import MonetForCausalLM

	# Register Monet architecture with vLLM
	ModelRegistry.register_model("MonetForCausalLM", MonetForCausalLM)

	model = LLM(
	"MonetLLM/monet-vd-1.4B-100BT-hf",
	trust_remote_code=True,
	dtype="bfloat16",
	gpu_memory_utilization=0.8
	)
	sampling_params = SamplingParams(max_tokens=20, temperature=1.0)
	print(model.generate("The key to life is", sampling_params)[0].outputs[0].text)
	```

	## Training
	### Model
	- Architecture: Monet
	- Pretraining tokens: 100B
	- Precision: bfloat16
	### Hardware
	- TPUs: TPU-v4-64 Pod Slice (supported by [TRC Program](https://sites.research.google/trc/about/))
	### Software
	- Training Framework: [Jax](https://github.com/jax-ml/jax), [Flax](https://github.com/google/flax)

	## Intended Use

	### Primary Intended Uses
	This model is designed to advance research on language models and serve as a foundational component for generative AI-driven functionalities. Its primary applications, mostly in English, include:

	- Mechanistic interpretability research for language models
	- Text generation with enhanced interpretability
	- Code generation (CodeMonet variant)
	- Chat completion (instruction-tuned variant)
	- Vision-language tasks (VisionMonet variant)

	### Out-of-Scope Uses
	This model has not been explicitly developed or tested for all potential downstream applications. Therefore:

	1. Limitations & Mitigations: Developers should be mindful of common language model limitations, and thoroughly evaluate and mitigate risks regarding accuracy, safety, and fairness—especially in high-stakes or high-risk scenarios.
	2. Legal & Regulatory Compliance: Developers must comply with any applicable laws and regulations (e.g., privacy, trade compliance), taking into account the model’s English-focused training (refer to <a href="https://huggingface.co/datasets/HuggingFaceFW/fineweb-edu">FineWeb-Edu</a>).
	3. No License Modification: Nothing in this Model Card modifies or restricts the license under which this model is released.
	4. Unsupported Programming Languages: Programming in languages not covered by <a href="https://huggingface.co/datasets/bigcode/starcoderdata">StarCoderData</a>(CodeMonet variant) is not within the model’s intended scope.

	## Model Architecture

	Monet introduces a novel Mixture-of-Experts (MoE) architecture with several key innovations:

	- Parameter-efficient expert decomposition: overall parameter count grows in proportion to the square root of the number of experts
	- Fine-grained expert specialization: offers clear insight into model behavior
	- Precise manipulation of knowledge: enables control over domain knowledge, programming language capabilities, and toxicity level.

	## Ethical Considerations

	### Transparency
	- Designed specifically for enhanced interpretability
	- Enables understanding of internal model behavior
	- Allows tracking of knowledge attribution

	### Control
	- Supports toxicity mitigation
	- Enables domain-specific knowledge control
	- Maintains performance while adjusting behavior

	## License and Usage
	Monet is licensed under the Apache 2.0 license. The model is primarily intended for research and educational use. Important licensing notes:

	- Instruction-tuned models have been fine-tuned using a dataset mix with outputs generated from third party models
	- Research and educational use is encouraged
	- Commercial use is subject to Apache 2.0 license terms

	## Citation
	```bibtex
	@article{park2024monet,
	title={{Monet: Mixture of Monosemantic Experts for Transformers}},
	author={Jungwoo Park and Young Jin Ahn and Kee-Eung Kim and Jaewoo Kang},
	journal={arXiv preprint arXiv:2404.05567},
	year={2024}
	}
	```