gerqwen-audio / README.md
flozi00's picture
Update README.md
fcddfae verified
|
raw
history blame
3.18 kB
---
license: apache-2.0
language:
- de
---
# primeline/gerqwen-audio
## Einführung
Das Modell "primeline/gerqwen-audio" ist eine Weiterentwicklung der Qwen2-Audio-Serie, speziell angepasst und weitertrainiert für die deutsche Sprache. Dieses Modell ist darauf ausgelegt, verschiedene Audioeingaben zu akzeptieren und detaillierte Audioanalysen durchzuführen oder direkte textuelle Antworten auf Sprachanweisungen zu geben. Es unterstützt insbesondere:
* Analyse der Sprecher nach Altersgruppen und Geschlecht
* Spracherkennung
* Bewertung und Korrektur von Transkripten
Das Modell wurde von der [Primeline Gruppe](https://primeline-ai.com/de/) gesponsert und auf dem [Just Add AI GenAI Meetup 2](https://justadd.ai/de/genai-meetup-bremen/) vorgestellt.
Für weitere Details verweisen wir auf die [Original-Blogbeiträge](https://qwenlm.github.io/blog/qwen2-audio/) und [GitHub-Repositories](https://github.com/QwenLM/Qwen2-Audio) der Qwen-Modelle.
## Anforderungen
Das Modell "primeline/gerqwen-audio" basiert auf den neuesten Hugging Face Transformers. Wir empfehlen, die Bibliothek direkt aus der Quelle zu installieren mit dem Befehl `pip install git+https://github.com/huggingface/transformers`, um mögliche Fehler zu vermeiden.
## Schnellstart
Hier ein Codebeispiel, das zeigt, wie der Prozessor und das Modell geladen werden, um das vortrainierte "primeline/gerqwen-audio" Modell für die Generierung von Inhalten zu verwenden:
```python
from io import BytesIO
from urllib.request import urlopen
import librosa
from transformers import AutoProcessor, Qwen2AudioForConditionalGeneration
model = Qwen2AudioForConditionalGeneration.from_pretrained("primeline/gerqwen-audio", trust_remote_code=True)
processor = AutoProcessor.from_pretrained("primeline/gerqwen-audio", trust_remote_code=True)
prompt = "<|audio_bos|><|AUDIO|><|audio_eos|>Generiere die Transkription auf Deutsch:"
url = "https://beispiel-audio-url.de/audio.mp3"
audio, sr = librosa.load(BytesIO(urlopen(url).read()), sr=processor.feature_extractor.sampling_rate)
inputs = processor(text=prompt, audios=audio, return_tensors="pt")
generated_ids = model.generate(**inputs, max_length=256)
generated_ids = generated_ids[:, inputs.input_ids.size(1):]
response = processor.batch_decode(generated_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
```
## Zitation
Wenn Sie unsere Arbeit nützlich finden, zitieren Sie uns gerne. Beachten Sie, dass dieses Modell eine Weiterentwicklung der ursprünglichen Arbeiten von Qwen ist.
```BibTeX
@article{primeline-gerqwen-audio,
title={primeline/gerqwen-audio: Fortsetzung des Trainings für spezifische Audioanalyse-Aufgaben},
author={Originalautoren: Chu, Yunfei et al.},
journal={arXiv preprint arXiv:2407.10759, Weiterentwicklung für spezifische Aufgaben},
year={2024}
}
```
```BibTeX
@article{Qwen-Audio,
title={Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models},
author={Chu, Yunfei and Xu, Jin and Zhou, Xiaohuan and Yang, Qian and Zhang, Shiliang and Yan, Zhijie and Zhou, Chang and Zhou, Jingren},
journal={arXiv preprint arXiv:2311.07919},
year={2023}
}
```