--- license: apache-2.0 language: - de --- # primeline/gerqwen-audio ## Einführung Das Modell "primeline/gerqwen-audio" ist eine Weiterentwicklung der Qwen2-Audio-Serie, speziell angepasst und weitertrainiert für die deutsche Sprache. Dieses Modell ist darauf ausgelegt, verschiedene Audioeingaben zu akzeptieren und detaillierte Audioanalysen durchzuführen oder direkte textuelle Antworten auf Sprachanweisungen zu geben. Es unterstützt insbesondere: * Analyse der Sprecher nach Altersgruppen und Geschlecht * Spracherkennung * Bewertung und Korrektur von Transkripten Das Modell wurde von der [Primeline Gruppe](https://primeline-ai.com/de/) gesponsert und auf dem [Just Add AI GenAI Meetup 2](https://justadd.ai/de/genai-meetup-bremen/) vorgestellt. Für weitere Details verweisen wir auf die [Original-Blogbeiträge](https://qwenlm.github.io/blog/qwen2-audio/) und [GitHub-Repositories](https://github.com/QwenLM/Qwen2-Audio) der Qwen-Modelle. ## Anforderungen Das Modell "primeline/gerqwen-audio" basiert auf den neuesten Hugging Face Transformers. Wir empfehlen, die Bibliothek direkt aus der Quelle zu installieren mit dem Befehl `pip install git+https://github.com/huggingface/transformers`, um mögliche Fehler zu vermeiden. ## Schnellstart Hier ein Codebeispiel, das zeigt, wie der Prozessor und das Modell geladen werden, um das vortrainierte "primeline/gerqwen-audio" Modell für die Generierung von Inhalten zu verwenden: ```python from io import BytesIO from urllib.request import urlopen import librosa from transformers import AutoProcessor, Qwen2AudioForConditionalGeneration model = Qwen2AudioForConditionalGeneration.from_pretrained("primeline/gerqwen-audio", trust_remote_code=True) processor = AutoProcessor.from_pretrained("primeline/gerqwen-audio", trust_remote_code=True) prompt = "<|audio_bos|><|AUDIO|><|audio_eos|>Generiere die Transkription auf Deutsch:" url = "https://beispiel-audio-url.de/audio.mp3" audio, sr = librosa.load(BytesIO(urlopen(url).read()), sr=processor.feature_extractor.sampling_rate) inputs = processor(text=prompt, audios=audio, return_tensors="pt") generated_ids = model.generate(**inputs, max_length=256) generated_ids = generated_ids[:, inputs.input_ids.size(1):] response = processor.batch_decode(generated_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0] ``` ## Zitation Wenn Sie unsere Arbeit nützlich finden, zitieren Sie uns gerne. Beachten Sie, dass dieses Modell eine Weiterentwicklung der ursprünglichen Arbeiten von Qwen ist. ```BibTeX @article{primeline-gerqwen-audio, title={primeline/gerqwen-audio: Fortsetzung des Trainings für spezifische Audioanalyse-Aufgaben}, author={Originalautoren: Chu, Yunfei et al.}, journal={arXiv preprint arXiv:2407.10759, Weiterentwicklung für spezifische Aufgaben}, year={2024} } ``` ```BibTeX @article{Qwen-Audio, title={Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models}, author={Chu, Yunfei and Xu, Jin and Zhou, Xiaohuan and Yang, Qian and Zhang, Shiliang and Yan, Zhijie and Zhou, Chang and Zhou, Jingren}, journal={arXiv preprint arXiv:2311.07919}, year={2023} } ```