WAS SIND AUDIO TAGS?
Audio Tags sind Steuerbefehle, die du direkt in deinen Text schreibst. Sie
teilen dem Eleven v3 Modell mit, WIE eine Zeile gesprochen werden soll –
nicht nur WAS gesagt wird. Das Modell liest den Tag als Regieanweisung und
passt Ton, Tempo, Emotion und Lieferung entsprechend an.
Kurz gesagt: Audio Tags verwandeln Text-to-Speech in eine echte Performance.
FORMAT
Tags werden in eckige Klammern geschrieben:
[tag]
Großschreibung ist optional – [SHOUTING] und [shouting] funktionieren beide.
Tags können überall im Satz stehen: am Anfang, in der Mitte oder am Ende.
Beispiele:
[whispers] Ich glaube, jemand ist im Haus.
Er zögerte. [pause] Dann sagte er nichts mehr.
[excited] Das ist unglaublich!
WICHTIGE GRUNDREGELN
- Tags gelten ab dem Punkt, an dem sie stehen – sie beeinflussen alles
danach, bis ein neuer Tag eine andere Anweisung gibt. - Mehrere Tags können kombiniert werden:
[nervously][quietly] Ich bin nicht sicher, ob das funktioniert. - Tags sind keine XML-Struktur – kein schließender Tag nötig, kein
Attribut, kein Namespace. Einfach [tag] und fertig. - Das Modell interpretiert Tags kontextuell. Je klarer der Tag zum
umgebenden Text passt, desto besser das Ergebnis. - Nicht jede Stimme reagiert gleich auf jeden Tag. Experimentieren
lohnt sich.
ANWENDUNGSBEISPIELE
Spannung aufbauen:
[whispering] Hörst du das? [pause] Versteck dich. Sofort.
Emotionaler Wechsel:
[cheerfully] Alles läuft super! [pause][quietly] Zumindest sagt
er das.
Betonung und Rhythmus:
[drawn out] Soooo… du meinst also… [suspicious] du warst
die ganze Zeit dort?
Natürliche Reaktion:
[laughs] Das hätte ich nicht erwartet. [clears throat] Entschuldigung.
Lieferung steuern:
[rushed] Keine Zeit zu erklären, wir müssen jetzt los!
TAGS UND IHRE WIRKUNG: ÜBERSICHT
EMOTION
[happy] Fröhliche, positive Stimmung
[sad] Traurige, gedämpfte Lieferung
[angry] Wütend, angespannt
[excited] Aufgeregt, energiegeladen
[nervous] Nervös, unsicher
[frustrated] Frustriert, genervt
[tired] Erschöpft, matt
[surprised] Überrascht, ungläubig
[fearful] Ängstlich, besorgt
[disgusted] Angewidert
[proud] Stolz, aufrecht
[confused] Unsicher, verwirrt
[bored] Gelangweilt, flach
[hopeful] Hoffnungsvoll, optimistisch
[melancholic] Wehmütig, nachdenklich
[content] Zufrieden, ruhig
[enthusiastic] Mitreißend, begeistert
[sorrowful] Tief traurig
[warm] Herzlich, einladend
[cold] Distanziert, kühl
[earnest] Ernst, aufrichtig
[playful] Verspielt, locker
[sarcastic] Sarkastisch
[sympathetic] Einfühlsam
[romantic] Romantisch, weich
[dramatic] Dramatisch, betont
[intense] Intensiv, eindringlich
[cheerful] Fröhlich, leicht
[thoughtful] Nachdenklich, bedächtig
[confident] Selbstsicher, klar
[timid] Schüchtern, zurückhaltend
[wistful] Sehnsüchtig
LAUTSTÄRKE & ENERGIE
[whispering] Flüstern
[whispers] Flüstert (einmalige Aktion)
[shouting] Schreien
[shouts] Schreit (einmalige Aktion)
[quietly] Leise, gedämpft
[loudly] Laut, kräftig
[softly] Sanft, zart
[murmurs] Murmelt
TEMPO & RHYTHMUS
[pause] Kurze Pause
[long pause] Längere Pause
[breathes] Hörbares Einatmen
[rushed] Gehetzt, schnell
[slows down] Verlangsamt sich
[deliberate] Bewusst langsam und betont
[drawn out] Gedehnt, in die Länge gezogen
[rapid-fire] Sehr schnell, maschinell
[stammers] Stottert, stockt
[hesitant] Zögernd
[continues after a beat] Kleine Pause, dann weiter
BETONUNG & PRÄZISION
[emphasized] Betont das Folgende
[stress on next word] Besonderer Nachdruck auf das nächste Wort
[understated] Untertrieben, bewusst dezent
[flatly] Ausdruckslos, monoton
[questioning] Fragend, mit hochgezogener Intonation
[assertive] Bestimmt, direkt
MENSCHLICHE REAKTIONEN
[laughs] Lacht
[laughs softly] Lacht leise
[chuckles] Kichert
[giggle] Quietschend lachen
[big laugh] Lautes Auflachen
[sighs] Seufzt
[gasps] Schnappt nach Luft
[gulps] Schluckt
[clears throat] Räuspert sich
[sniffles] Schnieft
[groans] Stöhnt
[exhales] Atmet aus
[inhales sharply] Zieht scharf Luft ein
[yawns] Gähnt
[coughs] Hustet
[hmm] Nachdenkliches Hmm
[uh] Zögerndes Äh
CHARAKTER & STIL
[pirate voice] Piraten-Stimme
[robot voice] Roboter-Stimme
[narrator] Erzähler-Modus, distanziert
[storytelling] Geschichtenerzähler-Modus
[announcer] Ansager-Stil
[documentary tone] Dokumentarfilm-Ton
[dramatic tone] Dramatischer Erzählton
[conversational] Entspannt, gesprächig
[formal] Förmlich, professionell
[casual] Locker, informell
[mysterious] Geheimnisvoll
[ominous] Bedrohlich, unheilverkündend
[inspirational] Inspirierend, motivierend
[professorial] Lehrend, dozierend
AKZENTE
[American accent] Amerikanischer Akzent
[British accent] Britischer Akzent
[Southern US accent] Südstaaten-Akzent (USA)
[Australian accent] Australischer Akzent
[French accent] Französischer Akzent
[German accent] Deutscher Akzent
[Spanish accent] Spanischer Akzent
[Italian accent] Italienischer Akzent
[Scottish accent] Schottischer Akzent
[Irish accent] Irischer Akzent
DIALOG & MEHRERE SPRECHER
[interrupting] Unterbricht
[overlapping] Überlappend sprechen
[talking to self] Selbstgespräch, leise
[aside] Beiseite gesprochen (wie im Theater)
[in unison] Gemeinsam sprechen
KOMBINATIONSBEISPIELE
Audiobook-Spannung:
[whispering][pause] Ich dachte, wir wären allein.
[breathes][fearful] Offensichtlich lagen wir falsch.
Marketing-Voiceover:
[warm][confident] Das ist nicht einfach ein Tool.
[pause] Das ist dein Vorsprung.
Humor:
[cheerfully] Natürlich habe ich den Abgabetermin nicht vergessen.
[pause][flatly] Doch. Habe ich.
Tutorial:
[deliberate] Schritt eins: [pause] Öffne das Menü.
[pause] Schritt zwei: [pause] Klicke auf Einstellungen.
HINWEISE ZUR NUTZUNG
- Eleven v3 ist aktuell ein Alpha-Modell. Die Tag-Unterstützung entwickelt
sich weiter – nicht alle Tags funktionieren mit jeder Stimme gleich gut. - Professional Voice Clones (PVCs) sind noch nicht vollständig für v3
optimiert. Für beste Ergebnisse: Instant Voice Clones (IVC) oder
designte Stimmen verwenden. - Tags sind flexibel formulierbar. Das Modell versteht auch natürliche
Varianten wie [laughs softly], [very quietly] oder [getting louder]. - Weniger ist manchmal mehr: Zu viele Tags hintereinander können die
Natürlichkeit beeinträchtigen.
