KI Prompts für VEO 3: Virale Videos für TikTok, Instagram Reels und YouTube Shorts

67 % aller Nutzer entscheiden innerhalb von 2 Sekunden, ob sie weiterscrollen — und VEO 3 ist das erste KI-Tool, das dir erlaubt, genau diesen Moment per Prompt zu steuern. Wer die Prompt-Struktur kennt, produziert in Minuten Clips, die auf TikTok, Instagram Reels und YouTube Shorts viral gehen.

Was VEO 3 wirklich leistet

VEO 3 wurde von Google DeepMind entwickelt und ist seit Mai 2025 in Google Flow verfügbar. Das Modell generiert Videos mit bis zu 8 Sekunden Länge pro Clip — Szenen lassen sich aneinanderreihen. Besonders entscheidend ist die native Audio-Funktion: VEO 3 erzeugt Soundeffekte, Hintergrundgeräusche und synchronen Dialog direkt aus dem Prompt.

Das Wichtigste auf einen Blick:
  • VEO 3 generiert Videos mit nativem Audio — kein separates Voice-Over, kein externes Sound-Tool nötig. Das spart bis zu 80 % der Produktionszeit gegenüber klassischen Workflows.
  • Gib in jedem Prompt explizit „9:16 vertical portrait“ an — ohne diesen Hinweis liefert VEO 3 standardmäßig 16:9-Videos, die auf keiner Kurzform-Plattform algorithmisch bevorzugt werden.
  • Der stärkste Hook-Typ auf TikTok ist nicht der visuelle Schock — sondern die sofortige Handlung (mid-action): +41 % Retention gegenüber statischen Einstiegen.
  • Ein präziser Prompt mit 50–120 Wörtern und sechs Kernelementen (Subjekt, Aktion, Setting, Kamera, Licht, Audio) ist der einzige Hebel, der generischen KI-Content von viral-fähigem Material trennt.

Damit unterscheidet sich VEO 3 fundamental von Wettbewerbern wie OpenAI Sora oder Runway Gen-3. Du brauchst kein separates Audio-Tool, keinen Voice-Over-Künstler und kein aufwändiges Editing. Ein einziger Prompt liefert ein vollständiges Video-Asset.

Für Content-Teams bedeutet das: Produktionskosten sinken dramatisch. Wer generische Prompts nutzt, bekommt generische Videos. Wer Prompt-Engineering versteht, gewinnt den Algorithmus.

Funktion VEO 3 Sora (OpenAI) Runway Gen-3
Native Audio ✓ (Dialog + Soundeffekte)
Max. Auflösung 1080p 1080p 4K
Clip-Länge bis 8 Sek. bis 20 Sek. bis 10 Sek.
Cinematic Motion sehr hoch hoch mittel
Verfügbarkeit Google Flow (Ultra-Plan) ChatGPT Plus/Pro Runway-Abo
Prompt-Länge optimal 50–120 Wörter 30–80 Wörter 20–60 Wörter

VEO 3 verarbeitet sechs Kernelemente gleichzeitig — hier sind die entscheidenden Bausteine jedes erfolgreichen Prompts.

Die sechs Kernelemente jedes VEO 3 Prompts

Ein guter VEO 3 Prompt enthält immer: Subjekt, Aktion, Setting, Kamerabewegung, Lichtstimmung und Audio-Anweisung. Fehlt eines dieser Elemente, übernimmt VEO 3 eine Standardlösung — die selten zu einer viralen Ästhetik passt. Der Prompt ist bei VEO 3 wichtiger als bei anderen Tools, weil das Modell mehr Parameter gleichzeitig verarbeitet: Bild, Kamera, Licht, Ton und Stimmung in einer einzigen Eingabe.

Praxis-Tipp: Schreib deinen Prompt immer in dieser Reihenfolge: erst das Subjekt mit Kontext, dann die Bewegung, dann das Setting, dann Kamera, dann Licht, zuletzt Audio. VEO 3 verarbeitet Prompts sequenziell — was zuerst steht, gewichtet das Modell stärker. Wer den Audio-Befehl als letztes platziert, bekommt präzisere Soundausgaben.
  • Native Audio spart bis zu 80 % Produktionszeit.
  • Sechs Prompt-Elemente sind Pflicht, nicht optional.
  • Prompt-Reihenfolge beeinflusst die Modellgewichtung direkt.
  • Fehlende Elemente erzeugen generische Standardausgaben.

TikTok-Prompt-Formel

TikTok belohnt Videos mit einem starken Hook in den ersten 1–2 Sekunden. Laut internen TikTok-Daten aus 2024 entscheiden 67 % der Nutzer innerhalb der ersten 2 Sekunden, ob sie weiterscrollen. Dein VEO 3 Prompt muss also mit einem visuellen Knall beginnen — nicht mit einer Establishing Shot.

Für TikTok-Clips funktionieren drei bewährte Hook-Typen besonders stark: der visuelle Schock, die Neugier-Lücke und die sofortige Handlung. Jeder dieser Typen verlangt eine spezifische Prompt-Struktur.

Hook-Typ 1: Visueller Schock

Beginne mit einer extremen Nahaufnahme oder einem unerwarteten Objekt im Fokus. Beispiel-Prompt: „Extreme close-up of a human eye reflecting a burning city skyline, slow zoom out, cinematic, neon color grading, ambient fire crackling sound, dramatic orchestral sting. 9:16 vertical.“ Dieser Einstieg zwingt das Gehirn zur Aufmerksamkeit, bevor die rationale Filterfunktion greift.

Hook-Typ 2: Neugier-Lücke

Zeige etwas Unvollständiges. Beispiel-Prompt: „A person’s hand reaches into frame and drops a glowing golden key onto a wooden table. Camera slowly pushes in. Mysterious ambient sound, one soft question spoken: ‚Was wäre, wenn du die Antwort schon hättest?‘ 9:16 vertical.“ Die Neugier-Lücke erzeugt den stärksten Rewatch-Effekt — Nutzer sehen das Video mehrfach, weil sie die Antwort unbewusst suchen.

Hook-Typ 3: Sofortige Handlung

Starte mitten in der Szene — kein Aufbau, kein Intro. Beispiel-Prompt: „Mid-action shot: A young woman slams her laptop shut and sprints out of a modern office. Handheld shaky cam, harsh fluorescent light, the sound of running footsteps and a slamming door echo. 9:16 vertical.“ Dieser Typ erzeugt den höchsten Retention-Boost aller fünf getesteten Formate.

+41 % Retention durch Mid-Action-Hooks Videos, die mitten in einer Handlung beginnen, erzielen laut TikTok-Analysen den höchsten Retention-Boost aller Hook-Typen — deutlich mehr als emotionale Reaktionsshots (+22 %) oder Neugier-Lücken (+28 %).

TikTok Hook-Typ Prompt-Schlüsselwörter Ø Retention-Boost
Visueller Schock extreme close-up, sudden reveal, high contrast +34 %
Neugier-Lücke unfinished action, mysterious, partial reveal +28 %
Sofortige Handlung mid-action, handheld, dynamic motion +41 %
Emotionale Reaktion tears, laughter, shocked expression, reaction shot +22 %
Transformation before/after, time-lapse, morphing, transition +38 %

POV-Format und Text-Overlays

Besonders stark performt das POV-Format. Prompts wie „POV: You are walking through a futuristic Tokyo market at night, neon reflections on wet pavement, vendors shouting in Japanese, first-person perspective, 9:16“ erzeugen hohe Immersion und damit hohe Watch Time. Die Engagement Rate steigt, weil Nutzer das Video mehrfach ansehen.

Nutze Text-Overlays direkt im Prompt, um plattformnahes Design zu imitieren: „White bold subtitle text at bottom: ‚Das hätte ich früher wissen müssen.'“ VEO 3 rendert Text im Video — das erzeugt authentisches TikTok-Feeling ohne Nachbearbeitung. Für das vertikale Format gilt: „vertical frame, 9:16 aspect ratio, portrait orientation“ ist Pflicht in jedem TikTok-Prompt.

Wer TikTok-Content skalieren will, sollte sich ansehen, welche neuen TikTok-Funktionen den Algorithmus 2025 beeinflussen — darunter AI Alive und veränderte Feed-Kontrollmechanismen.

Praxis-Tipp: Das vertikale 9:16-Format ist nicht optional — es ist algorithmisch entscheidend. TikTok bevorzugt native vertikale Videos in der Ausspielung. Wer VEO 3 ohne expliziten Format-Hinweis nutzt, riskiert 16:9-Output, der auf der Plattform abgeschnitten oder abgewertet wird. Schreib „9:16 vertical portrait“ immer ans Ende jedes TikTok-Prompts — als festes Abschlusskürzel.
  • Mid-Action-Hooks erzielen +41 % Retention.
  • 9:16 Pflichtangabe für algorithmische Bevorzugung.
  • POV-Format steigert Watch Time durch Immersion.
  • Text-Overlays im Prompt ersetzen Nachbearbeitung.

Instagram Reels: Ästhetik trifft Algorithmus

Instagram Reels funktionieren nach anderen Regeln als TikTok. Die Plattform bevorzugt polierte Ästhetik, klare Botschaften und einen stärkeren Fokus auf Produkt- und Lifestyle-Content. Laut Meta-Daten aus Q1 2025 erhalten Reels mit professionellem Look eine um 23 % höhere organische Reichweite als roh wirkende Clips.

Für Instagram Reels empfehlen sich fünf Prompt-Kategorien, die jeweils eigene visuelle Sprachen verlangen. Wer die neuesten Instagram-Funktionen wie Reposts und den Friends-Tab kennt, versteht: Share-Faktor und Intimität sind die entscheidenden Algorithmus-Hebel.

Die fünf Reels-Kategorien zeigen, welche Prompt-Elemente für jede visuelle Sprache unverzichtbar sind.

Die fünf Reels-Kategorien im Prompt-Detail

  • Lifestyle-Ästhetik: Warme Farbtöne, natürliches Licht, authentische Momente. Schlüsselwörter: golden hour, bokeh background, soft natural lighting, warm color grade, 35mm film look.
  • Produkt-Fokus: Cleanshot-Stil mit neutralem Hintergrund. Schlüsselwörter: clean studio setup, white cyclorama, slow orbit camera, macro detail shot, product reveal.
  • Travel & Adventure: Epische Landschaften mit dramatischer Musik. Schlüsselwörter: drone shot, sweeping landscape, golden ratio composition, cinematic color grade, epic orchestral score.
  • Beauty & Fashion: Hochglanz, Zeitlupe, Details. Schlüsselwörter: slow motion 120fps, high-key lighting, fashion editorial, model in motion, fabric texture close-up.
  • Food & Beverage: Sensorische Trigger durch Audio. Schlüsselwörter: sizzling sound, pour shot, macro steam, lush color saturation, ASMR-style audio.

Ein konkretes Beispiel für eine Parfüm-Brand: „A glass bottle of amber perfume stands on a marble surface. Camera slowly orbits the bottle. Sunlight refracts through the glass, creating rainbow prisms. Soft background: blurred rose petals falling. Audio: subtle crystal chime, faint whisper ‚Find your signature.‘ Warm gold color grade. 9:16 vertical.“ Dieser Prompt erzeugt in VEO 3 einen Clip, der direkt als Paid-Reel einsetzbar ist — ohne Nachbearbeitung. Für skalierbare Produktinszenierungen lohnt sich auch der Einsatz von KI-Produktfotos als ergänzendes Asset.

Reels-Kategorie Pflicht-Prompt-Element Audio-Empfehlung Optimale Länge
Lifestyle golden hour, warm grade ambient nature sounds 7–15 Sek.
Produkt clean setup, orbit cam soft piano, product sound 6–10 Sek.
Travel drone shot, epic scale orchestral, wind sounds 10–20 Sek.
Beauty/Fashion slow motion, high-key light subtle electronic beat 8–12 Sek.
Food macro, sizzle shot ASMR, cooking sounds 6–9 Sek.

Call-to-Action direkt im Prompt

Für Ads auf Instagram Reels gilt: Integriere den Call-to-Action direkt in den Prompt. VEO 3 generiert Sprache nativ — nutze das konsequent: „A confident voice says: ‚Jetzt 30 % sparen — nur bis Sonntag.'“ So entsteht ein vollständiges Ad-Asset ohne externen Voice-Over. Das ist besonders für schnelle KPI-basierte Kampagneniterationen entscheidend.

Videos, die Nutzer aktiv verschicken, müssen emotional berühren oder einen konkreten Nutzen vermitteln. Der Share-Faktor ist der stärkste organische Reichweiten-Hebel auf Instagram — stärker als Saves oder Likes. Baue in jeden Prompt einen emotionalen Trigger oder einen informativen Moment ein, der diesen Impuls auslöst.

Praxis-Tipp: ASMR-Trigger in Food- und Beauty-Prompts sind der am meisten unterschätzte Hebel auf Instagram Reels. Beschreibe Sound nicht als Kategorie, sondern als Sinneserlebnis: nicht „cooking sounds“, sondern „the sharp sizzle of butter hitting a cast iron pan, followed by a low bubbling“ — VEO 3 erzeugt damit Audiosignaturen, die Nutzer physisch reagieren lassen. Das ist der Unterschied zwischen einem gesehenen und einem geteilten Video.
  • Polierte Ästhetik bringt 23 % mehr organische Reichweite.
  • Share-Faktor schlägt Likes als Algorithmus-Signal.
  • CTA nativ im Prompt ersetzt externen Voice-Over.
  • ASMR-Audio-Detail entscheidet über Sharing-Impuls.

YouTube Shorts: Watch Time optimieren

YouTube Shorts unterscheidet sich von TikTok und Instagram durch einen entscheidenden Faktor: Suchintention. YouTube ist die zweitgrößte Suchmaschine der Welt. Shorts, die mit suchrelevantem Content verknüpft sind, erhalten deutlich mehr organische Impressionen. Das verändert die Prompt-Strategie grundlegend.

Während du bei TikTok auf visuelle Emotion setzt, transportierst du bei YouTube Shorts Nutzen und Information. Shorts mit einem klaren Versprechen in der ersten Sekunde erreichen eine 44 % höhere Click-Through-Rate aus der Shorts-Shelf. Die neuen YouTube-Funktionen wie AI Overviews und KI-gestützte Shorts-Empfehlungen verstärken diesen Effekt weiter.

Diese vier Prompt-Strategien decken die stärksten YouTube-Shorts-Formate ab.

Vier Prompt-Strategien für YouTube Shorts

  1. Tutorial-Hook: Zeige sofort das Ergebnis, dann erkläre den Weg. Prompt: „A clean desk transformation: before (messy) → after (perfectly organized). Split-screen reveal, upbeat music, a voice says: ‚3 Schritte für deinen perfekten Workspace.‘ 9:16 vertical.“
  2. Fact-Reveal: Überrasche mit einer kontraintuitiven Information. Prompt: „A scientist in a lab holds up a glowing vial. Camera pushes in. Voice: ‚Diese Pflanze produziert mehr Sauerstoff als 100 Bäume.‘ Dramatic reveal sound, blue-white lab lighting. 9:16 vertical.“
  3. Story-Arc: Mini-Narrative mit Konflikt und Lösung. Prompt: „A young entrepreneur stares at an empty bank account screen. Time-lapse of 30 days. Final shot: same person smiling at a new laptop, celebrating. Voice: ‚Wie ich mit einem KI-Tool meinen Umsatz verdreifacht habe.‘ 9:16 vertical.“
  4. Ranking/List: Nummerierte Inhalte performen auf YouTube stark. Prompt: „Bold text overlays counting down from 5 to 1, each paired with a dynamic visual: ‚Top 5 Social-Media-Fehler — und wie du sie vermeidest.‘ Energetic background music, fast cuts, kinetic typography. 9:16 vertical.“

+61 % Views durch Story-Arc-Format YouTube Shorts mit Konflikt-Lösungs-Struktur erzielen den höchsten Views-Boost aller Kurzformat-Strategien — und konvertieren gleichzeitig am stärksten zu neuen Subscriber-Abonnements.

Shorts-Format Kern-Prompt-Elemente Ziel-KPI Avg. Views-Boost
Tutorial-Hook before/after, voice-over, result first Watch Time +52 %
Fact-Reveal scientist/authority figure, dramatic music Shares +39 %
Story-Arc conflict → solution, time-lapse Subscriber-Conversion +61 %
Ranking/List countdown, kinetic text, fast cuts CTR aus Shelf +44 %
Reaction/Commentary talking-head, expressive face, dialogue Comments +33 %

Technischer Hinweis: Clips zusammensetzen

YouTube Shorts verarbeitet Videos mit einem Seitenverhältnis von 9:16 und einer Mindestlänge von 15 Sekunden besser im Algorithmus. Generiere mit VEO 3 mehrere 8-Sekunden-Clips und füge sie im Schnitt zusammen. Gib dabei im Prompt eine konsistente Farbpalette und denselben Kamerastil an — damit die Clips nahtlos ineinandergreifen. Wer seinen YouTube-Kanal systematisch aufbauen will, findet in einer spezialisierten YouTube-Subscriber-Strategie den nötigen Rahmen dafür.

Für eine professionelle YouTube-Strategie lohnt sich außerdem die Auseinandersetzung mit Video-SEO — denn VEO 3 produziert das Asset, aber der Titel, die Beschreibung und die Tags entscheiden über die Auffindbarkeit.

  • Suchintention ist der YouTube-Shorts-Haupthebel.
  • Story-Arc-Format bringt +61 % Views.
  • Mehrere 8-Sekunden-Clips zusammensetzen für 15+ Sekunden.
  • Video-SEO entscheidet über Auffindbarkeit des Assets.

Fortgeschrittene Techniken

Wer VEO 3 auf professionellem Niveau einsetzt, braucht mehr als Basis-Prompts. Diese vier Methoden trennen generischen KI-Content von wirklich plattformoptimiertem Material.

Technik 1: Kamera-Sprache präzisieren

VEO 3 versteht Filmterminologie — nutze sie konsequent. Ein vager Prompt wie „zeige einen Menschen beim Laufen“ erzeugt ein Standardbild. Besser: „Low angle tracking shot, camera moves laterally at 1.5x speed as a runner passes, shallow depth of field, motion blur on background, crisp focus on subject.“ Präzise Kamerasprache ist der schnellste Weg von generic zu cinematic.

Technik 2: Emotionale Atmosphäre durch Licht

Licht ist das mächtigste Werkzeug für Stimmung. Nutze diese Schlüsselwörter gezielt nach gewünschter Emotion:

  • Energie und Motivation: high-key lighting, bright whites, warm sunlight, lens flare
  • Spannung und Mystery: chiaroscuro, single-source side light, deep shadows, candlelight
  • Luxus und Eleganz: soft box, fill light, jewel tones, metallic reflections
  • Nostalgie: warm sepia overlay, dust particles, vintage film grain
  • Tech und Innovation: cool blue LED, holographic glow, neon rim light, dark studio

Wer Midjourney für Stilreferenzen nutzt, kann diese Lichtstimmungen zunächst als Standbilder testen und die Schlüsselwörter dann direkt in VEO 3 Prompts übertragen.

Technik 3: Audio-First-Denken

VEO 3s Audio-Funktion ist einzigartig unter allen KI-Video-Tools. Überlege zuerst, welcher Sound das Scrollen stoppt — dann baue das Visual darum. ASMR-Trigger wie Knistern, Rauschen und Tippen funktionieren auf allen drei Plattformen stark. Beschreibe Audio mit Intensität: „loud sharp crack followed by soft echoing silence“ statt nur „a sound.“ Der Detailgrad der Audio-Beschreibung korreliert direkt mit der Präzision des generierten Sounds.

Praxis-Tipp: Die meisten Teams denken beim Prompt-Schreiben zuerst an das Bild — das ist der häufigste Fehler. VEO 3 ist das einzige KI-Tool mit nativem Audio. Wer Audio als Afterthought behandelt, verschenkt den einzigen echten Wettbewerbsvorteil des Tools. Schreib deinen nächsten Prompt von hinten: Starte mit dem Sound, der das Scrollen stoppt — und baue dann das passende Bild darum.

Technik 4: Prompt-Iteration systematisieren

Arbeite nie mit einem einzelnen Prompt. Erstelle eine Prompt-Matrix mit drei Variablen: Hook-Variante, Kamerastil, Audio-Stil. Das gibt dir 9 unterschiedliche Video-Varianten aus einem Grundkonzept. Teste alle 9 und analysiere A/B-Ergebnisse nach Watch Time, Shares und Saves — nicht nur nach Likes. Likes sind ein Vanity-Metric; Watch Time und Saves sind die algorithmisch relevanten Signale.

Für