KI Prompts für VEO 3: Virale Videos für TikTok, Instagram Reels und YouTube Shorts
67 % aller Nutzer entscheiden innerhalb von 2 Sekunden, ob sie weiterscrollen — und VEO 3 ist das erste KI-Tool, das dir erlaubt, genau diesen Moment per Prompt zu steuern. Wer die Prompt-Struktur kennt, produziert in Minuten Clips, die auf TikTok, Instagram Reels und YouTube Shorts viral gehen.
Was VEO 3 wirklich leistet
VEO 3 wurde von Google DeepMind entwickelt und ist seit Mai 2025 in Google Flow verfügbar. Das Modell generiert Videos mit bis zu 8 Sekunden Länge pro Clip — Szenen lassen sich aneinanderreihen. Besonders entscheidend ist die native Audio-Funktion: VEO 3 erzeugt Soundeffekte, Hintergrundgeräusche und synchronen Dialog direkt aus dem Prompt.
- VEO 3 generiert Videos mit nativem Audio — kein separates Voice-Over, kein externes Sound-Tool nötig. Das spart bis zu 80 % der Produktionszeit gegenüber klassischen Workflows.
- Gib in jedem Prompt explizit „9:16 vertical portrait“ an — ohne diesen Hinweis liefert VEO 3 standardmäßig 16:9-Videos, die auf keiner Kurzform-Plattform algorithmisch bevorzugt werden.
- Der stärkste Hook-Typ auf TikTok ist nicht der visuelle Schock — sondern die sofortige Handlung (mid-action): +41 % Retention gegenüber statischen Einstiegen.
- Ein präziser Prompt mit 50–120 Wörtern und sechs Kernelementen (Subjekt, Aktion, Setting, Kamera, Licht, Audio) ist der einzige Hebel, der generischen KI-Content von viral-fähigem Material trennt.
Damit unterscheidet sich VEO 3 fundamental von Wettbewerbern wie OpenAI Sora oder Runway Gen-3. Du brauchst kein separates Audio-Tool, keinen Voice-Over-Künstler und kein aufwändiges Editing. Ein einziger Prompt liefert ein vollständiges Video-Asset.
Für Content-Teams bedeutet das: Produktionskosten sinken dramatisch. Wer generische Prompts nutzt, bekommt generische Videos. Wer Prompt-Engineering versteht, gewinnt den Algorithmus.
| Funktion | VEO 3 | Sora (OpenAI) | Runway Gen-3 |
|---|---|---|---|
| Native Audio | ✓ (Dialog + Soundeffekte) | ✗ | ✗ |
| Max. Auflösung | 1080p | 1080p | 4K |
| Clip-Länge | bis 8 Sek. | bis 20 Sek. | bis 10 Sek. |
| Cinematic Motion | sehr hoch | hoch | mittel |
| Verfügbarkeit | Google Flow (Ultra-Plan) | ChatGPT Plus/Pro | Runway-Abo |
| Prompt-Länge optimal | 50–120 Wörter | 30–80 Wörter | 20–60 Wörter |
VEO 3 verarbeitet sechs Kernelemente gleichzeitig — hier sind die entscheidenden Bausteine jedes erfolgreichen Prompts.
Die sechs Kernelemente jedes VEO 3 Prompts
Ein guter VEO 3 Prompt enthält immer: Subjekt, Aktion, Setting, Kamerabewegung, Lichtstimmung und Audio-Anweisung. Fehlt eines dieser Elemente, übernimmt VEO 3 eine Standardlösung — die selten zu einer viralen Ästhetik passt. Der Prompt ist bei VEO 3 wichtiger als bei anderen Tools, weil das Modell mehr Parameter gleichzeitig verarbeitet: Bild, Kamera, Licht, Ton und Stimmung in einer einzigen Eingabe.
- Native Audio spart bis zu 80 % Produktionszeit.
- Sechs Prompt-Elemente sind Pflicht, nicht optional.
- Prompt-Reihenfolge beeinflusst die Modellgewichtung direkt.
- Fehlende Elemente erzeugen generische Standardausgaben.
TikTok-Prompt-Formel
TikTok belohnt Videos mit einem starken Hook in den ersten 1–2 Sekunden. Laut internen TikTok-Daten aus 2024 entscheiden 67 % der Nutzer innerhalb der ersten 2 Sekunden, ob sie weiterscrollen. Dein VEO 3 Prompt muss also mit einem visuellen Knall beginnen — nicht mit einer Establishing Shot.
Für TikTok-Clips funktionieren drei bewährte Hook-Typen besonders stark: der visuelle Schock, die Neugier-Lücke und die sofortige Handlung. Jeder dieser Typen verlangt eine spezifische Prompt-Struktur.
Hook-Typ 1: Visueller Schock
Beginne mit einer extremen Nahaufnahme oder einem unerwarteten Objekt im Fokus. Beispiel-Prompt: „Extreme close-up of a human eye reflecting a burning city skyline, slow zoom out, cinematic, neon color grading, ambient fire crackling sound, dramatic orchestral sting. 9:16 vertical.“ Dieser Einstieg zwingt das Gehirn zur Aufmerksamkeit, bevor die rationale Filterfunktion greift.
Hook-Typ 2: Neugier-Lücke
Zeige etwas Unvollständiges. Beispiel-Prompt: „A person’s hand reaches into frame and drops a glowing golden key onto a wooden table. Camera slowly pushes in. Mysterious ambient sound, one soft question spoken: ‚Was wäre, wenn du die Antwort schon hättest?‘ 9:16 vertical.“ Die Neugier-Lücke erzeugt den stärksten Rewatch-Effekt — Nutzer sehen das Video mehrfach, weil sie die Antwort unbewusst suchen.
Hook-Typ 3: Sofortige Handlung
Starte mitten in der Szene — kein Aufbau, kein Intro. Beispiel-Prompt: „Mid-action shot: A young woman slams her laptop shut and sprints out of a modern office. Handheld shaky cam, harsh fluorescent light, the sound of running footsteps and a slamming door echo. 9:16 vertical.“ Dieser Typ erzeugt den höchsten Retention-Boost aller fünf getesteten Formate.
+41 % Retention durch Mid-Action-Hooks Videos, die mitten in einer Handlung beginnen, erzielen laut TikTok-Analysen den höchsten Retention-Boost aller Hook-Typen — deutlich mehr als emotionale Reaktionsshots (+22 %) oder Neugier-Lücken (+28 %).
| TikTok Hook-Typ | Prompt-Schlüsselwörter | Ø Retention-Boost |
|---|---|---|
| Visueller Schock | extreme close-up, sudden reveal, high contrast | +34 % |
| Neugier-Lücke | unfinished action, mysterious, partial reveal | +28 % |
| Sofortige Handlung | mid-action, handheld, dynamic motion | +41 % |
| Emotionale Reaktion | tears, laughter, shocked expression, reaction shot | +22 % |
| Transformation | before/after, time-lapse, morphing, transition | +38 % |
POV-Format und Text-Overlays
Besonders stark performt das POV-Format. Prompts wie „POV: You are walking through a futuristic Tokyo market at night, neon reflections on wet pavement, vendors shouting in Japanese, first-person perspective, 9:16“ erzeugen hohe Immersion und damit hohe Watch Time. Die Engagement Rate steigt, weil Nutzer das Video mehrfach ansehen.
Nutze Text-Overlays direkt im Prompt, um plattformnahes Design zu imitieren: „White bold subtitle text at bottom: ‚Das hätte ich früher wissen müssen.'“ VEO 3 rendert Text im Video — das erzeugt authentisches TikTok-Feeling ohne Nachbearbeitung. Für das vertikale Format gilt: „vertical frame, 9:16 aspect ratio, portrait orientation“ ist Pflicht in jedem TikTok-Prompt.
Wer TikTok-Content skalieren will, sollte sich ansehen, welche neuen TikTok-Funktionen den Algorithmus 2025 beeinflussen — darunter AI Alive und veränderte Feed-Kontrollmechanismen.
- Mid-Action-Hooks erzielen +41 % Retention.
- 9:16 Pflichtangabe für algorithmische Bevorzugung.
- POV-Format steigert Watch Time durch Immersion.
- Text-Overlays im Prompt ersetzen Nachbearbeitung.
Instagram Reels: Ästhetik trifft Algorithmus
Instagram Reels funktionieren nach anderen Regeln als TikTok. Die Plattform bevorzugt polierte Ästhetik, klare Botschaften und einen stärkeren Fokus auf Produkt- und Lifestyle-Content. Laut Meta-Daten aus Q1 2025 erhalten Reels mit professionellem Look eine um 23 % höhere organische Reichweite als roh wirkende Clips.
Für Instagram Reels empfehlen sich fünf Prompt-Kategorien, die jeweils eigene visuelle Sprachen verlangen. Wer die neuesten Instagram-Funktionen wie Reposts und den Friends-Tab kennt, versteht: Share-Faktor und Intimität sind die entscheidenden Algorithmus-Hebel.
Die fünf Reels-Kategorien zeigen, welche Prompt-Elemente für jede visuelle Sprache unverzichtbar sind.
Die fünf Reels-Kategorien im Prompt-Detail
- Lifestyle-Ästhetik: Warme Farbtöne, natürliches Licht, authentische Momente. Schlüsselwörter: golden hour, bokeh background, soft natural lighting, warm color grade, 35mm film look.
- Produkt-Fokus: Cleanshot-Stil mit neutralem Hintergrund. Schlüsselwörter: clean studio setup, white cyclorama, slow orbit camera, macro detail shot, product reveal.
- Travel & Adventure: Epische Landschaften mit dramatischer Musik. Schlüsselwörter: drone shot, sweeping landscape, golden ratio composition, cinematic color grade, epic orchestral score.
- Beauty & Fashion: Hochglanz, Zeitlupe, Details. Schlüsselwörter: slow motion 120fps, high-key lighting, fashion editorial, model in motion, fabric texture close-up.
- Food & Beverage: Sensorische Trigger durch Audio. Schlüsselwörter: sizzling sound, pour shot, macro steam, lush color saturation, ASMR-style audio.
Ein konkretes Beispiel für eine Parfüm-Brand: „A glass bottle of amber perfume stands on a marble surface. Camera slowly orbits the bottle. Sunlight refracts through the glass, creating rainbow prisms. Soft background: blurred rose petals falling. Audio: subtle crystal chime, faint whisper ‚Find your signature.‘ Warm gold color grade. 9:16 vertical.“ Dieser Prompt erzeugt in VEO 3 einen Clip, der direkt als Paid-Reel einsetzbar ist — ohne Nachbearbeitung. Für skalierbare Produktinszenierungen lohnt sich auch der Einsatz von KI-Produktfotos als ergänzendes Asset.
| Reels-Kategorie | Pflicht-Prompt-Element | Audio-Empfehlung | Optimale Länge |
|---|---|---|---|
| Lifestyle | golden hour, warm grade | ambient nature sounds | 7–15 Sek. |
| Produkt | clean setup, orbit cam | soft piano, product sound | 6–10 Sek. |
| Travel | drone shot, epic scale | orchestral, wind sounds | 10–20 Sek. |
| Beauty/Fashion | slow motion, high-key light | subtle electronic beat | 8–12 Sek. |
| Food | macro, sizzle shot | ASMR, cooking sounds | 6–9 Sek. |
Call-to-Action direkt im Prompt
Für Ads auf Instagram Reels gilt: Integriere den Call-to-Action direkt in den Prompt. VEO 3 generiert Sprache nativ — nutze das konsequent: „A confident voice says: ‚Jetzt 30 % sparen — nur bis Sonntag.'“ So entsteht ein vollständiges Ad-Asset ohne externen Voice-Over. Das ist besonders für schnelle KPI-basierte Kampagneniterationen entscheidend.
Videos, die Nutzer aktiv verschicken, müssen emotional berühren oder einen konkreten Nutzen vermitteln. Der Share-Faktor ist der stärkste organische Reichweiten-Hebel auf Instagram — stärker als Saves oder Likes. Baue in jeden Prompt einen emotionalen Trigger oder einen informativen Moment ein, der diesen Impuls auslöst.
- Polierte Ästhetik bringt 23 % mehr organische Reichweite.
- Share-Faktor schlägt Likes als Algorithmus-Signal.
- CTA nativ im Prompt ersetzt externen Voice-Over.
- ASMR-Audio-Detail entscheidet über Sharing-Impuls.
YouTube Shorts: Watch Time optimieren
YouTube Shorts unterscheidet sich von TikTok und Instagram durch einen entscheidenden Faktor: Suchintention. YouTube ist die zweitgrößte Suchmaschine der Welt. Shorts, die mit suchrelevantem Content verknüpft sind, erhalten deutlich mehr organische Impressionen. Das verändert die Prompt-Strategie grundlegend.
Während du bei TikTok auf visuelle Emotion setzt, transportierst du bei YouTube Shorts Nutzen und Information. Shorts mit einem klaren Versprechen in der ersten Sekunde erreichen eine 44 % höhere Click-Through-Rate aus der Shorts-Shelf. Die neuen YouTube-Funktionen wie AI Overviews und KI-gestützte Shorts-Empfehlungen verstärken diesen Effekt weiter.
Diese vier Prompt-Strategien decken die stärksten YouTube-Shorts-Formate ab.
Vier Prompt-Strategien für YouTube Shorts
- Tutorial-Hook: Zeige sofort das Ergebnis, dann erkläre den Weg. Prompt: „A clean desk transformation: before (messy) → after (perfectly organized). Split-screen reveal, upbeat music, a voice says: ‚3 Schritte für deinen perfekten Workspace.‘ 9:16 vertical.“
- Fact-Reveal: Überrasche mit einer kontraintuitiven Information. Prompt: „A scientist in a lab holds up a glowing vial. Camera pushes in. Voice: ‚Diese Pflanze produziert mehr Sauerstoff als 100 Bäume.‘ Dramatic reveal sound, blue-white lab lighting. 9:16 vertical.“
- Story-Arc: Mini-Narrative mit Konflikt und Lösung. Prompt: „A young entrepreneur stares at an empty bank account screen. Time-lapse of 30 days. Final shot: same person smiling at a new laptop, celebrating. Voice: ‚Wie ich mit einem KI-Tool meinen Umsatz verdreifacht habe.‘ 9:16 vertical.“
- Ranking/List: Nummerierte Inhalte performen auf YouTube stark. Prompt: „Bold text overlays counting down from 5 to 1, each paired with a dynamic visual: ‚Top 5 Social-Media-Fehler — und wie du sie vermeidest.‘ Energetic background music, fast cuts, kinetic typography. 9:16 vertical.“
+61 % Views durch Story-Arc-Format YouTube Shorts mit Konflikt-Lösungs-Struktur erzielen den höchsten Views-Boost aller Kurzformat-Strategien — und konvertieren gleichzeitig am stärksten zu neuen Subscriber-Abonnements.
| Shorts-Format | Kern-Prompt-Elemente | Ziel-KPI | Avg. Views-Boost |
|---|---|---|---|
| Tutorial-Hook | before/after, voice-over, result first | Watch Time | +52 % |
| Fact-Reveal | scientist/authority figure, dramatic music | Shares | +39 % |
| Story-Arc | conflict → solution, time-lapse | Subscriber-Conversion | +61 % |
| Ranking/List | countdown, kinetic text, fast cuts | CTR aus Shelf | +44 % |
| Reaction/Commentary | talking-head, expressive face, dialogue | Comments | +33 % |
Technischer Hinweis: Clips zusammensetzen
YouTube Shorts verarbeitet Videos mit einem Seitenverhältnis von 9:16 und einer Mindestlänge von 15 Sekunden besser im Algorithmus. Generiere mit VEO 3 mehrere 8-Sekunden-Clips und füge sie im Schnitt zusammen. Gib dabei im Prompt eine konsistente Farbpalette und denselben Kamerastil an — damit die Clips nahtlos ineinandergreifen. Wer seinen YouTube-Kanal systematisch aufbauen will, findet in einer spezialisierten YouTube-Subscriber-Strategie den nötigen Rahmen dafür.
Für eine professionelle YouTube-Strategie lohnt sich außerdem die Auseinandersetzung mit Video-SEO — denn VEO 3 produziert das Asset, aber der Titel, die Beschreibung und die Tags entscheiden über die Auffindbarkeit.
- Suchintention ist der YouTube-Shorts-Haupthebel.
- Story-Arc-Format bringt +61 % Views.
- Mehrere 8-Sekunden-Clips zusammensetzen für 15+ Sekunden.
- Video-SEO entscheidet über Auffindbarkeit des Assets.
Fortgeschrittene Techniken
Wer VEO 3 auf professionellem Niveau einsetzt, braucht mehr als Basis-Prompts. Diese vier Methoden trennen generischen KI-Content von wirklich plattformoptimiertem Material.
Technik 1: Kamera-Sprache präzisieren
VEO 3 versteht Filmterminologie — nutze sie konsequent. Ein vager Prompt wie „zeige einen Menschen beim Laufen“ erzeugt ein Standardbild. Besser: „Low angle tracking shot, camera moves laterally at 1.5x speed as a runner passes, shallow depth of field, motion blur on background, crisp focus on subject.“ Präzise Kamerasprache ist der schnellste Weg von generic zu cinematic.
Technik 2: Emotionale Atmosphäre durch Licht
Licht ist das mächtigste Werkzeug für Stimmung. Nutze diese Schlüsselwörter gezielt nach gewünschter Emotion:
- Energie und Motivation: high-key lighting, bright whites, warm sunlight, lens flare
- Spannung und Mystery: chiaroscuro, single-source side light, deep shadows, candlelight
- Luxus und Eleganz: soft box, fill light, jewel tones, metallic reflections
- Nostalgie: warm sepia overlay, dust particles, vintage film grain
- Tech und Innovation: cool blue LED, holographic glow, neon rim light, dark studio
Wer Midjourney für Stilreferenzen nutzt, kann diese Lichtstimmungen zunächst als Standbilder testen und die Schlüsselwörter dann direkt in VEO 3 Prompts übertragen.
Technik 3: Audio-First-Denken
VEO 3s Audio-Funktion ist einzigartig unter allen KI-Video-Tools. Überlege zuerst, welcher Sound das Scrollen stoppt — dann baue das Visual darum. ASMR-Trigger wie Knistern, Rauschen und Tippen funktionieren auf allen drei Plattformen stark. Beschreibe Audio mit Intensität: „loud sharp crack followed by soft echoing silence“ statt nur „a sound.“ Der Detailgrad der Audio-Beschreibung korreliert direkt mit der Präzision des generierten Sounds.
Technik 4: Prompt-Iteration systematisieren
Arbeite nie mit einem einzelnen Prompt. Erstelle eine Prompt-Matrix mit drei Variablen: Hook-Variante, Kamerastil, Audio-Stil. Das gibt dir 9 unterschiedliche Video-Varianten aus einem Grundkonzept. Teste alle 9 und analysiere A/B-Ergebnisse nach Watch Time, Shares und Saves — nicht nur nach Likes. Likes sind ein Vanity-Metric; Watch Time und Saves sind die algorithmisch relevanten Signale.

4.9 / 5.0