Was ist das Visual Understanding Modul?

Modul Beschreibung

Durchführung von Aufgaben der Visual Language Comprehension (Visuelles Sprachverständnis), wie z.B. Beantwortung von visuellen Fragen, Verstehen von Szenen und weiterführende Analysen basierend auf den Bildern.

Visual Language Comprehension (Visuelles Sprachverständnis)

Ist die Fähigkeit, Informationen zu interpretieren und zu verstehen, die durch visuelle Elemente wie Symbole, Bilder, Farben und Layouts vermittelt werden. Dazu gehören das Erkennen von Mustern, das Entschlüsseln kultureller oder kontextueller Bedeutungen und das Verknüpfen von Bildern mit Emotionen oder Konzepten. Akustische Informationen und Sprache werden nicht berücksichtigt.

Funktionsweise

Wählen Sie die Mediendatei aus: Wählen Sie die Mediendatei, die Sie analysieren möchten.
Aktivieren Sie das Modul "Visual Understanding": Wählen Sie in der linken Spalte das Modul "Visual Understanding" aus, geben Sie einen Prompt ein und klicken Sie auf die gelbe Schaltfläche „Modul hinzufügen“.
Starten Sie die Analyse: Sie können entweder weitere Module hinzufügen oder die Analyse direkt starten, indem Sie auf „Analyse starten“ klicken.

Welche Einstellungen gibt es?

Prompt Aufforderung (Freies Textfeld)
Sie können eine beliebige Aufforderung eingeben, je nach Länge des Ergebnisses wird die Analyse mehr Zeit in Anspruch nehmen.

BEISPIELE
Szenenbeschreibung:

"Beschreiben Sie die Handlungen, die in dieser Videoszene stattfinden."
"Welche Objekte und Personen sind in diesem Clip zu sehen?"

Inhaltszusammenfassung:

"Fassen Sie die wichtigsten Ereignisse in diesem 30-sekündigen Video zusammen."
"Geben Sie einen Überblick über dieses Sportspiel."

Emotions- und Tonanalyse:

"Wie ist die emotionale Stimmung in dieser Szene?"
"Sind die Charaktere im Video glücklich, traurig oder wütend?"

Highlight-Extraktion:

"Identifizieren Sie die spannendsten Momente in diesem Fußballspiel."
"Finden Sie Schlüsselszenen mit Dialogen in diesem Video."

Elemente-Erkennung:

"Welche Logos tauchen in dem Video auf?"
"Welche Namenseinblendungen waren sichtbar?"

Einblicke in das Zuschauerengagement:

"Welche visuellen Elemente stehen am häufigsten im Fokus?"
"Analysieren Sie die Gesichtsausdrücke der Zuschauer in diesem Fokusgruppen-Video."

Prompt Library & verwendete Prompts:
In dieser ersten Version sind eine Prompt-Bibliothek und die Möglichkeit, verwendete Prompts zu speichern, noch nicht verfügbar. Diese Funktionen werden in einem der nächsten Update eingeführt.

Temperatur (0,0–1,0):
Die Temperatur bestimmt, wie kreativ oder deterministisch die Antworten des Modells sind.

- Eine niedrige Temperatur (z. B. 0,1–0,3) führt zu fokussierten und vorhersehbaren Ergebnissen. Das Modell orientiert sich dabei eng an den wahrscheinlichsten Antworten – ideal für sachliche und strukturierte Ausgaben.
- Eine hohe Temperatur (z. B. 0,7–1,0) macht die Ausgaben kreativer und vielfältiger. Dadurch entstehen variantenreichere oder explorative Beschreibungen, die aber auch weniger relevante Details enthalten können.

BEISPIELE

Niedrige Temperatur: Technisches Bild-Tagging, barrierefreie ALT-Texte, Compliance-Einsätze
Hohe Temperatur: Kreative Beschreibungen, Storyboarding, konzeptuelle Exploration

Shot-Detection aktivieren (Kontrollkästchen).

Wenn die Shot-Erkennung aktiviert ist, versucht unser Modul zur Erkennung von Schnitten, jeden Shot im Video in ein Segment zu unterteilen und den Analyse-Prompt auf jedes einzelne Segment anzuwenden. So erhalten Sie beispielsweise Shot-Beschreibungen mit Timecodes pro Einstellung. Wenn diese Option deaktiviert ist, wird der Prompt auf das gesamte Video angewendet.
Schwellenwert für die Shot-Detection (0–100):

Der Schwellenwert definiert, wie unterschiedlich zwei benachbarte Frames sein müssen, damit ein Szenenwechsel ausgelöst wird, wenn der Unterschied zwischen ihnen den Schwellenwert überschreitet. Ein höherer Wert bedeutet einen strengeren Schwellenwert, was zu weniger Shots führt, während ein niedrigerer Wert einen weniger strengen Schwellenwert bedeutet, was zu mehr Shots führt.

Anzeigen der Ergebnisse:

Module Bereich:

Auf der rechten Seite des Players sehen Sie in einem abgeschlossenen Job einen Abschnitt mit detaillierten Ergebnissen für jedes in der Analyse verwendete Modul. Wenn Sie auf den Modulnamen klicken, öffnet sich ein Dropdown-Menü mit spezifischen Parametern, die für die Fehlersuche oder die Anzeige von Metadaten nützlich sind.

Ergebnisse:

Die Ergebnisse werden in der Seitenleiste angezeigt, zusammen mit dem ursprünglichen Prompt (Eingabeaufforderung), die beide als Textfeld angezeigt werden.

Da dieses Modul aktuell keine Zeitstempel verwendet, kann es z.B. keine separaten Szenenbeschreibungen mit Timecode-basierten Informationen liefern. In einem späteren Release werden wir das Modul auch mit anderen AI-Modulen verknüpfen, z.B. mit einer Shot-Boundary Detection, um z.B. einzelne Sequenzen zusammenzufassen.

Neue Funktion
Da dies eine neu veröffentlichte Funktion ist, freuen wir uns über Feedback, Verbesserungsmöglichkeiten oder das melden von Fehler über unser Support Formular.