Zu Content springen
Deutsch
  • Es gibt keine Vorschläge, da das Suchfeld leer ist.

Was ist das Visual Understanding Modul?

Umfassende Analyse von Bildern und Videos auf der Grundlage von Prompts.

Modul Beschreibung

Durchführung von Aufgaben der Visual Language Comprehension (Visuelles Sprachverständnis), wie z.B. Beantwortung von visuellen Fragen, Verstehen von Szenen und weiterführende Analysen basierend auf den Bildern.

Visual Language Comprehension (Visuelles Sprachverständnis)

Ist die Fähigkeit, Informationen zu interpretieren und zu verstehen, die durch visuelle Elemente wie Symbole, Bilder, Farben und Layouts vermittelt werden. Dazu gehören das Erkennen von Mustern, das Entschlüsseln kultureller oder kontextueller Bedeutungen und das Verknüpfen von Bildern mit Emotionen oder Konzepten. Akustische Informationen und Sprache werden nicht berücksichtigt.


Funktionsweise

  1. Wählen Sie die Mediendatei aus: Wählen Sie die Mediendatei, die Sie analysieren möchten.
  2. Aktivieren Sie das Modul "Visual Understanding": Wählen Sie in der linken Spalte das Modul "Visual Understanding" aus, geben Sie einen Prompt ein und klicken Sie auf die gelbe Schaltfläche „Modul hinzufügen“.
  3. Starten Sie die Analyse: Sie können entweder weitere Module hinzufügen oder die Analyse direkt starten, indem Sie auf „Analyse starten“ klicken.

Welche Einstellungen gibt es?

  • Prompt Aufforderung (Freies Textfeld)
    Sie können eine beliebige Aufforderung eingeben, je nach Länge des Ergebnisses wird die Analyse mehr Zeit in Anspruch nehmen.


BEISPIELE
Szenenbeschreibung:

  • "Beschreiben Sie die Handlungen, die in dieser Videoszene stattfinden."
  • "Welche Objekte und Personen sind in diesem Clip zu sehen?"

Inhaltszusammenfassung:

  • "Fassen Sie die wichtigsten Ereignisse in diesem 30-sekündigen Video zusammen."
  • "Geben Sie einen Überblick über dieses Sportspiel."

Emotions- und Tonanalyse:

  • "Wie ist die emotionale Stimmung in dieser Szene?"
  • "Sind die Charaktere im Video glücklich, traurig oder wütend?"

Highlight-Extraktion:

  • "Identifizieren Sie die spannendsten Momente in diesem Fußballspiel."
  • "Finden Sie Schlüsselszenen mit Dialogen in diesem Video."

Elemente-Erkennung:

  • "Welche Logos tauchen in dem Video auf?"
  • "Welche Namenseinblendungen waren sichtbar?"

Einblicke in das Zuschauerengagement:

  • "Welche visuellen Elemente stehen am häufigsten im Fokus?"
  • "Analysieren Sie die Gesichtsausdrücke der Zuschauer in diesem Fokusgruppen-Video."

Prompt Library & verwendete Prompts:
In dieser ersten Version sind eine Prompt-Bibliothek und die Möglichkeit, verwendete Prompts zu speichern, noch nicht verfügbar. Diese Funktionen werden in einem der nächsten Update eingeführt.

  • Modell (Dropdown)
    Sie können aus einer Vielzahl verfügbarer Modelle das für Ihre spezifische Aufgabe am besten geeignete auswählen. Die Liste der Modelle wird regelmäßig entsprechend den Kundenanforderungen aktualisiert. Wenn Sie ein bestimmtes Modell benötigen, wenden Sie sich bitte an unser Support-Team.
    • Qwen 2.5 VL 7B instruct:
      Dies ist die beste Wahl für komplexe Aufgaben, die eine hohe Genauigkeit und Argumentationsfähigkeit erfordern. Er ist stark im detaillierten visuellen Verständnis und in der Bearbeitung längerer oder komplexerer Abfragen. Wir empfehlen dieses Modell,  wenn Ihnen hochwertige Ergebnisse wichtiger sind als Effizienz und Geschwindigkeit. Besonders zu empfehlen bei Verwendung von "Structured Output"
    • Qwen 2.5 VL 3B instruct:
      Eine ausgewogene Option zwischen Leistung und Geschwindigkeit. Liefert zuverlässige Ergebnisse für die meisten visuellen Verständnisaufgaben und ist dabei leichter und schneller als das 7B-Modell. Geeignet für allgemeine Anwendungsfälle, bei denen Effizienz und Kosten eine Rolle spielen, Sie aber dennoch solide Genauigkeit für einfache Aufgaben wünschen. Nicht für "Structured Output" geeignet.
    • SmolVLM:
      Optimiert für leichtgewichtige, Echtzeit- oder ressourcenbeschränkte Szenarien. Liefert schnelle Antworten mit geringeren Rechenanforderungen und ist somit ideal für nahezu Echtzeitanforderungen oder einfache visuelle Aufgaben.  Nicht für "Structured Output" geeignet.
    • Weitere folgen demnächst (z. B. Teuken 7B und mehr)
  • Temperatur (0,0–1,0):
    Die Temperatur bestimmt, wie kreativ oder deterministisch die Antworten des Modells sind.
    • Eine niedrige Temperatur (z. B. 0,1–0,3) führt zu fokussierten und vorhersehbaren Ergebnissen. Das Modell orientiert sich dabei eng an den wahrscheinlichsten Antworten – ideal für sachliche und strukturierte Ausgaben.
    • Eine hohe Temperatur (z. B. 0,7–1,0) macht die Ausgaben kreativer und vielfältiger. Dadurch entstehen variantenreichere oder explorative Beschreibungen, die aber auch weniger relevante Details enthalten können.

BEISPIELE

  • Niedrige Temperatur: Technisches Bild-Tagging, barrierefreie ALT-Texte, Compliance-Einsätze
  • Hohe Temperatur: Kreative Beschreibungen, Storyboarding, konzeptuelle Exploration
  • Shot-Detection aktivieren (Kontrollkästchen).

    Wenn die Shot-Erkennung aktiviert ist, versucht unser Modul zur Erkennung von Schnitten, jeden Shot im Video in ein Segment zu unterteilen und den Analyse-Prompt auf jedes einzelne Segment anzuwenden. So erhalten Sie beispielsweise Shot-Beschreibungen mit Timecodes pro Einstellung. Wenn diese Option deaktiviert ist, wird der Prompt auf das gesamte Video angewendet.
  • Schwellenwert für die Shot-Detection (0–100):

    Der Schwellenwert definiert, wie unterschiedlich zwei benachbarte Frames sein müssen, damit ein Szenenwechsel ausgelöst wird, wenn der Unterschied zwischen ihnen den Schwellenwert überschreitet. Ein höherer Wert bedeutet einen strengeren Schwellenwert, was zu weniger Shots führt, während ein niedrigerer Wert einen weniger strengen Schwellenwert bedeutet, was zu mehr Shots führt.
  • Structured Output (Code Fenster)
    Eine Structured Output bedeutet, dass wir dem VLM eine Aufgabe zur Lösung vorgeben und ihm zusätzlich einen JSON-Code in Form einer Textstruktur zur Verfügung stellen. Mithilfe dieses Codes kann die Antwort vom Modell nun strukturiert werden und die Ergebnisse werden Maschinen-lesbar.

    Um eine funktionierende JSON-Struktur ohne Programmierkenntnisse zu erhalten, verwenden Sie am besten ein LLM, um Ideen und den fertigen JSON-Code zu generieren. Geben Sie das gewünschte Modell (z. B. Qwen 2.5 7B) am besten ebenfalls in dem Prompt an das LLMs mit ein. Anschließend erhalten Sie eine für Ihren Anwendungsfall ideale benutzerdefinierte Struktur.

    Um das Ganze verständlicher zu machen, finden Sie hier zwei Beispiele:


Beispiel für Structure Output 1: Vordefinierte Tags

Um dem VLM strenge Grenzen für die Auswahl vorzugeben, können Sie eine Kategorie definieren, z. B. „Jahreszeit:“, und dann innerhalb der JSON-Struktur eine Eingabeaufforderung für diese spezifische Aufgabe bereitstellen, z. B. „Welche Jahreszeit wird gezeigt? Es folgt der spezifische Prompt 'Wählen Sie eine aus:', gefolgt von den Tags, aus denen das VLM auswählen soll, z. B. „Sommer”, „Winter”, „Herbst”, „Frühling”, „Neutral”.

Das vollständige Beispiel lautet:

{
"season": "What season is shown? Choose one: ['Sommer', 'Winter', 'Herbst', 'Frühling', 'Neutral']"
}

Ein weiteres Beispiel für vorgegebene Antworten - in diesem Beispiel Kamerainformationen:

{
  "camera_type": "Describe the camera type or viewpoint. Choose one from: ['Static', 'Handheld', 'POV', 'Drone', 'CCTV', 'Dashcam', 'Bodycam', 'Crane', 'Tracking Shot', 'Studio', 'Other']. If the camera angle is identifiable, also include one from: ['Low angle', 'High angle', 'Eye level', 'Over-the-shoulder', 'Wide shot', 'Close-up', 'Medium shot']. Return both in an unordered list if applicable.Answer in German."
}

Beispiel für Structure Output 2: Freiform
Um das Modell dazu zu bringen, Antworten in Freiform zu liefern, legen Sie die Grenzen fest, innerhalb derer es antworten soll. Dies kann zum Beispiel für Textbeschreibungen oder zur Definition passender Content-Tags genutzt werden. In den meisten dieser Anwendungsfälle hat auch die gewählte Temperatur des Modells einen erheblichen Einfluss auf die Qualität der Antworten. Definieren Sie wie oben eine Kategorie (z. B. „Szenenbeschreibung”), fügen Sie eine Eingabeaufforderung für diese Kategorie hinzu und lassen Sie das Antwortfeld leer (z. B. „,”). Dadurch wird das Modell aufgefordert, das leere Feld mit einer frei formulierten Antwort zu füllen.

Das vollständige Beispiel für eine Szenenbeschreibung würde wie folgt aussehen:
{
"scene_description": ""scene_description": "Describe the scene in one complete sentence suitable for accessibility purposes. Include key actions, visible people, setting, objects, atmosphere, and inferred context. Avoid mentioning the viewer or the act of filming.Answer in German.","
}

Hier noch ein Beispiel, um Content Tags vorgeschlagen zu bekommen:

{
 "Generate 10 concise, social-media-friendly tags that capture the scene’s essence. Focus on people, actions, objects, setting, mood, and cultural or topical context. Prefer hashtags or phrases commonly used online that boost discoverability. Include readable text if visible and meaningful. Avoid redundancy and overly generic terms; highlight specific themes, emotions, or trends behind the scene.Answer in German."
}

Wichtig:

Wenn Sie Structured Output verwenden möchten, stellen Sie sicher, dass Sie Ihren Prompt so anpassen, dass er die Antwort unter Verwendung der vorgegebenen Struktur beantworten soll.
Und wählen Sie ein möglichst großes VLM, wie zum Beispiel das Qwen 2.5 7B.

Beispiel für so einen Prompt:

"You are a scene analysis assistant. Analyze the given image and return a JSON object describing the scene. Populate each field precisely according to the given instructions in the JSON schema below. Use exact categories, avoid vague language, and ensure each entry follows the required format."

Die JSON-Struktur muss natürlich ebenfalls mitgeliefert werden.


Anzeigen der Ergebnisse:

Module Bereich:

Auf der rechten Seite des Players sehen Sie in einem abgeschlossenen Job einen Abschnitt mit detaillierten Ergebnissen für jedes in der Analyse verwendete Modul. Wenn Sie auf den Modulnamen klicken, öffnet sich ein Dropdown-Menü mit spezifischen Parametern, die für die Fehlersuche oder die Anzeige von Metadaten nützlich sind.


Ergebnisse:

Die Ergebnisse werden in der Seitenleiste angezeigt, zusammen mit dem ursprünglichen Prompt (Eingabeaufforderung), die beide als Textfeld angezeigt werden.

Da dieses Modul aktuell keine Zeitstempel verwendet, kann es z.B. keine separaten Szenenbeschreibungen mit Timecode-basierten Informationen liefern. In einem späteren Release werden wir das Modul auch mit anderen AI-Modulen verknüpfen, z.B. mit einer Shot-Boundary Detection, um z.B. einzelne Sequenzen zusammenzufassen.

Neue Funktion
Da dies eine neu veröffentlichte Funktion ist, freuen wir uns über Feedback, Verbesserungsmöglichkeiten oder das melden von Fehler über unser Support Formular.