Was ist das Advanced Speechrecognition Modul?

Neue Funktion:
Diese Funktion wurde gerade veröffentlicht und ist eine Weiterentwicklung unserer Speech Recognition. Es handelt sich um eine Composite AI-Funktion, die die Speech Recognition mit dem Speaker Identification-Modul des Deep Media Analyzers verbindet.

Hinweis:
Da es sich um eine komplette Neuentwicklung handelt, verbringen wir viel Zeit mit Tests und Fehlersuche. Es kann jedoch noch einige Probleme geben, die wir bei unseren internen und externen Tests nicht gefunden haben. Wir ermutigen Sie, uns alle Bugs oder Fehler über unser Support Formular zu melden. Vielen Dank!

Modulbeschreibung

Das Modul Advanced Speech Recognition transkribiert gesprochene Sprache in Text (Speech-to-Text), es kann die gesprochene Sprache und die Sprecher automatisch erkennen, Name Entities erkennen, Wörterbücher anwenden, zuordnen und auch direkt eine Übersetzung des Transkripts anbieten.

Anpassung der erweiterten Spracherkennung:
Um die Advanced Speech Recognition mit eigenen Wörtern und Entitäten zu verwenden, müssen Sie ein Wörterbuch in den Bereich Dictionaries hochladen. Dies kann ein Mapping Dictionary zum Ersetzen von Wörtern oder ein Simple Dictionary zum Korrigieren von Schreibweisen und Namen sein.

Funktionsweise

Wählen Sie die Mediendatei aus: Wählen Sie die Mediendatei aus, die Sie analysieren möchten.
Aktivieren Sie das Modul "Advanced Speech Recognition": Wählen Sie in der linken Spalte das Modul "Advanced Speech Recognition".
Definieren Sie das Modell und die Parameter: Wählen Sie das zu analysierende Modell aus den verfügbaren Optionen, legen Sie die Parameter fest und klicken Sie auf die gelbe Schaltfläche "Modul hinzufügen".
Starten Sie die Analyse: Sie können entweder weitere Module hinzufügen oder die Analyse sofort starten, indem Sie auf "Analyse starten" klicken.

Welche Parameter sind verfügbar?

Die folgenden Parameter können für das Advanved-Spracherkennungsmodul konfiguriert werden. Sie sind eine Kombination aus der bereits implementierten Sprecheridentifizierung und Spracherkennung und funktionieren auf die gleiche Weise.

Modell (Dropdown)
Wählen Sie aus vorgefertigten Modellen oder Ihren eigenen Modellen zur Sprechererkennung aus.
Zurzeit gibt es nur ein vortrainiertes Modell:
- Berühmte Persönlichkeiten
  Verschiedene Persönlichkeiten, darunter die berühmtesten Menschen der Welt und eine große Mehrheit der deutschen Politiker und Sportler

Benutzerdefinierte Sprecheridentifizierung / Eigene Modelle

Um ein benutzerdefiniertes Sprechererkennungsmodell zu erstellen, müssen Sie die Trainingsfunktion im Deep Model Customizer aufrufen.

Min. Similarity / Ähnlichkeit (Schieberegler):
Passen Sie den minimalen Ähnlichkeitswert für die Identifizierung von Sprechern an. Ein niedriger Wert liefert mehr Ergebnisse, während ein höherer Wert die Genauigkeit verbessert.
Cluster Unknown Identities / Unbekannte SprecherInnen gruppieren (Kontrollkästchen)
Fassen Sie nicht erkannte SprecherInnen als „Unknown“ zusammen, ohne ihnen individuelle IDs zuzuweisen.
Numbering of Labels for Unknown Identities / Nummerierung von unbekannten SprecherInnen (Markierungsfeld):
Nummerieren und beschriften Sie automatisch alle unbekannten SprecherInnen, um die Zuordnung zu erleichtern.

Sprecher-Index:
Der Sprecherindex bietet die einfachste Möglichkeit, unbekannte Stimmen zu verwalten. Jeder SprecherIn wird automatisch eine eindeutige ID zugewiesen, so dass Sie Sie sofort umbenennen können. Normalerweise müssten Sie im Deep Model Customizer für jede Person Trainingsmaterial hochladen. Mit dem Sprecherindex wird jedoch jede Stimme sofort erkannt, ohne dass Sie zusätzliche Trainingsdaten benötigen.

Sprache (Dropdown):
Hier können Sie die erwartete Sprache einstellen. Das System kann auch mit der Konfiguration „Auto“ eine Sprache erkennen, falls die Eingabesprache unbekannt ist.

Anmerkung:
Um optimale Transkriptionsergebnisse zu erzielen, sollten Sie die Sprache im Voraus auswählen; die Einstellung "Auto “ kann zu einer höheren Fehlerquote bei der Transkription führen, wenn Sie Medien mit mehreren Sprachen oder vielen Fremdwörtern verwenden.

Absatz formatieren (Kontrollkästchen):
Mit dieser Option können Sie das Transkript in Absätzen statt in einzelnen Sätzen formatieren, um es für die weitere Bearbeitung leichter lesbar zu machen. Verwenden Sie für die Untertitelung einzelne Sätze ohne Absatzformatierung.
Übersetzungssprache (Dropdown):
Übersetzung des Transkripts in eine bestimmte Sprache.

Verfügbare Sprachen für die Übersetzung:

Arabisch
Aserbaidschanisch
Katalanisch
Chinesisch
Tschechisch
Dänisch
Niederländisch
Englisch
Finnisch
Französisch
Deutsch
Griechisch
Hebräisch
Hindi
Ungarisch
Indonesisch
Italienisch
Japanisch
Koreanisch
Persisch
Polnisch
Portugiesisch
Russisch
Slowakisch
Spanisch
Schwedisch
Türkisch
Ukrainisch

Wörterbuch (Dropdown)
Ein Wörterbuch ist ein textbasiertes Wörterbuch mit Wörtern und Phrasen. Es bietet die Möglichkeit, die Transkription mit bestimmten Entitäten (Namen, Fachbegriffe, Orte usw.) zu trainieren. Die Verwendung von Wörterbüchern erhöht die Qualität der Transkription, insbesondere bei Fachtexten. Sie können unsere voreingestellten Wörterbücher verwenden oder Ihre eigenen Wörterbücher im Bereich Dictionaries hinzufügen.

Wir haben mehrere Standardwörterbücher in die Speechrecognition integriert, aber Sie können auch Ihre eigenen Wörterbücher hinzufügen. Sie können mehr als ein Wörterbuch in einem Analyseauftrag verwenden. Klicken Sie einfach auf „Weiteres Wörterbuch hinzufügen“ und alle Wörter der verwendeten Wörterbücher werden in die Transkriptionsanalyse einbezogen.

Diese Standardwörterbücher sind derzeit zusätzlich zu den benutzerdefinierten Wörterbüchern verfügbar:

- Tiernamen
  Umfassende Liste von Tieren, für eine genaue Transkription der wissenschaftlichen Tiernamen.
- Europäische Fußballvereine
  Präzise Transkription der Namen von über 550 europäischen Fußballmannschaften.
- IAB Content Taxonomy 3.0 (Nicht nutzbar für Speech Recognition)
  Dieses Wörterbuch ist nur für die Object- und Scene Recognition geeignet.
- GARM Brand Safety (Nicht nutzbar für Speech Recognition)
  Dieses Wörterbuch ist nur für die Object- und Scene Recognition geeignet.

Eigene Wörterbücher:

Lesen Sie hier mehr über das Erstellen von eigenen Wörterbüchern.

Verschiedene benutzerdefinierte Wörterbuchtypen bieten ein unterschiedliches Verhalten bei der Verwendung in der Spracherkennung. Beachten Sie, dass der Typ durch das Format der hochgeladenen Datei bestimmt wird.

Einfaches Wörterbuch
Einfache Wörterbücher werden verwendet, um Wortinformationen für die korrekte Schreibweise bereitzustellen. Sie werden durch eine UTF-8 kodierte Textdatei (.txt) definiert, wobei jede Zeile ein einzelnes Wort im Wörterbuch darstellt. Leere Zeilen in der Datei werden ignoriert.
Mapping-Wörterbuch
Der Zweck von Map-Wörterbüchern besteht darin, ein Wortsubstitutionsverhalten während der Inferenz bereitzustellen. Jedes Map-Wörterbuch wird durch eine UTF-8 kodierte CSV-Datei (.csv) definiert, die mindestens die Kopfzeile und zwei Spalten ohne fehlende Werte enthalten sollte: Quelle und Ziel. Jedes Mal, wenn ein Wort aus der Quellspalte von der Spracherkennung vorausgesagt wird, wird es durch das in der Zielspalte angegebene Wort ersetzt.

Beispiel für die Verwendung: Explizite Wörter können in den Untertiteln mit ******* zensiert werden.

Lesen Sie hier mehr über das Erstellen von benutzerdefinierten Wörterbüchern.

Anzeigen der Ergebnisse:

Modulbereich

Unter „Advanved Speech Recognition“ finden Sie auf der rechten Seite das fertige Transkript, wie es von der KI ohne menschliche Korrekturen ausgegeben wurde. Wenn Sie Fehler im Transkript bemerken oder Korrekturen vornehmen müssen, können Sie das Transkript im Transkripteditor öffnen und bearbeiten.

Suchfeld
Das Suchfeld befindet sich in der oberen Leiste und enthält Filtereinstellungen zur Verfeinerung Ihrer Ergebnisse.

Textfeld: Geben Sie ein Wort ein, um es im Transkript oder in der Übersetzung unten zu finden.
Sortieren: Die Ergebnisse können chronologisch (Standard), oder nach Namenserkennung sortiert werden. Sie können zwischen aufsteigender und absteigender Reihenfolge umschalten.

Nachdem Sie die Filter angepasst haben, klicken Sie auf "Anwenden “, um sie anzuwenden. Aktive Filter werden in einem schwarzen Kasten unter dem Suchfeld angezeigt und können durch Klicken auf das X-Symbol gelöscht werden.

Modul-Bereich

Auf der rechten Seite des Players sehen Sie einen Bereich mit detaillierten Ergebnissen für jedes in der Analyse verwendete Modul. Wenn Sie auf den Modulnamen klicken, öffnet sich ein Dropdown-Menü mit spezifischen Parametern, die für die Fehlersuche oder die Anzeige von Metadaten nützlich sind.

Wenn Sie Fehler im Transkript bemerken oder Korrekturen vornehmen müssen, können Sie das Transkript im Editor öffnen. Dazu finden Sie zwei Symbole unter dem Abschnitt Modul:

Transkript-Editor (Text-Symbol)
Erstellt ein neues Transkript aus dem Spracherkennungsergebnis und öffnet den Transkript-Editor.
Übersetzungseditor (Welt-Symbol)
Erstellt eine neue Übersetzung aus dem Spracherkennungsergebnis und öffnet den Transkript-Editor.

Transkript-Editor:

Der Transkript-Editor bietet benutzerfreundliche Tools und eine leicht verständliche Oberfläche zum Bearbeiten, Überprüfen und Fertigstellen eines Transkripts. Erfahren Sie hier mehr .

Ergebniskarten

Die Ergebnisse werden als Absätze in chronologischer Reihenfolge angezeigt. Jede Karte enthält wichtige Informationen, wie z.B.:

Timecode des Ergebnisses: Die Zeit, zu der sich dieser Abschnitt der Transkription in der Datei befindet.
Sprecher: Der Name oder die Nummer der SprecherIn mit der Möglichkeit, die SprecherIn umzubenennen und in der Sprecherindexübersicht zu öffnen.
Sprache: Entweder die automatisch erkannte oder die manuell ausgewählte Sprache.
Transkription: Die Sätze, die die erweiterte Spracherkennung transkribiert hat.

Artefakte

Unten im Transkript finden Sie auch die Artefakte für den Analyseauftrag, z.B. Textdateien (.docx) oder Untertiteldateien (.srt), zum direkten Download. Diese Dateien sind ohne manuelle Korrektur. Die besten Ergebnisse erzielen Sie, wenn Sie den Transkript-Editor verwenden und das Transkript mit verschiedenen Exportoptionen finalisieren.

Dateitypen:

.srt-Datei (SubRip Subtitle File):Dieses Format wird üblicherweise für Untertitel in Videodateien verwendet. Es enthält den Transkriptionstext zusammen mit Zeitstempeln, die angeben, wann jede Zeile auf dem Bildschirm erscheinen und verschwinden soll: Hinzufügen von Untertiteln zu einem YouTube-Video oder einer Filmdatei, um die Zugänglichkeit zu verbessern.
WebVTT (Web Video Text Tracks)
Ist ein Standard des World Wide Web Consortium (W3C) für die Anzeige von zeitgesteuertem Text in Verbindung mit dem HTML5 <track> Element.
.docx-Datei (Microsoft Word-Dokument):Eine .docx-Datei ist ein Standardformat für Textdokumente, das häufig für die Erstellung schriftlicher Abschriften verwendet wird, die leicht zu lesen und zu bearbeiten sind. Im Gegensatz zu .srt enthält sie keine Timing-Informationen, sondern konzentriert sich ausschließlich auf den Transkriptionstext.
Anwendungsbeispiel: Nach SprecherInnen separierte und formatierte Transkription eines Interview oder ein Besprechungsprotokoll.