John Hansen - Diarization and Recognition in Naturalistic Data Streams: One...

Informations sur l'événement

Partager cet événement

Date et heure

Endroit

Endroit

École de technologie supérieure ÉTS

1100 Rue Notre-Dame Ouest

Local A-1150

Montréal, QC H3C 1K3

Canada

Afficher la carte

Description de l'événement

Description

La technologie vocale a considérablement progressé au-delà de la reconnaissance vocale générale pour les applications de commande vocale et téléphoniques.

Aujourd’hui, l’émergence de nombreux systèmes vocaux a nécessité une capture vocale plus efficace et une reconnaissance automatique de la parole et du locuteur. La capacité d’utiliser la technologie de la parole et du langage pour évaluer les interactions interhumaines ouvre la voie à de nouveaux paradigmes de recherche qui peuvent avoir un impact profond sur l’évaluation des interactions humaines, y compris les traits de communication personnels, et contribuer à améliorer la qualité de vie et l’expérience scolaire des individus.

Dans cet exposé, nous explorerons les récentes tendances de la recherche sur la diarisation audio automatique et la reconnaissance du locuteur pour les flux audios qui incluent les pistes multiples, les locuteurs et les environnements.

Plus précisément, nous prendrons en considération

  • le corpus Prof-Life-Log (enregistrement audio quotidien sur plusieurs années),

  • l’apprentissage en équipe dirigé par les pairs basé sur l’éducation de l’enfant et de l’élève

  • le traitement audio multipiste de grande envergure Apollo-11 de la NASA (19 000 heures de données).

Ces domaines seront abordés sous l’angle des progrès algorithmiques, ainsi que des orientations pour la poursuite de la recherche.

Veuillez noter que le conférencier s'exprimera en anglais.


ENGLISH

Speech Technology has advanced significantly beyond general speech recognition for voice command and telephone applications.

Today, the emergence of many voice-enabled speech systems have required the need for more effective voice capture and automatic speech and speaker recognition. The ability to employ speech and language technology to assess human-to-human interactions is opening up new research paradigms which can have a profound impact on assessing human interaction including personal communication traits and contribute to improving the quality of life and educational experience of individuals.

In this talk, we will explore recent research trends on automatic audio diarization and speaker recognition for audio streams which include multi-tracks, speakers, and environments. Specifically, we will consider

  • Prof-Life-Log corpus (daily audio logging over multiple years)

  • Education based child & student-based Peer-Lead Team Learning (PLTL)

  • NASA Apollo-11 massive multi-track audio processing (19,000hrs of data).

These domains will be discussed in terms of algorithmic advancements, as well as directions for continued research.



Date et heure

Endroit

École de technologie supérieure ÉTS

1100 Rue Notre-Dame Ouest

Local A-1150

Montréal, QC H3C 1K3

Canada

Afficher la carte

Sauvegarder cet événement

Événement sauvegardé