MONITORING SPEECH RECOGNITION

Deze pagina is voor gebruik van Beeld en Geluid personneel, voor monitoring en troubleshooting van de automatische spraakherkenning, en worden niet dagelijks geupdatet. De grafieken zijn aanvullend op de grafieken op de 'Spraakherkenning Radio en TV' site. Let op: de informatie kan nog veranderen, omdat ik volop nog aan het uitzoeken ben hoe het in elkaar zit. De grafieken zijn dus mogelijk nog niet betrouwbaar. Graag je feedback geven (neem contact op met Mari Wigham)


Het spraakherkenningsproces heeft de volgende stappen:

  • een query wordt uitgevoerd over de zoekindex van de database
  • Naarmate er ruimte is om de audio over te zetten naar de spraakherkenningsservers, worden items samen met hun audio gezet op de server. Tot die tijd, blijven de items wachten in een queue.
  • De items worden geregistreerd als jobs in de database
  • De jobs worden verwerkt, en de job of lukt, of faalt
  • Voor files waar de spraakherkenning is gelukt, worden files weggeschreven, die in de ASR zoekindex worden opgenomen.

Deze pie charts laten zien voor alle materiaal, en ook opgesplitst in Radio en Televisie, wat de status is van het materiaal dat is aangeboden voor ASR. Er zijn een aantal items zonder metadata, en deze blijven in de wachtstand. We moeten nog uitzoeken hoe het komt dat er items zonder metadata in de database zijn opgenomen.

Deze pie chart laat zien wat de reden is voor mislukte jobs. Veruit de grootste reden is dat het bronmateriaal te kort is. We moeten nog uitzoeken hoe dat kan komen.

Hieronder volgt een detailanalyse per query, dat laat zien waar de items van die query zitten in de spraakherkenning pipeline. Er komt niet voor alle items die gezocht wordt in een query komen ook daadwerkelijk spraakherkenningstranscripten in de index. De redenen dat er (nog) geen spraakherkenningstranscripten zijn, zijn de volgende:

  • 'Query error' - de query is niet uitgevoerd zoals gepland, waardoor er items ontbreken
  • 'Queue' - de items wachten nog om overgezet te worden naar de server
  • 'Lost before database' - items die aangeboden hadden moeten worden aan de database, zijn daar niet aanwezig
  • 'Waiting' - de jobs wachten om uitgevoerd te worden
  • 'Running' - de jobs draaien nog
  • 'Failed' - de jobs zijn gefaald
  • 'Lost after database' - de jobs zijn gelukt, maar er is geen transcript aanwezig in de ASR index

De volgende pie charts en funnel charts laten zien, per query, waar de items zijn gebleven.