Whisper di OpenAI

openai.com

Sistema di riconoscimento vocale automatico che trascrive e traduce discorsi in diverse lingue

Categorie

audio & voce dati & analisi

Ambiti

lavorostudio & ricercauso personale

Visita openai.com

Freemium

254

Whisper è un sistema di riconoscimento vocale automatico (ASR) sviluppato da OpenAI, addestrato su un vasto dataset multilingue e multitask. Offre trascrizioni accurate e traduzioni in più lingue, gestendo efficacemente accenti diversi, rumori di fondo e linguaggi tecnici.

Lanciato nel settembre 2022, Whisper è un sistema di riconoscimento vocale automatico (ASR) sviluppato da OpenAI. È stato addestrato su 680.000 ore di dati multilingue e multitask raccolti dal web, il che ha portato a una maggiore robustezza rispetto ad accenti diversi, rumori di fondo e linguaggi tecnici. Whisper è in grado di trascrivere discorsi in più lingue e di tradurre da queste lingue all'inglese.

Caratteristiche

Addestramento su Ampio Dataset Multilingue: Whisper è stato addestrato su un vasto dataset di 680.000 ore di dati audio multilingue e multitask, migliorando la sua capacità di gestire una varietà di accenti, rumori di fondo e linguaggi tecnici.
Architettura Encoder-Decoder Transformer: Il modello utilizza un'architettura encoder-decoder Transformer, in cui l'audio di input viene suddiviso in segmenti di 30 secondi, convertito in uno spettrogramma log-Mel e passato a un encoder. Un decoder prevede quindi la trascrizione testuale corrispondente, con la possibilità di identificare la lingua, aggiungere timestamp a livello di frase e tradurre il discorso in inglese.
Open Source: OpenAI ha reso open source i modelli e il codice di inferenza di Whisper, fornendo una base per la creazione di applicazioni utili e per ulteriori ricerche nel campo dell'elaborazione del linguaggio parlato.
Prestazioni e Robustezza: Grazie al suo addestramento su un dataset ampio e diversificato, Whisper mostra una maggiore robustezza rispetto ad accenti, rumori di fondo e linguaggi tecnici, riducendo gli errori del 50% rispetto ai modelli precedenti in scenari zero-shot.
Multitasking: Oltre alla trascrizione, Whisper è in grado di eseguire traduzioni da più lingue all'inglese e di identificare la lingua del discorso, rendendolo versatile per diverse applicazioni.

Casi d'uso

trascrivere audio in testo tradurre conversazioni in tempo reale

Assistenti vocali

Whisper può essere utilizzato per assistenti vocali.

Trascrizione di contenuti multimediali

Whisper può essere utilizzato per la trascrizione di contenuti multimediali.

Traduzione in tempo reale

Whisper può essere utilizzato per traduzione in tempo reale.

Strumenti di accessibilità

Whisper può essere utilizzato per strumenti di accessibilità per persone con disabilità uditive.

Domande frequenti

Quali sono le applicazioni pratiche di Whisper?

Whisper può essere utilizzato in una varietà di applicazioni, tra cui assistenti vocali, trascrizione di contenuti multimediali, traduzione in tempo reale e strumenti di accessibilità per persone con disabilità uditive.

Whisper supporta la traduzione in tempo reale?

Sì, Whisper è in grado di tradurre discorsi da più lingue all'inglese in tempo reale, rendendolo utile per applicazioni di traduzione simultanea.

Come posso integrare Whisper nella mia applicazione?

Essendo open source, gli sviluppatori possono integrare Whisper nelle loro applicazioni utilizzando i modelli e il codice di inferenza disponibili sul repository GitHub di OpenAI.

Quali lingue supporta Whisper?

Whisper supporta il riconoscimento e la trascrizione del parlato in diverse lingue, oltre alla traduzione da queste lingue all'inglese.

Whisper è disponibile per uso commerciale?

Sì, essendo rilasciato sotto licenza open source, Whisper può essere utilizzato per scopi sia personali che commerciali, rispettando i termini della licenza.