Categorie
Nuovo blog
Speex: un codec gratuito per la libertà di parola
November 17 , 2021Panoramica
Speex è un formato di compressione audio senza brevetto Open Source/Software libero progettato per il parlato. Il progetto Speex mira ad abbassare la barriera di accesso alle applicazioni vocali fornendo un'alternativa gratuita ai costosi codec vocali proprietari. Inoltre, Speex è ben adattato alle applicazioni Internet e fornisce funzionalità utili che non sono presenti nella maggior parte degli altri codec. Infine, Speex fa parte del Progetto GNU ed è disponibile con la licenza BSD rivista.
Speex si rivolge a Voice over IP (VoIP) e compressione basata su file. Gli obiettivi di progettazione erano creare un codec che fosse ottimizzato per un parlato di alta qualità e un bit rate basso. Per ottenere ciò, il codec utilizza più bit rate e supporta banda ultra larga, banda larga e banda stretta. Il codec è determinato per essere robusto per i pacchetti persi, ma debole per quelli danneggiati. Tutto ciò ha portato alla scelta della previsione lineare eccitata da codice (CELP) come tecnica di codifica da utilizzare per Speex.
Caratteristiche
Frequenza di campionamento
Speex è progettato principalmente per tre diverse frequenze di campionamento: 8 kHz (la stessa frequenza di campionamento per trasmettere le chiamate telefoniche), 16 kHz e 32 kHz. Questi sono rispettivamente indicati come banda stretta, banda larga e banda ultra larga.
Qualità
La codifica Speex è controllata per la maggior parte del tempo da un parametro di qualità che va da 0 a 10. Nel funzionamento a bit-rate costante (CBR), il parametro di qualità è un numero intero, mentre per il bit-rate variabile (VBR), il parametro è un numero reale (virgola mobile).
Complessità (variabile)
Con Speex è possibile variare la complessità consentita per l'encoder. Questo viene fatto controllando come viene eseguita la ricerca con un numero intero compreso tra 1 e 10 in modo simile alle opzioni da -1 a -9 per le utilità di compressione gzip. Per l'uso normale, il livello di rumore alla complessità 1 è compreso tra 1 e 2 dB rispetto alla complessità 10, ma i requisiti della CPU per la complessità 10 sono circa cinque volte superiori rispetto alla complessità 1. In pratica, il miglior compromesso è tra la complessità 2 e 4,[13] sebbene impostazioni più elevate siano spesso utili quando si codificano suoni non vocali come toni DTMF o se la codifica non è in tempo reale.
Bitrate variabile (VBR)
Il bit rate variabile (VBR) consente a un codec di modificare il proprio bit rate in modo dinamico per adattarsi alla "difficoltà" dell'audio da codificare. Nell'esempio di Speex, suoni come vocali e transienti ad alta energia richiedono una velocità in bit più elevata per ottenere una buona qualità, mentre le fricative (ad esempio i suoni s e f) possono essere codificate adeguatamente con meno bit. Per questo motivo, VBR può ottenere una velocità in bit inferiore per la stessa qualità o una qualità migliore per una determinata velocità in bit. Nonostante i suoi vantaggi, VBR ha tre svantaggi principali: primo, specificando solo la qualità, non c'è alcuna garanzia sul bit rate medio finale. In secondo luogo, per alcune applicazioni in tempo reale come Voice over IP (VoIP), ciò che conta è il bit rate massimo, che deve essere sufficientemente basso per il canale di comunicazione. In terzo luogo, la crittografia del discorso codificato in VBR potrebbe non garantire la privacy completa, poiché le frasi possono ancora essere identificate, almeno in un ambiente controllato con un piccolo dizionario di frasi,[14] analizzando il modello di variazione del bit rate.
Bitrate medio (ABR)
Il bit rate medio risolve uno dei problemi del VBR, poiché regola dinamicamente la qualità del VBR per soddisfare uno specifico bit rate target. Poiché la qualità/bit-rate viene regolata in tempo reale (open-loop), la qualità globale sarà leggermente inferiore a quella ottenuta codificando in VBR con l'impostazione di qualità esattamente corretta per soddisfare il bitrate medio target.
Rilevamento attività vocale (VAD)
Quando abilitato, il rilevamento dell'attività vocale rileva se l'audio codificato è parlato o silenzio/rumore di sottofondo. VAD è sempre implicitamente attivato durante la codifica in VBR, quindi l'opzione è utile solo in operazioni non VBR. In questo caso, Speex rileva i periodi non vocali e li codifica con bit sufficienti per riprodurre il rumore di fondo. Questo è chiamato "generazione di rumore di comfort" (CNG). L'ultima versione VAD funzionava correttamente è la 1.1.12, poiché la v 1.2 è stata sostituita con un semplice rilevamento di attività.
Trasmissione discontinua (DTX)
La trasmissione discontinua è un'aggiunta al funzionamento VAD/VBR che consente di interrompere completamente la trasmissione quando il rumore di fondo è stazionario. In un file vengono utilizzati 5 bit per ogni frame mancante (corrispondenti a 250 bit/s).
Miglioramento percettivo
Il potenziamento percettivo è una parte del decodificatore che, quando acceso, cerca di ridurre (la percezione del) rumore prodotto dal processo di codifica/decodifica. Nella maggior parte dei casi, il miglioramento percettivo rende il suono oggettivamente più lontano dall'originale (rapporto segnale-rumore), ma alla fine suona ancora meglio (miglioramento soggettivo).
Ritardo algoritmico
Ogni codec introduce un ritardo nella trasmissione. Per Speex, questo ritardo è uguale alla dimensione del fotogramma, più una certa quantità di "previsione" richiesta per elaborare ogni fotogramma. Nel funzionamento a banda stretta (8 kHz), il ritardo è di 30 ms, mentre per la banda larga (16 kHz), il ritardo è di 34 ms. Questi valori non tengono conto del tempo di CPU necessario per codificare o decodificare i frame.
TONMIND, designer e produttore diIPS picco dal 2014. Gli altoparlanti SIP hanno applicato l'elaborazione audio Speex per migliorare la qualità del suono.
I nostri Altoparlanti cercapersone IP Il codec include OPUS, G711U, G711A, G722, GSM, MP1, MP2, MP3, WAV, LPCM s16le. I vari codec garantiscono anche un'eccellente qualità del suono.
Pensare Altoparlante SIP può essere applicato a vari casi applicativi, ad esempio, scuola, galoppo commerciale, centro di assistenza clienti, hotel, ospedale, luoghi di grandi dimensioni, ecc. Gli utenti possono collegare gli altoparlanti SIP con IPPBX o il software di sistema PA sviluppato dal nostro team R&D . Può anche funzionare con il software Axis tramite RTP Multicasting.
I punti di forza di Tonmind includono:
• Oltre 10 anni di esperienza audio e video VoIP
• Assistenza tecnica esclusiva.
• Team clienti ben addestrato.
• Orientato al cliente.
• Risposta rapida del mercato.