Speech Codec allow PDF

Title	Speech Codec allow
Course	Biología Básica
Institution	Universidad Autónoma de Santo Domingo
Pages	6
File Size	216.6 KB
File Type	PDF
Total Downloads	117
Total Views	152

Preview

CLICK TO PREVIEW PDF

Summary

speech are the code use to idenfy the peop...

Description

Comunicación Móvil e Inalámbrica TEMA SPEECH CODEC SUSTENTANTE

RONNY BRITO GUZMAN 12-03-0043

PROFESOR ROBERTO YAMAMOTO

FECHA: 3/26/2019

SPEECH CODEC

Es un circuito de hardware que convierte la voz en un código digital y viceversa. Comprende la técnica de conversión y compresión A/D y D/A.

1. CATEGORIAS 1.1 Waveform

Esta es una técnica del speech CODEC que, sin utilizar ningún conocimiento de cómo se generó la señal a codificar, para producir una señal reconstruida cuya forma de onda este lo más cerca posible de la señal original.

Esto significa que, en teoría, deberían ser independientes de la señal y funcionar bien con las señales nonspeech.

En general, son códecs de baja complejidad que producen voz de alta calidad a velocidades superiores a aproximadamente 16 kbits / s.

Cuando la velocidad de datos se reduce por debajo de este nivel, la calidad del habla reconstruida que se puede obtener se degrada rápidamente.

1.2 Vocoders Es una categoría de códec de voz que analiza y sintetiza la señal de voz humana para la compresión de datos de audio, multiplexación, cifrado de voz, transformación de voz, etc. Trabaja de la siguiente manera: El tracto vocal se representa como un filtro que varía con el tiempo y se excita con una fuente de ruido blanco, para los segmentos de voz sin voz, o un tren de pulsos separados por el período de tono para la voz con voz. Por lo tanto, la información que debe enviarse al decodificador es la especificación del filtro, una bandera sonora / sin voz, la varianza necesaria de la señal de excitación y el período de tono para la voz sonora.

2.METODOS

2.1Code-excited linear prediction Es un algoritmo de codificación de voz propuesto originalmente por MR Schroeder y BS Atal en 1985. Actualmente es el algoritmo de codificación de voz más utilizado. El algoritmo CELP se basa en cuatro ideas principales: 

Uso del modelo de filtro de origen de la producción de voz mediante predicción lineal (LP)



Uso de un libro de códigos adaptativo y fijo como entrada (excitación) del modelo LP



Realización de una búsqueda en circuito cerrado en un "dominio ponderado perceptualmente".



Aplicación de cuantificación vectorial (VQ).

Este códec utiliza la adaptación hacia atrás para calcular los coeficientes de filtro a corto plazo, lo que significa que, en lugar de almacenar de manera aproximada 20 ms de la voz de entrada para calcular los coeficientes de filtro, se encuentran en la voz reconstruida anterior.

Esto significa que el códec puede usar una longitud de trama mucho más corta que los códecs CELP tradicionales, y G728 usa una longitud de trama de solo 5 muestras, lo que le otorga un retardo total de menos de 2 ms.

2.2 Algebraic Code-Excited Linear Prediction (ACELP) ACELP es un algoritmo de códec de voz utilizado para la codificación con una tasa de bits entre 2,4 y 8 kbit / s. ACELP es una técnica mejorada utilizada para los codificadores de voz CELP. Esta técnica da como resultado algoritmos de búsqueda de libro de códigos más eficientes. ACELP is used in audio codecs, such as G.723.1, the speech codec of UMTS (AMR) and the Enhanced Full Rate codec of GSM.

G723 especifica un mecanismo para la supresión de silencio donde se pueden usar cuadros de Descripción de Inserción de Silencio (SID). Estos solo tienen 32 bits de longitud, lo que significa que el silencio solo ocupa 1 Kbps, en comparación con los 64 Kbps del G711.

El algoritmo de ACELP se basa en el que se usa en la predicción lineal de código excitado, pero los libros de códigos de ACELP tienen una estructura algebraica específica impuesta sobre ellos. Se utilizará un libro de códigos algebraico de 16 bits en la búsqueda innovadora del libro de códigos, cuyo objetivo es encontrar los mejores parámetros de innovación y ganancia. El vector de innovación contiene, a lo sumo, cuatro pulsos distintos de cero.

3.EVALUACIÓN DE CALIDAD Cuando se efectúa una evaluación subjetiva de un códec de señales vocales, se debe tener en cuenta la aplicación a la que está destinado el códec sometido a prueba. El sistema utilizado para grabar material de conversación, las condiciones de prueba experimentales y el sistema utilizado para la entrega a los oyentes del material de conversación procesado, se han de elegir de tal modo que reflejen las principales características de la conexión telefónica de extremo a extremo. En particular, las características de los sistemas de grabación y recepción deben reflejar las características del transmisor y del receptor que serán utilizados en la aplicación prevista del códec. Uno de los objetivos del análisis es determinar una función Q2 = F(L), donde Q2 es el valor equivalente Q para el códec y L es la velocidad binaria de línea. Un método sencillo para calcular esta función consiste en utilizar las notas medias de opinión indicados en las Figuras 3 y 8 y trazar un gráfico de esta función, como el representado en la Figura 10. Este método se ilustra en la Figura 11, donde se ha elegido un valor de velocidad binaria de línea, por ejemplo, L2, y se ha determinado la nota media de opinión correspondiente. Esta nota media de opinión se utiliza para entrar en el gráfico de la derecha a fin de encontrar el valor de Q, en este caso Q2, correspondiente a este valor de nota media de opinión. Los valores de Q para los demás valores de L se obtienen de forma similar, y el conjunto resultante de pares (Li, Qi ) da lugar a un gráfico como el indicado en la Figura.

4. 3GPP CODECS (AMR, AMR-NB, AMR-WB) The Adaptive Multi-Rate (AMR, AMR-NB o GSM-AMR) es un formato de compresión de audio optimizado para la codificación de voz. El códec de voz AMR consiste en un códec de voz de banda estrecha de múltiples velocidades que codifica señales de banda estrecha (200–3400 Hz) a velocidades de bits variables que van desde 4.75 a 12.2 kbit / s con voz de calidad de llamada que comienza a 7.4 kbit / s. AMR fue adoptado como el códec de voz estándar por 3GPP en octubre de 1999 y ahora se usa ampliamente en GSM [4] y UMTS. Utiliza la adaptación del enlace para seleccionar una de las ocho velocidades de bits diferentes en función de las condiciones del enlace. AMR también es un formato de archivo para almacenar audio hablado utilizando el códec AMR. Muchos modernos teléfonos móviles pueden almacenar grabaciones de audio cortas en formato AMR, y existen programas gratuitos y propietarios (ver Soporte de software) para convertir entre este y otros formatos, aunque AMR es un formato de voz y es poco probable que brinde resultados ideales para otros audios. 4.1 USO Las tramas contienen 160 muestras y duran 20 milisegundos. AMR utiliza varias técnicas, como ACELP, DTX, VAD y CNG. El uso de AMR requiere una adaptación de enlace optimizada que seleccione el mejor modo de códec para cumplir con los requisitos del canal de radio local y la capacidad. Si las condiciones de la radio son malas, la codificación de la fuente se reduce y la codificación del canal aumenta. Esto mejora la calidad y la solidez de la conexión de red al tiempo que sacrifica algo de claridad de voz. En el caso particular de AMR, esta mejora está en algún lugar alrededor de S / N = 4–6 dB para la comunicación utilizable. El nuevo sistema inteligente permite al operador de la red priorizar la capacidad o la calidad por estación base.

Hay un total de 14 modos del códec AMR, ocho están disponibles en un canal de frecuencia completa (FR) y seis en un canal de media velocidad (HR).

4.2 CARACTERIATICA



Frecuencia de muestreo 8 kHz / 13 bits (160 muestras para tramas de 20 ms), filtradas a 200–3400 Hz.



El códec AMR utiliza ocho códecs de origen con velocidades de bits de 12.2, 10.2, 7.95, 7.40, 6.70, 5.90, 5.15 y 4.75 kbit / s.



Genera una longitud de trama de 95, 103, 118, 134, 148, 159, 204 o 244 bits para velocidades de bits de FR de AMR 4,75, 5,15, 5,90, 6,70, 7,40, 7,95, 10,2 o 12,2 kbit / s, respectivamente. Las longitudes de cuadro AMR HR son diferentes.



AMR utiliza transmisión discontinua (DTX), con detección de actividad de voz (VAD) y generación de ruido de confort (CNG) para reducir el uso de ancho de banda durante los períodos de silencio.



El retardo algorítmico es de 20 ms por trama. Para velocidades de bits de 12.2, no hay retardo de anticipación de "algoritmo". Para otras tarifas, el retardo de anticipación es de 5 ms. Tenga en cuenta que hay un retardo de avance "ficticio" de 5 ms para permitir el cambio de modo de fotogramas sin interrupciones con el resto de velocidades.



AMR es un codificador de voz híbrido, y como tal transmite ambos parámetros de voz y una señal de forma de onda:  

La codificación predictiva lineal (LPC) se utiliza para sintetizar el habla a partir de una forma de onda residual. Los parámetros LPC se codifican como pares espectrales de línea (LSP). La forma de onda residual se codifica utilizando predicción lineal excitada por código algebraico (ACELP).

 La complejidad del algoritmo se califica en 5, utilizando una escala relativa donde G.711 es 1 y G.729a es 15. 

Las pruebas de PSQM en condiciones ideales producen puntuaciones de opinión promedio de 4.14 para AMR (12.2 kbit / s), en comparación con 4.45 para G.711 (ley µ).



Las pruebas de PSQM bajo tensión de red producen puntuaciones de opinión promedio de 3.79 para AMR (12.2 kbit / s), en comparación con 4.13 para G.711 (ley µ)...