[Apresenta§£o de Defesa] Anlise comparativa entre os m©todos HMM e GMM-UBM na busca...

download [Apresenta§£o de Defesa] Anlise comparativa entre os m©todos HMM e GMM-UBM na busca pelo ±-³timo dos locutores crian§as para utiliza§£o da t©cnica VTLN

of 44

Embed Size (px)

description

120ª Defesa do Mestrado em Telecomunicações - Inatel (Instituto Nacional de Telecomunicações). 09/10/2014 Aluno: Ramon Mayor Martins Professor: Dr. Carlos Alberto Ynoguti Título: Análise comparativa entre os métodos HMM e GMM-UBM na busca pelo α-ótimo dos locutores crianças para utilização da técnica VTLN

Transcript of [Apresenta§£o de Defesa] Anlise comparativa entre os m©todos HMM e GMM-UBM na busca...

Apresentao do PowerPoint

Anlise comparativa entre os mtodos HMM e GMM-UBM na busca pelo -timo dos locutores crianas para utilizao da tcnica VTLNAluno: Ramon Mayor MartinsProf. Orientador: Dr. Carlos Alberto YnogutiMestrado em Telecomunicaes09 de Outubro de 201411

AgendaContextualizaoNormalizao do Locutor: VTLNProcesso de Busca do -timo utilizando HMM e GMM-UBMReconhecimento do Sistema NormalizadoResultados ExperimentaisConcluses Trabalhos FuturosArtigos Publicados2

AgendaContextualizaoNormalizao do Locutor: VTLNProcesso de Busca do -timo utilizando HMM e GMM-UBMReconhecimento do Sistema NormalizadoResultados ExperimentaisConcluses Trabalhos FuturosArtigos Publicados3

I. ContextualizaoNos ltimos anos progressos significativos no desenvolvimento de Sistemas de Reconhecimento de Fala (SRF).

A maior parte das pesquisas devotada a sistemas para locutores adultos.

Fraco desempenho dos SRF para usurios crianas.

Recentemente, grande ateno foi dada aos SRF para crianas em diversas aplicaes, por exemplo:

4

I. Contextualizao

SRF crianas

BrinquedosSites EducacionaisTecnologias AssistivasAplicativos para CelularesTecnologias Contemporneas5

Entretenimento

I. ContextualizaoDesafio: Aumentar o desempenho dos SRF para crianas aos mesmos nveis que para os adultos.

Dificuldades: Variabilidades na fala entre locutores crianas e adultos.

Variabilidade: Comprimento do trato vocal (VTL).

619 cm14,5 cm12 cm

AgendaContextualizaoNormalizao do Locutor: VTLNProcesso de Busca do -timo utilizando HMM e GMM-UBMReconhecimento do Sistema NormalizadoResultados ExperimentaisConcluses Trabalhos FuturosArtigos Publicados7

Funo: Mitigar as variabilidades do comprimento do trato vocal.

Tcnica: Normalizao de Comprimento do Trato Vocal (VTLN).

Investigaes: SRF treinado com locutores adultos e utilizado para reconhecer fala infantil, VTLN capaz de melhorar o desempenho do reconhecimento.

8Funcionamento: Todos os locutores analisados so normalizados em relao a um locutor mdio (ou seja, para o SRF os locutores parecero ter a mesma voz).

Processo: Transformao dos parmetros acsticos da fala atravs de escalonamento do banco de filtros.II. Normalizao de Locutor: VTLN (Vocal Tract Length Normalization)

Escalonamento do banco de filtros:

Obtido a partir do escalonamento das frequncias centrais do banco de filtros realizado por um fator de escalonamento ().

O novo banco de filtros obtido atravs da equao:

9II. Normalizao de Locutor: VTLN (Vocal Tract Length Normalization)

Escalonamento do banco de filtros:

10

As frequncias no banco de filtro sero comprimidas se () ou sero expandidas se () . II. Normalizao de Locutor: VTLN (Vocal Tract Length Normalization)

Fator de escalonamento timo (timo)

O timo ser aquele que maximiza a probabilidade de um conjunto de caractersticas acsticas de um determinado locutor em relao a um modelo acstico de referncia.

11II. Normalizao de Locutor: VTLN (Vocal Tract Length Normalization)

O fator timo obtido pela busca entre uma faixa de fatores de escalonamento.

representado pela razo entre o VTL do locutor sendo analisado e o VTL utilizado como referncia.

Faixa: SRF treinado com locutores adultos e testado com crianas: = 0.70 (da razo 12/17) at = 1.12 (da razo 19/17).

Busca com passo de 0,02.

22 fatores.

Utilizados os mtodos estatsticos HMM e GMM-UBM.

12II. Normalizao de Locutor: VTLN (Vocal Tract Length Normalization)

AgendaContextualizaoNormalizao do Locutor: VTLNProcesso de Busca do -timo utilizando HMM e GMM-UBMReconhecimento do Sistema NormalizadoResultados ExperimentaisConcluses Trabalhos FuturosArtigos Publicados13

Mtodo Estatstico : HMM14

Estrutura de um HMM left-right de 5 estados.

III. Processo de busca utilizando HMM e GMM-UBM

GMM Gaussian Mixture Models (Modelo de Mistura Gaussiana).

Modela qualquer tipo de distribuio de dados, alterando seus parmetros de mistura. Ex: vetores acsticos extrados de um sinal de voz de um locutor.

o GMM modela somente as variabilidades espectrais.

Utiliza-se a notao para caracterizar o modelo GMM.

15Exemplo de 4 gaussianas na mistura (GMM)

Mtodo Estatstico : GMM-UBMIII. Processo de busca utilizando HMM e GMM-UBM

III. Processo de busca utilizando HMM16

III. Processo de busca utilizando GMM-UBM1717

1-Distribuio dos valores dos Fatores de Escalonamento timo

Conjunto de teste crianas:

18Avaliao dos Processos III. Processo de busca utilizando HMM e GMM-UBM

2- Anlise da curva de mxima verossimilhana por fator de escalonamento.

Locutor criana bg do conjunto de teste:

Utilizando o mtodo de busca HMMUtilizando o mtodo de busca GMM-UBM19Avaliao dos Processos III. Processo de busca utilizando HMM e GMM-UBM

2- Anlise da curva de mxima verossimilhana por fator de escalonamento.

Locutor criana bg do conjunto de teste:

Utilizando o mtodo de busca HMMUtilizando o mtodo de busca GMM-UBM20Avaliao dos Processos III. Processo de busca utilizando HMM e GMM-UBM

2- Anlise da curva de mxima verossimilhana por fator de escalonamento.

Locutor criana bg do conjunto de teste:

Utilizando o mtodo de busca HMMUtilizando o mtodo de busca GMM-UBM21Avaliao dos Processos III. Processo de busca utilizando HMM e GMM-UBM

AgendaContextualizaoNormalizao do Locutor: VTLNProcesso de Busca do -timo utilizando HMM e GMM-UBMReconhecimento do Sistema NormalizadoResultados ExperimentaisConcluses Trabalhos FuturosArtigos Publicados22

IV. Reconhecimento do Sistema23Pre-nfase|FFT|Banco de FiltroLogDCTHCopyMFCC TreinoMFCCSinal de VozMFCC TesteReconhecedor - HMM TreinamentoTesteWER%Extrao de Parmetros AcsticosJanela

IV. Reconhecimento do Sistema24Pre-nfase|FFT|Banco de FiltroLogDCTHCopyMFCC TreinoMFCCSinal de VozMFCC TesteReconhecedor - HMM TreinamentoTesteWER%Extrao de Parmetros AcsticosJanela

IV. Reconhecimento do Sistema25Pre-nfase|FFT|Banco de FiltroLogDCTHCopyMFCC TreinoMFCCSinal de VozMFCC TesteReconhecedor - HMM TreinamentoTesteWER%Extrao de Parmetros AcsticosBase de Dados: TIDIGITS Texas InstrumentsIngls-americanoDgitos conectados325 locutores (111 homens, 114 mulheres, 50 meninos e 50 meninas).77 locues

Janela

IV. Reconhecimento do Sistema26Pre-nfase|FFT|Banco de FiltroLogDCTHCopyMFCC TreinoMFCCSinal de VozMFCC TesteReconhecedor - HMM TreinamentoTesteWER%Extrao de Parmetros AcsticosTopologia do modelo HMM: 5 estados, do tipo left-right utilizando trifones.

Janela

IV. Reconhecimento do Sistema27Pre-nfase|FFT|Banco de FiltroLogDCTHCopyMFCC TreinoMFCCSinal de VozMFCC TesteReconhecedor - HMM TreinamentoTesteWER%Extrao de Parmetros AcsticosTreinamento: 55 locutores femininos e 57 locutores masculinos (112 locutores no total).

Algoritmo Baum-Welch para reestimaes.(HERest)

Gaussianas na Mistura: 1, 2, 4, 8, 16, 32, 64, 128.

Janela

IV. Reconhecimento do Sistema28Pre-nfase|FFT|Banco de FiltroLogDCTHCopyMFCC TreinoMFCCSinal de VozMFCC TesteReconhecedor - HMM TreinamentoTesteWER%Extrao de Parmetros AcsticosTeste: 25 locutores meninos e 25 locutores meninas (50 no total) normalizados com os fatores timos encontrados pelos mtodos HMM e GMM-UBM para cada locutor

Algoritmo de Viterbi (HVite)

Obteno da taxa de erro de palavra (WER%)

Janela

AgendaContextualizaoNormalizao do Locutor: VTLNProcesso de Busca do -timo utilizando HMM e GMM-UBMReconhecimento do Sistema NormalizadoResultados ExperimentaisConcluses Trabalhos FuturosArtigos Publicados29

V. Resultados ExperimentaisCenrio: Reconhecimento de Fala treinado por locutores adultos e utilizado com crianas.

Objetivo: Medir a melhoria que a tcnica VTLN pode fornecer ao sistema.

Experimentos: Foram realizados trs conjuntos de experimentos:

Treinamento com locutores adultos e teste com crianas normalizadas (A-C)

Treinamento com locutores masculinos e teste com crianas normalizadas (M-C)

Treinamento com locutores femininos e teste com crianas normalizadas (F-C)

30

V. Resultados ExperimentaisMistura tima (Ponto de mnimo): 64 Gaussianas na mistura.Possvel Razo - Por ser maior a variabilidade entre adultos.

Taxa de Erro de Palavra (WER%):

HMM - no ponto de mnimo WER de 1,88% uma reduo de 3,07% em relao baseline.

GMM-UBM - no ponto de mnimo WER de 1,92%, uma reduo de 3,03% em relao a baseline.Sistema treinado com locutores Adultos e testado com Crianas:31

Gaussianas na Mistura

Sistema treinado com Locutores Masculinos e testado com Crianas:

Mistura tima (Ponto de mnimo): 4 Gaussianas na mistura.Possvel Razo A variabilidade menor entre locutores masculinos.

Taxa de Erro de Palavra (WER%):HMM - no ponto de mnimo WER 28,39% uma reduo de 6,83% em relao baseline.

GMM-UBM - no ponto de mnimo WER de 29,75%, uma reduo de 5,47% em relao a baseline.

Mesmo com o VTLN, a WER continuou alta.32

V. Resultados ExperimentaisGaussianas na Mistura

Sistema treinado com Locutores Femininos e testado com Crianas:

Mistura tima (Ponto de mnimo): 32 Gaussianas na mistura.Possvel Razo H variabilidades entre os locutores femininos, por exemplo, alguns locutores femininos podem ter voz mais grave e outros mais agudos.

Taxa de Erro de Palavra (WER%):HMM - no ponto de mnimo WER 1,47% uma reduo de 2,4% em relao baseline.

GMM-UBM - no ponto de mnimo WER de 1,58%, uma reduo de 2,29% em relao a baseline.33

V. Resultados ExperimentaisGaussianas na Mistura

AgendaC