log-Mel spectrogram
log-Mel spectrogram
Определение
Двумерное представление аудиосигнала, получаемое после применения набора Mel-фильтров и логарифмирования амплитуд; используется как входное представление для энкодеров, например, в модели Whisper.
Где встречается
- 363. Как работает Whisper (architecture, tokenization, training) для ASR
- 543. Как работает Whisper архитектурно для ASR (Automatic Speech Recognition)
- 800+ вопросов