Поиск

wikiдискретизация аудио
# дискретизация аудио ## Определение Преобразование непрерывного аудиосигнала в последовательность дискретных токенов для обработки моделями генерации аудио, такими как AudioLM и MusicGen…
wikiAudio RAG
# Audio RAG ## Определение Архитектура RAG, адаптированная для обработки аудиоданных: аудио транскрибируется в текст, который индексируется и используется для поиска с…
wikiгенерация аудио
# генерация аудио ## Определение Задача создания звуковых сигналов по заданным условиям, например, с помощью моделей AudioLM или MusicGen. ## Где встречается - [[551…
wikiEnCodec
# EnCodec ## Определение Аудиокодек от Meta, используемый для дискретизации аудиосигнала в моделях генерации музыки, таких как MusicGen. ## Где встречается - [[551. Как…
wikiAudioLM
# AudioLM ## Определение Модель генерации аудио с трёхэтапной архитектурой: семантическое кодирование, акустическое кодирование и языковое моделирование. ## Где встречается - [[551. Как работает…
wikiVAD
# VAD ## Определение Детекция голосовой активности — алгоритм определения наличия речи в аудиопотоке, применяемый для сегментации и чанкинга аудио в ASR. ## Где…
wikiAudioCraft
# AudioCraft ## Определение Библиотека от Meta для генерации аудио, включающая модели MusicGen и другие. ## Где встречается - [[551. Как работает AudioLM и…
answerЧто такое Audio RAG (RAG для аудиофайлов)?
…текст + аудиоплеер с таймстемпами ``` --- ## 4. Особенности индексации аудио ### 4.1 Чанкинг по времени vs по смыслу | Метод | Плюсы | Минусы | |-------|-------|--------| | Фиксированные…
answerКак работает AudioLM и MusicGen для генерации аудио?
…Генерация аудио и её сложности [[Вики/генерация аудио\|Генерация аудио]] — [[Вики/Task\|задача]] создания звуковых сигналов (речь, музыка, шумы) по…
wikiForced alignment
# Forced alignment ## Определение Постобработка транскрипции для точной синхронизации текста с аудиодорожкой. Использует модели CTC или Wav2Vec2. ## Где встречается - [[559. Что…
wikiсемантические токены
# семантические токены ## Определение Токены, представляющие смысловое содержание аудиоданных, такие как слова, фонемы или мелодия. ## Где встречается - [[551. Как работает AudioLM…
wikiмел-спектрограмма
# мел-спектрограмма ## Определение Частотно-временное представление звука в мел-шкале, понижающее размерность для генерации аудио. ## Где встречается - [[551. Как работает…
wikiSoundStream
# SoundStream ## Определение Нейросетевой аудиокодек с residual vector quantization, используемый для акустического кодирования в AudioLM и MusicGen. ## Где встречается - [[551. Как…
wikiакустические токены
# акустические токены ## Определение Токены, кодирующие тембр, шумы и интонации для реконструкции звука в моделях генерации аудио. ## Где встречается - [[551. Как…
wikiResidual Vector Quantization
…Как работает AudioLM и MusicGen для генерации аудио|551. Как работает AudioLM и MusicGen для генерации аудио]] ## Навигация - [[00. Индекс…
wikiCLAP
# CLAP ## Определение CLAP (Contrastive Language-Audio Pretraining) — модель контрастивного обучения для получения совместных эмбеддингов текста и аудио, позволяющая выполнять поиск…
wikiSpeaker Diarization
# Speaker Diarization ## Определение Техника разделения аудиозаписи на сегменты по голосам разных говорящих, позволяющая идентифицировать, кто и когда говорит. Применяется для…
wikiязыковое моделирование
# языковое моделирование ## Определение Задача предсказания следующего токена в последовательности, лежащая в основе обучения генеративных моделей (LLM, аудиомоделей). Используется для моделирования…
answerКак вы делаете RAG для видео (индексация subshots, аудио, ключевые кадры)?
…Обычно выбирается центральный кадр или кадр с максимальной резкостью. - Аудиоэмбеддинг — [[Вики/embedding\|векторное представление]] аудиосегмента, полученное с помощью модели (например…
wikilecture search
# lecture search ## Определение Поиск фрагментов аудиолекций на основе Audio RAG, позволяющий извлекать релевантные аудиоотрывки по текстовому запросу. ## Где встречается - [[800…
wikiMultilingual audio
# Multilingual audio ## Определение Тип обучающих данных, содержащий 680k часов аудиозаписей на многих языках. Используется для обучения моделей ASR, таких как…
wikiMusicGen
…Как работает AudioLM и MusicGen для генерации аудио|551. Как работает AudioLM и MusicGen для генерации аудио]] - [[800+ вопросов|800…
wikiw2v-BERT
…Как работает AudioLM и MusicGen для генерации аудио|551. Как работает AudioLM и MusicGen для генерации аудио]] - [[800+ вопросов|800…
wikiCTC
…Что такое Audio RAG (RAG для аудиофайлов)|559. Что такое Audio RAG (RAG для аудиофайлов)]] ## Навигация - [[00. Индекс терминов|Индекс…
wikiWhisper
# Whisper ## Определение Используется для транскрибации аудиодорожки в текст в пайплайне индексации видео. ## Где встречается - [[116. Как вы индексируете видео-контент…
answerКак работает Whisper архитектурно для ASR (Automatic Speech Recognition)?
…Предобработка аудио: log-Mel спектрограмма Входное аудио (моно, 16 кГц) сначала преобразуется в log-Mel спектрограмму — двумерное представление частот по…
wikiautoregressive model
…Как работает AudioLM и MusicGen для генерации аудио|551. Как работает AudioLM и MusicGen для генерации аудио]] ## Навигация - [[00. Индекс…
wikiHuBERT
# HuBERT ## Определение Self-supervised аудио encoder на основе CNN и transformer, устойчивый к шуму, используется для ASR и обработки аудио…
answerКак работает Whisper (architecture, tokenization, training) для ASR?
…Токенизация ### 3.1 Аудио → спектрограмма - Аудио ресемплируется до 16 кГц (моно). - Вычисляется [[Вики/log-Mel spectrogram\|log-Mel спектрограмма]] с…
answerКак вы строите real-time voice agent с latency <500ms?
…По мере поступления новых токенов, [[Вики/TTS\|TTS]] добавляет аудио в [[Вики/краткосрочная память\|буфер]]. 4. Аудио отправляется клиенту через…
wikiDeepSpeech
…Что такое Audio RAG (RAG для аудиофайлов)|559. Что такое Audio RAG (RAG для аудиофайлов)]] ## Навигация - [[00. Индекс терминов|Индекс…
answerКак вы индексируете видео-контент в RAG-системе?
…По аудио-эмбеддингам (текст–текст, если у аудио отдельная [[Вики/model\|модель]] или также [[Вики/CLIP\|CLIP]] [[Вики/Text encoder…
wikiWav2Vec2
…Что такое Audio RAG (RAG для аудиофайлов)|559. Что такое Audio RAG (RAG для аудиофайлов)]] ## Навигация - [[00. Индекс терминов|Индекс…
wikitelegram bot
…Как работает AudioLM и MusicGen для генерации аудио|551. Как работает AudioLM и MusicGen для генерации аудио]] - [[47. Реализовать query…
wikiWord Error Rate
…Что такое Audio RAG (RAG для аудиофайлов)|559. Что такое Audio RAG (RAG для аудиофайлов)]] ## Навигация - [[00. Индекс терминов|Индекс…
wikiмел-спектрограммы
# мел-спектрограммы ## Определение Представление аудио, используемое MusicGen для декомпозиции и генерации. ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс…
wikiself-supervision
…Как работает AudioLM и MusicGen для генерации аудио|551. Как работает AudioLM и MusicGen для генерации аудио]] - [[563. Как вы…
wikiакустическое кодирование
# акустическое кодирование ## Определение Второй этап AudioLM, использующий SoundStream для получения акустических токенов из аудиосигнала. ## Где встречается - [[800+ вопросов|800+ вопросов…
wikiсемантическое кодирование
# семантическое кодирование ## Определение Этап преобразования аудиосигнала в семантические токены с помощью модели w2v-BERT. ## Где встречается - [[800+ вопросов|800+ вопросов…
wikispeaker
# speaker ## Определение Диктор (спикер) — идентификация говорящего в аудио. В RAG-системах используется для индексации видео-контента по голосам. ## Где встречается…
wikisingle-stage autoregressive transformer
# single-stage autoregressive transformer ## Определение Архитектура генерации аудио, использующая одностадийный авторегрессионный трансформер без разделения на этапы. ## Где встречается - [[800+ вопросов…
wikiтекстовый промпт
# текстовый промпт ## Определение Входной текст, описывающий желаемый результат для генерации аудио, изображений или другого контента. Используется, например, в MusicGen для…
wikitimestamps
# timestamps ## Определение Временные метки, привязанные к сегментам аудио или видео, позволяющие воспроизвести фрагмент и использовать его в RAG для точного…
wikimultimodal agent
# multimodal agent ## Определение Агент, способный обрабатывать и генерировать данные различных модальностей (изображения, аудио). Для кодирования входа и выхода часто используется…
wikiSpecAugment
# SpecAugment ## Определение Метод аугментации данных для аудио, заключающийся в маскировании частотных и временных полос спектрограммы для улучшения обобщения моделей ASR…
wikiWhisperFeatureExtractor
# WhisperFeatureExtractor ## Определение Компонент Hugging Face для преобразования аудиосигнала в log-Mel спектрограммы, используемые в качестве входных признаков модели Whisper. ## Где…
wikiAudio encoder
# Audio encoder ## Определение Модель для извлечения признаков из аудиосигнала (например, HuBERT, Wav2Vec2), используемая в мультимодальных системах. ## Где встречается - [[549. Как…
wikiCapability
# Capability ## Определение Capability (возможность) — это перечень функций, которые агент может выполнять (например, работа с текстом, изображениями, аудио). Передаётся при handshake…
wikiWav2Vec
# Wav2Vec ## Определение Модель для обработки аудиоданных, разработанная Meta. Используется как пример типа данных при выборе параметров HNSW. ## Где встречается - [[225…
answerКак работает whisper.cpp для локального ASR с low latency?
…Например, [[Вики/real-time factor\|RTF]] = 0.1 означает, что 10 секунд аудио обрабатываются за 1 секунду. --- ## 2. Проблема оригинального…