Поиск

  • wikiдискретизация аудио

    # дискретизация аудио ## Определение Преобразование непрерывного аудиосигнала в последовательность дискретных токенов для обработки моделями генерации аудио, такими как AudioLM и MusicGen…

  • wikiAudio RAG

    # Audio RAG ## Определение Архитектура RAG, адаптированная для обработки аудиоданных: аудио транскрибируется в текст, который индексируется и используется для поиска с…

  • wikiгенерация аудио

    # генерация аудио ## Определение Задача создания звуковых сигналов по заданным условиям, например, с помощью моделей AudioLM или MusicGen. ## Где встречается - [[551…

  • wikiEnCodec

    # EnCodec ## Определение Аудиокодек от Meta, используемый для дискретизации аудиосигнала в моделях генерации музыки, таких как MusicGen. ## Где встречается - [[551. Как…

  • wikiAudioLM

    # AudioLM ## Определение Модель генерации аудио с трёхэтапной архитектурой: семантическое кодирование, акустическое кодирование и языковое моделирование. ## Где встречается - [[551. Как работает…

  • wikiVAD

    # VAD ## Определение Детекция голосовой активности — алгоритм определения наличия речи в аудиопотоке, применяемый для сегментации и чанкинга аудио в ASR. ## Где…

  • wikiAudioCraft

    # AudioCraft ## Определение Библиотека от Meta для генерации аудио, включающая модели MusicGen и другие. ## Где встречается - [[551. Как работает AudioLM и…

  • answerЧто такое Audio RAG (RAG для аудиофайлов)?

    …текст + аудиоплеер с таймстемпами ``` --- ## 4. Особенности индексации аудио ### 4.1 Чанкинг по времени vs по смыслу | Метод | Плюсы | Минусы | |-------|-------|--------| | Фиксированные…

  • answerКак работает AudioLM и MusicGen для генерации аудио?

    …Генерация аудио и её сложности [[Вики/генерация аудио\|Генерация аудио]] — [[Вики/Task\|задача]] создания звуковых сигналов (речь, музыка, шумы) по…

  • wikiForced alignment

    # Forced alignment ## Определение Постобработка транскрипции для точной синхронизации текста с аудиодорожкой. Использует модели CTC или Wav2Vec2. ## Где встречается - [[559. Что…

  • wikiсемантические токены

    # семантические токены ## Определение Токены, представляющие смысловое содержание аудиоданных, такие как слова, фонемы или мелодия. ## Где встречается - [[551. Как работает AudioLM…

  • wikiмел-спектрограмма

    # мел-спектрограмма ## Определение Частотно-временное представление звука в мел-шкале, понижающее размерность для генерации аудио. ## Где встречается - [[551. Как работает…

  • wikiSoundStream

    # SoundStream ## Определение Нейросетевой аудиокодек с residual vector quantization, используемый для акустического кодирования в AudioLM и MusicGen. ## Где встречается - [[551. Как…

  • wikiакустические токены

    # акустические токены ## Определение Токены, кодирующие тембр, шумы и интонации для реконструкции звука в моделях генерации аудио. ## Где встречается - [[551. Как…

  • wikiResidual Vector Quantization

    …Как работает AudioLM и MusicGen для генерации аудио|551. Как работает AudioLM и MusicGen для генерации аудио]] ## Навигация - [[00. Индекс…

  • wikiCLAP

    # CLAP ## Определение CLAP (Contrastive Language-Audio Pretraining) — модель контрастивного обучения для получения совместных эмбеддингов текста и аудио, позволяющая выполнять поиск…

  • wikiSpeaker Diarization

    # Speaker Diarization ## Определение Техника разделения аудиозаписи на сегменты по голосам разных говорящих, позволяющая идентифицировать, кто и когда говорит. Применяется для…

  • wikiязыковое моделирование

    # языковое моделирование ## Определение Задача предсказания следующего токена в последовательности, лежащая в основе обучения генеративных моделей (LLM, аудиомоделей). Используется для моделирования…

  • answerКак вы делаете RAG для видео (индексация subshots, аудио, ключевые кадры)?

    …Обычно выбирается центральный кадр или кадр с максимальной резкостью. - Аудиоэмбеддинг — [[Вики/embedding\|векторное представление]] аудиосегмента, полученное с помощью модели (например…

  • wikilecture search

    # lecture search ## Определение Поиск фрагментов аудиолекций на основе Audio RAG, позволяющий извлекать релевантные аудиоотрывки по текстовому запросу. ## Где встречается - [[800…

  • wikiMultilingual audio

    # Multilingual audio ## Определение Тип обучающих данных, содержащий 680k часов аудиозаписей на многих языках. Используется для обучения моделей ASR, таких как…

  • wikiMusicGen

    …Как работает AudioLM и MusicGen для генерации аудио|551. Как работает AudioLM и MusicGen для генерации аудио]] - [[800+ вопросов|800…

  • wikiw2v-BERT

    …Как работает AudioLM и MusicGen для генерации аудио|551. Как работает AudioLM и MusicGen для генерации аудио]] - [[800+ вопросов|800…

  • wikiCTC

    …Что такое Audio RAG (RAG для аудиофайлов)|559. Что такое Audio RAG (RAG для аудиофайлов)]] ## Навигация - [[00. Индекс терминов|Индекс…

  • wikiWhisper

    # Whisper ## Определение Используется для транскрибации аудиодорожки в текст в пайплайне индексации видео. ## Где встречается - [[116. Как вы индексируете видео-контент…

  • answerКак работает Whisper архитектурно для ASR (Automatic Speech Recognition)?

    …Предобработка аудио: log-Mel спектрограмма Входное аудио (моно, 16 кГц) сначала преобразуется в log-Mel спектрограмму — двумерное представление частот по…

  • wikiautoregressive model

    …Как работает AudioLM и MusicGen для генерации аудио|551. Как работает AudioLM и MusicGen для генерации аудио]] ## Навигация - [[00. Индекс…

  • wikiHuBERT

    # HuBERT ## Определение Self-supervised аудио encoder на основе CNN и transformer, устойчивый к шуму, используется для ASR и обработки аудио

  • answerКак работает Whisper (architecture, tokenization, training) для ASR?

    …Токенизация ### 3.1 Аудио → спектрограмма - Аудио ресемплируется до 16 кГц (моно). - Вычисляется [[Вики/log-Mel spectrogram\|log-Mel спектрограмма]] с…

  • answerКак вы строите real-time voice agent с latency <500ms?

    …По мере поступления новых токенов, [[Вики/TTS\|TTS]] добавляет аудио в [[Вики/краткосрочная память\|буфер]]. 4. Аудио отправляется клиенту через…

  • wikiDeepSpeech

    …Что такое Audio RAG (RAG для аудиофайлов)|559. Что такое Audio RAG (RAG для аудиофайлов)]] ## Навигация - [[00. Индекс терминов|Индекс…

  • answerКак вы индексируете видео-контент в RAG-системе?

    …По аудио-эмбеддингам (текст–текст, если у аудио отдельная [[Вики/model\|модель]] или также [[Вики/CLIP\|CLIP]] [[Вики/Text encoder…

  • wikiWav2Vec2

    …Что такое Audio RAG (RAG для аудиофайлов)|559. Что такое Audio RAG (RAG для аудиофайлов)]] ## Навигация - [[00. Индекс терминов|Индекс…

  • wikitelegram bot

    …Как работает AudioLM и MusicGen для генерации аудио|551. Как работает AudioLM и MusicGen для генерации аудио]] - [[47. Реализовать query…

  • wikiWord Error Rate

    …Что такое Audio RAG (RAG для аудиофайлов)|559. Что такое Audio RAG (RAG для аудиофайлов)]] ## Навигация - [[00. Индекс терминов|Индекс…

  • wikiмел-спектрограммы

    # мел-спектрограммы ## Определение Представление аудио, используемое MusicGen для декомпозиции и генерации. ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс…

  • wikiself-supervision

    …Как работает AudioLM и MusicGen для генерации аудио|551. Как работает AudioLM и MusicGen для генерации аудио]] - [[563. Как вы…

  • wikiакустическое кодирование

    # акустическое кодирование ## Определение Второй этап AudioLM, использующий SoundStream для получения акустических токенов из аудиосигнала. ## Где встречается - [[800+ вопросов|800+ вопросов…

  • wikiсемантическое кодирование

    # семантическое кодирование ## Определение Этап преобразования аудиосигнала в семантические токены с помощью модели w2v-BERT. ## Где встречается - [[800+ вопросов|800+ вопросов…

  • wikispeaker

    # speaker ## Определение Диктор (спикер) — идентификация говорящего в аудио. В RAG-системах используется для индексации видео-контента по голосам. ## Где встречается…

  • wikisingle-stage autoregressive transformer

    # single-stage autoregressive transformer ## Определение Архитектура генерации аудио, использующая одностадийный авторегрессионный трансформер без разделения на этапы. ## Где встречается - [[800+ вопросов…

  • wikiтекстовый промпт

    # текстовый промпт ## Определение Входной текст, описывающий желаемый результат для генерации аудио, изображений или другого контента. Используется, например, в MusicGen для…

  • wikitimestamps

    # timestamps ## Определение Временные метки, привязанные к сегментам аудио или видео, позволяющие воспроизвести фрагмент и использовать его в RAG для точного…

  • wikimultimodal agent

    # multimodal agent ## Определение Агент, способный обрабатывать и генерировать данные различных модальностей (изображения, аудио). Для кодирования входа и выхода часто используется…

  • wikiSpecAugment

    # SpecAugment ## Определение Метод аугментации данных для аудио, заключающийся в маскировании частотных и временных полос спектрограммы для улучшения обобщения моделей ASR…

  • wikiWhisperFeatureExtractor

    # WhisperFeatureExtractor ## Определение Компонент Hugging Face для преобразования аудиосигнала в log-Mel спектрограммы, используемые в качестве входных признаков модели Whisper. ## Где…

  • wikiAudio encoder

    # Audio encoder ## Определение Модель для извлечения признаков из аудиосигнала (например, HuBERT, Wav2Vec2), используемая в мультимодальных системах. ## Где встречается - [[549. Как…

  • wikiCapability

    # Capability ## Определение Capability (возможность) — это перечень функций, которые агент может выполнять (например, работа с текстом, изображениями, аудио). Передаётся при handshake…

  • wikiWav2Vec

    # Wav2Vec ## Определение Модель для обработки аудиоданных, разработанная Meta. Используется как пример типа данных при выборе параметров HNSW. ## Где встречается - [[225…

  • answerКак работает whisper.cpp для локального ASR с low latency?

    …Например, [[Вики/real-time factor\|RTF]] = 0.1 означает, что 10 секунд аудио обрабатываются за 1 секунду. --- ## 2. Проблема оригинального…