Subsampling
Subsampling
Определение
Subsampling (подвыборка) — это техника, применяемая при обучении word embeddings (например, Word2Vec и GloVe) для уменьшения влияния чрезвычайно частых слов. Она заключается в вероятностном отбрасывании части вхождений высокочастотных слов из обучающего корпуса, что ускоряет обучение и позволяет модели лучше сосредоточиться на менее частых, но более информативных словах. Subsampling также помогает улучшить качество результирующих векторов.