Datasets
Datasets
Определение
Datasets — библиотека от Hugging Face для загрузки, обработки и управления датасетами машинного обучения. Она обеспечивает быстрый доступ к тысячам открытых датасетов, использует формат Apache Arrow для эффективного хранения и предоставляет встроенные методы для предобработки данных (токенизация, фильтрация, агрегация). Datasets тесно интегрируется с Transformers и PEFT, упрощая подготовку данных для обучения и тонкой настройки моделей.
Где встречается
- 904. Какие типы NER существуют (BIO, BIOES, span-based)? В чем проблема вложенных сущ
- 955. Что такое QLoRA? Как 4-bit NormalFloat (NF4) quantization и Double Quantization
- 952. Что такое LoRA (Low-Rank Adaptation)? Объясните математическую идею
- 960. Как вы подбираете гиперпараметры для LoRA (learning rate, batch size, rank, alpha)?
- 961. Что такое Parameter-Efficient Fine-Tuning (PEFT)? Назовите 3 метода
- 967. Как вы бенчмарките fine-tuned модель: на удержанном датасете, на out-of-distribution задачах, на adversarial кейсах?