Google C4 dataset
Google C4 dataset
Определение
Крупный публичный датасет, полученный очисткой веб-корпуса Common Crawl. Применяется для претренировки LLM и проверки перекрытия n-граммов в evaluation-датасетах (data contamination).
Где встречается
- 350. Как вы детектируете data contamination в evaluation датасетах
- 689. Как вы проектируете dynamic benchmark (меняющийся со временем)