Tesseract

Tesseract

Определение

Tesseract — это движок оптического распознавания символов (OCR) с открытым исходным кодом, изначально разработанный компанией HP, а затем поддерживаемый Google. Он позволяет извлекать текст из изображений и отсканированных документов, поддерживая множество языков. Tesseract часто используется в пайплайнах обработки PDF и документов, когда необходимо распознать текст, который не является машинописным (например, в отсканированных файлах).

Где встречается

Навигация