2008-02-17

avshap: (Default)
2008-02-17 08:54 pm

Опробовал фришную OCR Tesseract

Резульататы: английский, русский (после обучения) язЫка понимает; распознаёт более-менее пристойно (русский несколько хуже, но это зависит от качества скана и высоты шрифта). Недостатки: не понмает когда в скане попадаются изображения (пытается их распознать), проблемы с двуязычными текстами, вроде бы проблемы с текстом в несколько колонок (но толком не проверял). На выходе выдаёт исключительно plain text.