2008-02-17

Резульататы: английский, русский (после обучения) язЫка понимает; распознаёт более-менее пристойно (русский несколько хуже, но это зависит от качества скана и высоты шрифта). Недостатки: не понмает когда в скане попадаются изображения (пытается их распознать), проблемы с двуязычными текстами, вроде бы проблемы с текстом в несколько колонок (но толком не проверял). На выходе выдаёт исключительно plain text.

2008-02-17

Опробовал фришную OCR Tesseract