Опробовал фришную OCR Tesseract
Feb. 17th, 2008 08:54 pmРезульататы: английский, русский (после обучения) язЫка понимает; распознаёт более-менее пристойно (русский несколько хуже, но это зависит от качества скана и высоты шрифта). Недостатки: не понмает когда в скане попадаются изображения (пытается их распознать), проблемы с двуязычными текстами, вроде бы проблемы с текстом в несколько колонок (но толком не проверял). На выходе выдаёт исключительно plain text.