AndroidでTesseractを使ってみた

http://code.google.com/p/tesseract-android-tools/ を使うとAndroidからでも簡単にOCRれるみたいなので、夏休み中で時間もあることだし試してみようかと。

ビルドの仕方はREADMEに書いてある通りに以下のようにすればOK

cd <project-directory>
wget http://tesseract-ocr.googlecode.com/files/tesseract-3.01.tar.gz
wget http://leptonica.googlecode.com/files/leptonica-1.68.tar.gz
tar -zxvf tesseract-3.01.tar.gz
tar -zxvf leptonica-1.68.tar.gz
rm -f tesseract-3.01.tar.gz
rm -f leptonica-1.68.tar.gz
mv tesseract-3.01 jni/com_googlecode_tesseract_android/src
mv leptonica-1.68 jni/com_googlecode_leptonica_android/src
ndk-build
android update project --path .
ant release

でハマりやすいのが、学習データ的なものがないので http://code.google.com/p/tesseract-ocr/ の /tessdata から適切なディレクトリに配置しておく必要がある点。これを忘れるとSEGVしまくります。


一応、ギャラリー、カメラから読み込むサンプルを作ってgithubにあげておいた。
https://github.com/komamitsu/Android-OCRSample

肝心の精度は、ちょっとこのまま使うにはナイーブだな〜という感じ。