GT TEXT追記。。

2013.02.27.Wed
以前2回ほど紹介したOCRソフトのGT TEXT。。。

自分でも「結構いいこと書いてんじゃね??」と思ってたんですが、そう思ってくださった方々にとっては、今回も必見です。

seles1 001

この文章は、往年の名女子テニスプレーヤ-モニカ・セレスの自伝「私は負けない」の原著の謝辞なんですが、この丸々1ページGT TEXTで取り込めました。しかも、誤字が一文字ぐらいで済みました。

方法は、スキャナで300dpi(1インチに300ドットという意味)で取り込みます。

ちなみに自分が使ってるのは2005年頃にアマゾンで5000円で購入したhpの複合機PSC1510という奴なんですが、hpは当時(今はどうか知りませんし、機種によるのかもしれませんが)本体よりもインクヘッドで稼ぐという戦略を掲げており、本体はインクヘッド代を除けばタダみたいな価格だが、インク交換のたびにインクヘッド(3000円)も交換するので、そういう戦略に出てました。で、この複合機も御多分にもれず、インクヘッド代を差し引けば実質2000円の複合機です。。「じゃあ、インク代がかかるじゃん」という話になるんですが、インクはサードパーティ製のインクを注射器のようなもので詰め替えて、やりくりする、という形です。このインクは6回分で1000円くらいなので、これで印刷代が無茶苦茶浮きます。で、当時CannonやらEPSONの同価格帯のプリンタはインク容器とヘッドが分離しており、サードパーティ製のインクを詰め替えまくるとヘッドが詰まる(ヘッドは取り外せないので故障扱い?)、というネックがあったんです。一方HPの場合はインクを取り替える際はヘッドも一緒に取り替えられるので、もしもインクが詰まってヘッドがダメに成ってしまっても、3000円のインクヘッドを買えばいい(ちなみに純正インクが半分くらいしか詰まってないインクヘッドもあってそちらだともっと安くはなる)、という風にできるわけです。

まぁそれはとにかく。
スキャナで取り込んだら、次に大事なのは角度の調整です。
デジカメでも何度か試してみて確信したんですが、このソフトは角度に敏感で、例えば角度が1度狂っただけでも全然文字を認識しなくなったりします。
じゃあどうするか、、って話なんですが、フォトショップなどの画像加工ソフトが役に立ちます。
ですが、フォトショップ自体は非常にお高いソフトであり、素人にはなかなか手が出ません。
ということで、フォトショップエレメンツという廉価ソフトが存在します。
これだと古いバージョンのソフトなら中古で千円で手に入ります
(ちなみにプロ版との違いは主にカラー印刷関係の話なので、カラー原稿で同人出版でもしない限りはエレメンツで十分です)。

いやいや、画像加工ごときに千円も出せんわい!というあなたには、これがおすすめ↓
gimp.png
これはGIMPという有志で作られたオープンソースソフトなのですが、フォトショップに引けをとらない機能を持ったソフトで、もちろん無料。しかもオープンソースなので、色々改造を加えることもできます。僕も普段画像加工を用いる時はこのソフトを用いてます。ただしフォトショップに比べて重いソフトなのでやや起動に時間がかかります。あと、GIMP Portableというソフトも有り、ほぼ同機能でUSBメモリなどに保存したらインストールなしで色んなPCに繋ぐだけでGIMPが使えるようになるので、そちらもおすすめ。

ということで、GIMPを使って角度の調整をしてみましょう。

gimpkakudo.jpg

インストールして起動すると、画像のように右側にツールボックスが出現するはずです。
で、その中から「定規ツールを選びます」

seles2.jpg

で、仮に↑のような角度でスキャンしたと仮定します。
これからこの画像の角度を0度にします。

seles3.jpg

まず画像を拡大します。ちょっとモニタから文書がはみ出るかな?くらいまで拡大するといいと思います。
つぎに定規ツールを選び、右クリックで始点を設定します。今回は文書中の「l(エル)」の高さを基準にしてみます。別にlじゃなくてもhだろうがなんでもいいです。

seles4.jpg

つぎにクリックしてそのままドラッグすると、線が延びると思いますので、そのまま横に伸ばして、同行の一番最後にあるlを探します。今回は最初の方にあったdifficultと最後の方にあったholdのlをつないでみました。この線分が長ければ長いほど誤差は少なくなります。
で、次に下のバーに6.69°という数字が出てると思います。これがこの文書の角度ということになりますので、メモっときましょう。

seles5.jpg

次に、「回転ツール」を選びます。画像で赤丸で印をつけてるやつです。
選んだら、キャンパス上を一度クリックすると、画面のように回転の角度を設定出来ますので、「-6.69」といれて、「回転」ボタンを押します。これで文書の角度はゼロになったはずです。
念のためもう一度定規ツールで確認してみて下さい。

角度の調整が終わったら、画像を保存して、GT TEXTで読み込むだけです。
多分識字能力が格段に上がるはずです。

※フォトショップエレメンツの場合も同じような作業でできると思うんですが、任意の角度で回転させる場合、もしもスキャナで「モノクロ二階調」で取り込んでる場合は「グレースケール」にしないといけないようです。

・総括
これで1ページまるごと一気に、GT TEXTで取り込んでも、ほぼミスが無くテキストデータが拾えます。
「家にスキャナないんだよボケ」というお方でも、USBメモリとセブン-イレブンがありましたら、セブン-イレブンのマルチコピー機で一回30円でスキャナ出来ます。
ちなみに今回の、
スキャン→角度調整→GT TEXTで1ページまるごと文章抽出→ワードに貼り付けて改行や誤字の調整
の作業は5分くらいで出来ました。

この識字率があれば、パート6,7で解けなかった文章だとか、パート2,3,4などで聞き取れなかったスクリプトを、まとめてワードなどに落として復習に活用するという事もできそうです。
音声読上げソフトにテキストをペーストして読みあげてもらった音声をデスクトップ録音し、MP3にして聞きまくる、みたいなこともできます。

夢がひろがリング。。(∩´∀`)∩ワーイ

スポンサーサイト
コメント

管理者のみに表示