GT TEXT追記。。

2013.02.27.Wed
以前2回ほど紹介したOCRソフトのGT TEXT。。。

自分でも「結構いいこと書いてんじゃね??」と思ってたんですが、そう思ってくださった方々にとっては、今回も必見です。

seles1 001

この文章は、往年の名女子テニスプレーヤ-モニカ・セレスの自伝「私は負けない」の原著の謝辞なんですが、この丸々1ページGT TEXTで取り込めました。しかも、誤字が一文字ぐらいで済みました。

方法は、スキャナで300dpi(1インチに300ドットという意味)で取り込みます。

ちなみに自分が使ってるのは2005年頃にアマゾンで5000円で購入したhpの複合機PSC1510という奴なんですが、hpは当時(今はどうか知りませんし、機種によるのかもしれませんが)本体よりもインクヘッドで稼ぐという戦略を掲げており、本体はインクヘッド代を除けばタダみたいな価格だが、インク交換のたびにインクヘッド(3000円)も交換するので、そういう戦略に出てました。で、この複合機も御多分にもれず、インクヘッド代を差し引けば実質2000円の複合機です。。「じゃあ、インク代がかかるじゃん」という話になるんですが、インクはサードパーティ製のインクを注射器のようなもので詰め替えて、やりくりする、という形です。このインクは6回分で1000円くらいなので、これで印刷代が無茶苦茶浮きます。で、当時CannonやらEPSONの同価格帯のプリンタはインク容器とヘッドが分離しており、サードパーティ製のインクを詰め替えまくるとヘッドが詰まる(ヘッドは取り外せないので故障扱い?)、というネックがあったんです。一方HPの場合はインクを取り替える際はヘッドも一緒に取り替えられるので、もしもインクが詰まってヘッドがダメに成ってしまっても、3000円のインクヘッドを買えばいい(ちなみに純正インクが半分くらいしか詰まってないインクヘッドもあってそちらだともっと安くはなる)、という風にできるわけです。

まぁそれはとにかく。
スキャナで取り込んだら、次に大事なのは角度の調整です。
デジカメでも何度か試してみて確信したんですが、このソフトは角度に敏感で、例えば角度が1度狂っただけでも全然文字を認識しなくなったりします。
じゃあどうするか、、って話なんですが、フォトショップなどの画像加工ソフトが役に立ちます。
ですが、フォトショップ自体は非常にお高いソフトであり、素人にはなかなか手が出ません。
ということで、フォトショップエレメンツという廉価ソフトが存在します。
これだと古いバージョンのソフトなら中古で千円で手に入ります
(ちなみにプロ版との違いは主にカラー印刷関係の話なので、カラー原稿で同人出版でもしない限りはエレメンツで十分です)。

いやいや、画像加工ごときに千円も出せんわい!というあなたには、これがおすすめ↓
gimp.png
これはGIMPという有志で作られたオープンソースソフトなのですが、フォトショップに引けをとらない機能を持ったソフトで、もちろん無料。しかもオープンソースなので、色々改造を加えることもできます。僕も普段画像加工を用いる時はこのソフトを用いてます。ただしフォトショップに比べて重いソフトなのでやや起動に時間がかかります。あと、GIMP Portableというソフトも有り、ほぼ同機能でUSBメモリなどに保存したらインストールなしで色んなPCに繋ぐだけでGIMPが使えるようになるので、そちらもおすすめ。

ということで、GIMPを使って角度の調整をしてみましょう。

gimpkakudo.jpg

インストールして起動すると、画像のように右側にツールボックスが出現するはずです。
で、その中から「定規ツールを選びます」

seles2.jpg

で、仮に↑のような角度でスキャンしたと仮定します。
これからこの画像の角度を0度にします。

seles3.jpg

まず画像を拡大します。ちょっとモニタから文書がはみ出るかな?くらいまで拡大するといいと思います。
つぎに定規ツールを選び、右クリックで始点を設定します。今回は文書中の「l(エル)」の高さを基準にしてみます。別にlじゃなくてもhだろうがなんでもいいです。

seles4.jpg

つぎにクリックしてそのままドラッグすると、線が延びると思いますので、そのまま横に伸ばして、同行の一番最後にあるlを探します。今回は最初の方にあったdifficultと最後の方にあったholdのlをつないでみました。この線分が長ければ長いほど誤差は少なくなります。
で、次に下のバーに6.69°という数字が出てると思います。これがこの文書の角度ということになりますので、メモっときましょう。

seles5.jpg

次に、「回転ツール」を選びます。画像で赤丸で印をつけてるやつです。
選んだら、キャンパス上を一度クリックすると、画面のように回転の角度を設定出来ますので、「-6.69」といれて、「回転」ボタンを押します。これで文書の角度はゼロになったはずです。
念のためもう一度定規ツールで確認してみて下さい。

角度の調整が終わったら、画像を保存して、GT TEXTで読み込むだけです。
多分識字能力が格段に上がるはずです。

※フォトショップエレメンツの場合も同じような作業でできると思うんですが、任意の角度で回転させる場合、もしもスキャナで「モノクロ二階調」で取り込んでる場合は「グレースケール」にしないといけないようです。

・総括
これで1ページまるごと一気に、GT TEXTで取り込んでも、ほぼミスが無くテキストデータが拾えます。
「家にスキャナないんだよボケ」というお方でも、USBメモリとセブン-イレブンがありましたら、セブン-イレブンのマルチコピー機で一回30円でスキャナ出来ます。
ちなみに今回の、
スキャン→角度調整→GT TEXTで1ページまるごと文章抽出→ワードに貼り付けて改行や誤字の調整
の作業は5分くらいで出来ました。

この識字率があれば、パート6,7で解けなかった文章だとか、パート2,3,4などで聞き取れなかったスクリプトを、まとめてワードなどに落として復習に活用するという事もできそうです。
音声読上げソフトにテキストをペーストして読みあげてもらった音声をデスクトップ録音し、MP3にして聞きまくる、みたいなこともできます。

夢がひろがリング。。(∩´∀`)∩ワーイ

スポンサーサイト

Part5の復習をどうするか。。

2013.02.24.Sun
パート5の復習方法について提唱します。

パート5は勉強しても抜けやすいパートだと思います。だから、何回も復習する必要があるんですが、パート5の復習のために分厚い韓流模試を開くのはやや億劫。。

ということで先日紹介したOCRソフトGT TEXTが役に立つ日が来ました!
(∩´∀`)∩


gttext.jpg
↑これです。フリーソフトです。


open.jpg
まず起動すると、読み込むファイルについて選ばされますが、デフォルトだとBMPファイルしか開けないので、ドロップダウンリストを開いてJPGを開くようにします。選ばなくてキャンセルボタンを押しても、起動自体はできます。

sample2.jpg
問題をパシャリと撮ってから、読み込んでみました。
自分の場合だと、ページ一枚分を一気に撮影するより、一問一問を歪みなく、丁寧に撮影したほうが文字認識が高まると思います。

sample3.jpg
次に、テキストを抽出します。
抽出方法は画像のように2つ選べますが、どちらでもいいです。

ちなみに認識文字はデフォルトだと「英語」なので、今回はそのままで問題ないです。
日本語やら韓国語を選びたい場合は、「File」のところから「References」で、増やす必要があります(どこぞかの辞書ファイルを拾ってくる必要があるというわけではありません)。

sample4.jpg
抽出完了です。
「続行」ボタンを押すとクリップボードに抽出された文章がコピーされます。

sample1.jpg
あとはワード(古いですが。。)なりなんなりにそのまま貼り付けて、文章を整形すれば終わり。

・総括
・今回、文字認識率はかなりのものでした。本文中はほぼいじらずにコピペで行けました。
・ただし文章中に鉛筆でチェックなどを入れてると、文字認識率はかなり低下します。
・写真撮影が文字認識率を上げる鍵です。スキャナの方が多分もっといいはず。



我々はハングルの解説をどう用いればよいか。。

2013.02.18.Mon
今日は(珍しく)韓流TOEICにお役に御立てそうなことをお書きします。

今回ボクはETS1000RCのテスト5の135で間違えました。
よく読んでみれば解説なんかいらないような問題だったんですが、僕はとりあえず解説を眺めてみました。

DSCF1646.jpg

なるほどさっぱりわからん。

ということで、和訳する必要があります。
じゃあ何ができるか。。で役に立つのがOCR(Optical Character Reader)というものなのです!!
要するに、画像からテキスト拾っちゃうもんね~イヒヒってソフトが有るのです。
OCRソフト フリーあたりで検索すれば出てくると思います。
今回GT TEXTなるものを使ってみましたが(使い方教えろやボケ!と思われる方はまたコメント下さい)、選択ツールで選択した画像の中からテキストをクリップボードにコピーしたりできます(勿論設定は韓国語)。で、だいたいそれだけだと結構間違いがあって、そのままグーグル翻訳などに貼り付けてもめちゃめちゃな日本語になるので、IMEを韓国語に設定し、IME Pad(手書き入力ツール)などで直しを入れてやる必要があります(やり方教えろやボケ!と思われる方はコメント下さい)。
で、できた文章が、

이미 주어와 동사가 갖춰진 완전한 문장이므로, 이에 영향을 주지
않는 부사적인 요소가 필요한 자리에는 to부정사인(B)to stay 를
써야 한다
訳[すでに主語と動詞が装備されて完全な文なので、これに影響を与え
ない副詞的な要素が必要な場所には、to不定詞である(B)to stayを
使わなければならない]


となります。これはなかなか使える!
というわけで、長い韓国語の画像を翻訳したい時はOCRという機能が使えることがあります。
ちなみにGoogle docsでもかなり優れたOCRが使えるそうですが、僕は何故かダメでした。。

あと、Yes24などではE-bookで問題集の解説(俗にいうヘルゾジブ?ってやつです)が手に入りますが、Hisashiさんによると、韓国のE-bookは閲覧ソフトのブロックが厳しいらしいです。多分テキストをコピーすることもできない気がします。じゃあ、デスクトップキャプチャしてその画像にOCRをかけたら、恐らくかなりの精度でテキストが抽出できるような気がします(デジカメだとやっぱり文字が歪むし)。それが成功したら日本語訳もかなりいけそうな気がします。

次はパート7の時に韓国語の解説をどう利用できるか、を書きます。
パート7で手強いのはSuggestにしろNot問題にしろ、「その選択肢にある内容が、本文中のどこにあるのか?」ということだと思います。で、イクフンとかでもそうでしたが、解説中に該当箇所を示す英文が記載されています。つまり、解説がハングルとはいえ、パート7のそういう問題の解説はやはり該当箇所の英文がそのまま記載されているのです。よって間違えた問題の解説を見て、抽出されている英文を本文中で探せばほぼ納得いく答えが導かれると思います(ちなみにそのハングルの解説の中に数字とかが混ざってると、本文中のその数字のパラグラフや、行数あたりに該当する英文が存在することを示している可能性がある)。実際今回のテストでパート7で不明だった箇所はありませんでした。

というわけでハングルの解説は使えないこともない、ということを述べてみました。
 | HOME |