光学文字認識
光学文字認識(こうがくもじにんしき、Optical character recognition)は、活字の文書の画像(通常イメージスキャナーで取り込まれる)を文字コードの列に変換するソフトウェアである。一般にOCRと略記される。OCRは、人工知能やマシンビジョンの研究分野として始まった。研究は続けられているが、OCRの中心はその実装と応用に移っている。紙に印刷された文書をデジタイズし、よりコンパクトな形で記録するのに必要とされる。さらに、文字コードに変換することで機械翻訳や音声合成の入力にも使えるようになり、テキストマイニングも可能となる。研究分野としては、パターン認識、人工知能、コンピュータビジョンが対応する。
(鏡やレンズといった光学技術を使った)光学文字認識と(スキャナーとアルゴリズムによる)デジタル文字認識は本来別の領域と考えられていた。光学技術として生き残った部分が非常に少ないため、光学文字認識という言葉は現在ではデジタル文字認識を含むものとみなされている。
初期のシステムは特定の書体を読むための「トレーニング」が必要であった(事前にその書体のサンプルを読ませることを意味する)。現在では、ほとんどの書体を高い識字率で変換することが可能である。いくつかのシステムでは読み込まれた画像からそれとほぼ同じになるようフォーマットされた出力(例えばワードプロセッサのファイルのようなもの)を生成することが可能であり、中には画像などの文書以外の部分が含まれていても正しく認識するものもある。
目次
1 歴史
2 視覚障害者にとっての重要性
3 OCR技術の状況
4 楽譜OCR
5 SpotOCR
6 OCRソフトウェア
7 脚注
8 関連項目
9 外部リンク
歴史
光学文字認識の原点は、電信技術の拡張と視覚障害者が文字を読むための機械の開発という2つの問題にまつわる活動である[1]。1914年エマニュエル・ゴールドバーグは、文字列を読み取り電信符号に変換する機械を開発した[要出典]。同じころエドマンド・フルニエ・ダルベはオプトフォンという携帯型スキャナを開発した。これを印刷物のページ上ですべらせると、文字の形状によって異なる音を発する。
ゴールドバーグはデータ入力手段としてOCR技術の開発を続けた。後に彼は、画像を光電管で読み取り、必要な識別パターンを含むテンプレートと比較することでマッチング対象を見つけるという技法を提案した。1929年、グスタフ・タウシェクも同様のアイデアを思いつき、ドイツでOCRに関する特許を取得した。アメリカでは1933年、ポール・W・ハンデルが同様のテンプレート・マッチング方式のOCR技術の特許を取得している(アメリカ合衆国特許第1,915,993号)。1935年、タウシェクもアメリカで特許を取得した(アメリカ合衆国特許第2,026,329号)。
1949年、米国復員軍人援護局から視覚障害者支援のためという要請を受け、RCAの技術者らが初期のコンピュータを使ったOCRを研究した。この研究には、単に活字をコンピュータ内の文字コードに変換するだけでなく、その文字を読み上げるという部分も含まれており、初期の音声合成の研究でもある。しかし、コストがかかりすぎることが判明し、研究は挫折した[2]。
1950年、AFSA(アメリカ国家安全保障局の前身)の暗号解読者デイヴィッド・H・シェパードは、日本のパープル暗号を解読したことで知られるフランク・ロウレットの依頼により、ルイス・トーデラと共に局の手続きの自動化の勧告案作成に取り組んだ。その中には印刷された文書をコンピュータが処理できる形式に変換する問題も含まれていた。シェパードはそのようなことをする機械 "Gismo" を作成することを決め、友人のハーヴェイ・クックと共に自宅で夜や週末を利用して試作に取り組んだ[3]。1953年、シェパードは特許(アメリカ合衆国特許第2,663,758号)を取得。Gismoは英語のアルファベットのうち23文字を読み取ることができ、モールス符号を理解し、楽譜を読みとることができ、活字のページを読み上げることができ、タイプされたページを読みとってプリンターで複製することができた。シェパードはその後 Intelligent Machines Research Corporation (IMR) を設立し、世界初のいくつかの商用OCRシステムを出荷した。Gismo も IMR のシステムも単純な文字マッチングではない画像解析をしていて、いくつかの書体を認識することができた。Gismo は画像中の文字の位置を正確に合わせる必要があったが、IMRシステムではスキャン領域のどこの文字であっても認識でき、実用に耐えるものであった。
最初の商用システムは1955年にリーダーズ・ダイジェスト社に納入され、販売報告書をコンピュータに入力するのに使われた。タイプされた報告書をパンチカードに変換し、それをコンピュータに入力するもので、年間1500万から2000万部を売り上げている同社の事務処理を効率化した[1]。このシステムは後にスミソニアン博物館に無償で提供され展示されている。2台目のシステムはスタンダード・オイルがカリフォルニア州でクレジットカードの文字を読み取るために使い、他の石油会社もこれに追随した。IMRが1950年代後半に販売した他のシステムとしては電話会社の請求書読み取り装置やアメリカ空軍のテレタイプ用ページスキャナーなどがある。IBMなどは後にシェパードからOCR特許のライセンス供与を受けている。
1965年ごろ、リーダーズ・ダイジェストとRCAは、使われて戻ってきた同誌の広告についているクーポンのシリアル番号を読み取るOCR装置を共同で開発した。シリアル番号はRCAのプリンターでOCR-Aフォントで印字されていて、この文字の読み取り装置は RCA 301 というコンピュータに直接接続された。この技術はトランス・ワールド航空(TWA)で航空チケットの読み取りにも使われることとなる。読み取り装置は毎分1,500枚の文書を処理でき、正しく読み取れなかった文書は弾かれる。RCAはこれを製品化し、保険会社などが採用した。
アメリカ合衆国郵便公社も1965年から発明家ジェイコブ・レインボーの開発した技術を元にしてOCRマシンを使っている。ヨーロッパでOCRを最初に採用したのはイギリスの郵便局だった。イギリスでは1965年、郵便貯金に相当するナショナル・ジャイロがOCRを使った自動化を行った。カナダの郵便局は1971年からOCRを使用している。OCRは受取人の名前と住所を読み取って番号順に並べかえるために使われる。そして郵便番号に基づいたバーコードを封筒に印刷する。その後手紙はバーコードにしたがって細かく並べかえる。バーコードが宛名とかぶる可能性があるため(基本的に宛名や住所はどこに書いても良い)、バーコードは紫外線ライトで見える特殊なインクを使用している。このインクは通常の光ではオレンジ色に見える。
なお、日本では漢字の読み取りが難しいため、1968年7月1日に郵便番号が導入され、手書きの数字である郵便番号をOCRシステムで読み取って並べかえていた。1998年に郵便番号の7桁化がなされてからはOCRで読み取った際にアメリカのようにバーコード(ただしこちらは可視光では無色なインクを使用)を印刷するようになった。
視覚障害者にとっての重要性
1974年、レイ・カーツワイルはあらゆる書体を読み取れるOCRの開発を行う Kurzweil Computer Products, Inc. を創業[4]。カーツワイルは、音声合成技術と組合わせればこの技術が視覚障害者にとって最も役立つと考えた。鍵となる技術はCCDイメージスキャナと音声合成である。1976年1月13日、製品の完成披露が行われた。1978年、カーツワイルはOCRソフトウェアの販売を開始。最初の顧客はレクシスネクシスで、ニュースなどの文書をデータベースに入力するのに使った。2年後、カーツワイルは会社をゼロックスに売却。後にゼロックスはその部門を Scansoft としてスピンオフさせ、Scansoft はニュアンスコミュニケーションズと合併した[5]。
OCR技術の状況
1990年代中ごろ、アメリカ合衆国エネルギー省 (DOE) は情報科学研究所 (ISRI) に印刷文書の認識技術育成という使命を与えた。それにより5年間に渡って Annual Test of OCR Accuracy がまとめられた[6]。
ラテン文字の活字文書の正確な認識はほとんど解決済みの問題だが、識字率(文字を正しく認識する確率)は100%ではなく、間違いの許されない状況では人間が結果を確認する必要がある。19世紀および20世紀初頭の新聞を使った研究によると、単純に文字単位で認識する市販のOCRソフトウェアの識字率は71%から98%だった[7]。手書き文字、特に筆記体の手書き文字認識や文字数の多い言語の文字認識ではまだ研究の余地がある。
文字認識の精度はいくつかの測定法で表され、実際に使用した測定法によって精度は大きく左右される。例えば、文脈や辞書を使わずに純粋に文字単位で認識する場合、識字率が99%であっても、単語ベースの誤り率は5%となるかもしれない[8]。
オンライン文字認識は光学文字認識と混同されることがある[9](手書き文字認識参照)。OCRは基本的にオフラインの文字認識であり、純粋に文字の静的な形状を認識する。一方オンライン文字認識は、文字が書かれる動的な過程を認識する。例えば、PenPoint OS やタブレットコンピュータなどがジェスチャーを認識するのもオンライン認識の一種であり、ペンがどういう方向にどれだけ動いたかを認識する。オンライン手書き文字認識を知的文字認識 (ICR) とも呼ぶ。
手書き文字認識システムは近年、商用で成功している分野である。この技術はPalm OSなどが動作する携帯情報端末で入力手段として採用された。アップル・ニュートンがこの技術の先駆者である。これらの機器では筆順や速度や線の方向が入力時に分かるので比較的認識が容易である。また、ユーザー側も徐々に認識されやすい文字を書くようにトレーニングされるという面もある。一方、紙に書かれた手書き文字を認識するソフトウェアには上記の利点が無いため、識字率はいまだ十分とは言えない。きれいに書かれた手書き文字でも識字率は80%から90%であり、1ページにつき数十個の認識不能文字が出現することになる。これは非常に限られた分野でしか実用化できないレベルである。
筆記体文書の認識は研究が盛んであるが、識字率はさらに低い。筆記体の文字認識の識字率を高めるには、文脈や文法の情報を使わなければならない。例えば、辞書の単語を認識するのは、手書き原稿の個々の文字を認識するよりも簡単である。小切手に書かれた数字の列は小さな辞書を使えばいいので識字率を上げることができる。スキャンしている文書の言語の文法に関する知識があれば、単語が名詞なのか動詞なのかを判別することが可能となり識字率を上げることができる。手書き文字の形だけでは正確な認識(一般に98%以上)は不可能といってよい。
OCR技術はアドバンストスキャン技術の基盤となっている[10]。
一般に、より複雑な認識問題にはニューラルネットワークを使うことが多く、非線形な変形でも線形な変形でもよく機能する[11]。
文書内の認識が難しい単語や文字列の認識で大いに成功を収めている技法として、人間の文字認識能力を利用したreCAPTCHAシステムがある。
楽譜OCR
1970年代、印刷された楽譜を読み取る研究がMITなどの研究所で行われた。その後楽譜の記号を認識する研究が続けられ、商用のソフトウェアは 1991年に "MIDISCAN for Windows" (現:SmartScore) がリリースされた。 なお日本においては1985年につくば市で開催された国際科学技術博覧会で早稲田大学が開発した楽譜OCRを搭載したWABOT-2を基に製作されたWASUBOTが半年間の会期中に演奏した[12]。1995年に楽譜OCRを搭載した楽譜作成ソフトウェアのスコアメーカーが河合楽器製作所にて製造販売されている。
SpotOCR
デスクトップからスクリーンショットで切り出した画像を超解像技術により、文字認識可能な解像度までアップサンプリングしたのちに文字認識をかける、OCRソフトの一つ。
スクリーンショットから文字認識をかけるためデスクトップに表示される文書画像であれば、ファイル形式を問わずにテキスト化が可能である。
画像の中の文字と数式がコピーできない問題を解決するために提案されている。
OCRソフトウェア
- ABBYY
- Adobe Acrobat
Captiva(Global)- DigitEyeOCR
- e.Typist
- EasyAccess
- GOCR
- Google ドキュメント
- Kooka
- Microsoft Office Document Imaging
- NovoDynamics
Ocrad - GNUプロジェクトのOCRソフト。- OCRopus
- OmniPage
- Prexifort-OCR(NTT研究所)
- Readiris
- ReadSoft
- SimpleOCR
- SmartOCR - 無料ソフト、Windows用
SmartScore - 楽譜認識用OCRソフト。- Softi FreeOCR (欧文OCR)
- TeleForm
Tesseract - 1995年、ネバダ大学ラスベガス校の認識精度テストでトップ3に選ばれたOCRエンジン。- WebOCR
- 読んde!!ココ
- 読取革命
- クセロReader ZERO - 無料ソフト、Windows用
- 一発!OCR Pro
- 画像の中の文字と数式をコピーしよう~Mosha SpotOCR Cloud~
脚注
- ^ abHerbert Schantz, The History of OCR. Manchester Center, VT: Recognition Technologies Users Association, 1982.
^ "Reading Machine Speaks Out Loud" , February 1949, Popular Science.
^ Washington Daily News, April 27, 1951; New York Times, December 26, 1953
^ カーツワイルは書体を選ばないOCR技術の発明者とされることもあるが、1960年代末ごろから同様の技術を開発する企業がいくつか出現している。詳しくは Schantz, The History of OCR; Data processing magazine, Volume 12 (1970), p. 46 を参照
^ “音声ソフトの ScanSoft、競合する Nuance を買収”. japan.internet.com. (2005年5月10日). http://japan.internet.com/finanews/20050510/11.html
^ “The Fifth Annual Test of OCR Accuracy”. 2012年4月27日閲覧。
^ Holley, Rose (2009年4月). “How Good Can It Get? Analysing and Improving OCR Accuracy in Large Scale Historic Newspaper Digitisation Programs”. D-Lib Magazine. 2011年1月5日閲覧。
^ Suen, C.Y., et al (1987年5月29日). Future Challenges in Handwriting and Computer Applications. 3rd International Symposium on Handwriting and Computer Applications, Montreal, May 29, 1987. http://users.erols.com/rwservices/pens/biblio88.html#Suen88 2008年10月3日閲覧。.
^ Tappert, Charles C., et al (1990年8月). The State of the Art in On-line Handwriting Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol 12 No 8, August 1990, pp 787-ff. http://users.erols.com/rwservices/pens/biblio90.html#Tappert90c 2008年10月3日閲覧。.
^ “アドバンストスキャンとは”. デンソーウェーブ. 2012年4月27日閲覧。
^ LeNet-5, Convolutional Neural Networks
^ 開会式ではNHK交響楽団との協演でG線上のアリアを演奏した。
関連項目
自動車ナンバー自動読取装置(Nシステム)/自動速度違反取締装置(オービス)
バーコードとバーコードリーダー
- CAPTCHA
- コンピュータビジョン
- 画像処理
- 郵便区分機
- 手書き文字認識
- 機械学習
- マシンビジョン
- 磁気インク文字認識
光学式マーク認識とマークシート
- パターン認識
- レイ・カーツワイル
- 音声認識
- 自炊 (電子書籍)
- 楽譜OCR
- SpotOCR
外部リンク
ICDAR 文書認識に関する総合的な国際会議
Unicode OCR - Hex Range: 2440-245F Optical Character Recognition in Unicode