OCRの精度に関する基礎知識
まずは、OCRやAI OCRがどのようなものなのか、その意味や精度について確認していきましょう。
OCRやAI OCRとは?
OCRとは、「Optical Character Recognition/Reader(オプティカル・キャラクター・レコグニション/リーダー)」の頭文字を取った用語で、日本語では「光学的文字認識」と訳されます。
簡潔に説明すると、紙に印刷された文字をスキャナーやカメラで読み込み、テキストデータに変換する技術のことで、紙ベースの資料や情報を取り込みデータ化するさまざまな場面で活用されています。
そして、このOCRとAI技術を組み合わせたものが「AI OCR」です。AI OCRは、従来のOCRよりも文字認識の精度が高く、非定型フォーマットの読み込みや手書き文章の認識が可能なものもあるなど、OCRよりも幅広い用途で活用することが可能です。
OCRの精度はどの程度?
さて、OCRの文字認識精度はどの程度なのでしょうか?
ここでは、国立国会図書館が実施した取り組みの結果をもとに、OCRの文字認識精度を探っていきましょう。
令和3年度、国立国会図書館は「デジタル化資料のOCRテキスト化事業」として、約247万点(約2.2億画像)のデジタル化資料を対象に、既存のOCRソフトやクラウドOCRサービスを用いてテキスト化を実施しました。
その結果、現代の資料であればおおむね98%以上の文字認識精度を記録した一方、明治期の資料に関しては80%以下、大正期の資料においても90%を下回る結果となりました。
さらにこの調査では、AI(機械学習)などにより国立国会図書館のデジタル化資料に最適化する改善を行っています。改善の結果、明治期の資料でも90%以上、大正期の資料においては96%以上までOCRの文字認識精度が高まっています。
(参照:1 令和3年度デジタル化資料のOCRテキスト化 | NDLラボ)
OCRの精度を上げるポイント
先述した通り、OCRの文字認識精度は機械学習を用いることで改善することが可能です。さらに、OCR処理を行う際のちょっとした工夫でも文字認識精度を上げられる場合があります。
次は、OCRの精度を上げるためのポイントを見ていきましょう。
スキャナーの設定を工夫する
紙文書を読み取る際のスキャナーの設定を工夫することで、OCR処理の精度を高めることができます。
たとえば、解像度の調整もひとつの方法です。紙文書をスキャナーで読み取る際の解像度は、300dpi~400dpiに設定するのが一般的。解像度が200dpi以下の場合、小さな文字の認識率が低下しやすくなります。また、文字や罫線などの色の濃さを調整することで、OCRの認識精度向上につながる場合があります。
読み取り帳票の様式を最適化する
OCRの精度を高めるために、読み取り帳票の様式を最適化するのも一策です。
たとえば、同じ種類の帳票に複数様式が存在する場合は様式を統一したり、自由記述の項目を減らして選択式に変更したりするのも有効です。
また、項目ごとに枠や罫線を設定したり、各項目の間隔や文字間隔を広めにとったりすることでも、認識精度の向上につながる場合があります。
傾きや歪みを補正する
認識精度を高めるには、読み込み文書の傾きや歪みを補正したり、ノイズを除去することも大切です。
読み込む文書が傾いていたり歪んでいたりすると、文字の認識精度が低下してしまう原因となってしまいます。歪みや傾きの補正機能があるソフトウェアを使用したり、スキャンの際に傾きや歪みが生じないよう注意しましょう。
高精度なOCR/AI OCRなら「invoiceAgent AI OCR」
数あるOCR/AI OCR製品・サービスのなかから、どのように製品・サービスを選べばよいか迷ってしまう方もいらっしゃるのではないでしょうか。
ここでは、ウイングアークが提供する高精度なOCR/AI OCRソリューション「invoiceAgent AI OCR(インボイスエージェント エーアイ オーシーアール)」をご紹介します。
高精度な4つのOCR/AI OCRエンジンを搭載
「invoiceAgent AI OCR」には、それぞれ特徴が異なる4つの高精度なOCR/AI OCRエンジンが搭載されています。
読み取り文書の種類や様式に応じて最適なOCR/AI OCRエンジンを選択できるだけでなく、1つの読み取り文書に複数のOCR/AI OCRエンジンによる処理を実行し、結果を比較するデータコンペア機能も搭載しています。
歪み・傾きの自動補正機能で認識率の低下を防止
「位置指定型」と「項目指定型」という2通りのフォーマット定義ができるので、帳票が固定フォーマットまたはフリーフォーマットの場合にもデータ化が可能です。
さらに、読み取り文書の歪みや傾きを自動補正する機能も備わっているため、認識率の低下を防ぎつつ効率的に文書のデータ化を推進することができます。
システム連携で業務効率化を加速
「invoiceAgent AI OCR」の特徴として、システム連携により業務効率化の範囲を拡張していける点が挙げられます。
「invoiceAgent」シリーズや帳票基盤ソリューション「SVF」「SVF Cloud」といったウイングアーク製品との連携により、帳票のデータ化やデジタル帳票の出力、法令に基づく一元管理、企業間での配信・受領まで一気通貫で実現するデジタル帳票基盤を構築することも可能です。
さらに、各種アダプターやWeb APIを用いることで、外部システムやクラウドサービスなどとスムーズに連携することもでき、幅広い範囲の業務の効率化・自動化を目指すことができます。
「invoiceAgent AI OCR」の活用事例
最後に、「invoiceAgent AI OCR」を活用している企業事例をご紹介します。
年間5,000時間分の業務負担を削減(スルガ銀行)
静岡県・神奈川県を中心に国内118店舗を展開するスルガ銀行株式会社は、「invoiceAgent AI OCR」を導入して書類のデータ化業務を大幅に効率化しました。
同社はかねてより「継続的顧客管理」の徹底に取り組んでおり、その一環として「定期的なお客さま情報ご提供のお願い」をお客さまに郵送したうえで回答を収集し、そのデータをCRMシステムで管理しています。
従来、回答の収集方法はスマートフォンで回答してもらう方法と、手書きで回答を記入して返送してもらう方法の二通りを用意しており、手書き回答をデータ化する作業が大きな負担となっていました。そこで同社は、手書き回答のデータ化を効率化するため、AI OCR製品の導入を検討開始。歪み・傾きを自動補正する機能や、複数のOCR/AI OCRエンジンによって手書き回答を高精度に認識できる点などを評価し、「invoiceAgent AI OCR」の導入を決めました。
導入後、「invoiceAgent AI OCR」は当初の期待通りのパフォーマンスを発揮し、継続的顧客管理業務の負担軽減に大いに貢献。手書き回答のデータ化に要する工数・時間は従来の6分の1程度まで短縮され、年間5,000時間分の作業負担が軽減される計算となっています。
▼事例詳細はこちら
スルガ銀行株式会社のinvoiceAgent導入事例をもっと見る
ミルシート管理の業務負荷を大幅軽減(今井金商)
北海道全域をカバーする総合建材商社の今井金商株式会社は、「invoiceAgent」の導入によりミルシート(鋼材検査証明書)の管理を効率化しました。
鉄鋼製品の流通業者においては、メーカーが発行したミルシートを保管し、製品の販売後は需要者の求めに応じてミルシートのコピーを転送する必要があります。同社では、メーカーから受領するミルシートをPDF化して管理する運用体制を取っていましたが、保存件数が多いため読み込みに多くの時間を要し、需要者の要件に応じて印刷・押印する手間も小さくない状況でした。
この状況を解決するため、同社は「invoiceAgent」でミルシートの保管から印刷・押印までを完結させる構想を検討開始。
PDF形式のミルシートをOCRでデータ化して適切なフォルダへと自動で振り分けるとともに、印刷対象のミルシートを選択すると取引先の要件に沿う印影が付与されたPDFが印刷対象用のフォルダに格納され、一括で印刷指示を行える仕組みを構築しました。
札幌本店での「invoiceAgent」の利用開始から1年が経過し、ミルシート管理の業務負荷は大幅に軽減。以前は10人体制で対応していた作業が1~2名で対応できるようになるなど、作業負担が目に見えて軽減しています。
▼事例詳細はこちら
今井金商株式会社のinvoiceAgent導入事例をもっと見る
まとめ
今回は、OCR/AI OCRの精度に注目し、認識率の目安や精度を上げるポイント、おすすめのOCR/AI OCRとその活用事例をご紹介しました。
OCR/AI OCRの精度は年々向上しており、今後もさらに改善していくことが予想されます。また近年では電子帳簿保存法の改正やDXの活発化などを背景に、企業における帳票の電子化・データ化の必要性が一層高まっています。
帳票の電子化・データ化に課題を感じている企業は、記事内でご紹介した「invoiceAgent」の活用を検討してみてはいかがでしょうか。