電子帳簿保存法の改正や働き方改革の一環として、書類をデータに変換してペーパーレス化する取り組みが推進されています。
ペーパーレス化を行う目的の一つが「紙文書からのテキスト抽出」です。しかし、ただ紙の文書をスキャンさえすればテキストとして抽出できるわけではなく、「OCR(オーシーアール)」という技術を活用する必要があります。
この記事では、デジタル文書であるPDFをOCRで変換する方法について解説。テキスト抽出におすすめのツール・サービスも併せてご紹介しますので、ぜひ参考にしてみてください。
とある企業のシステム管理者として10年以上勤めています。 自身の経験や知識を活かし、誰にでも分かりやすい記事をお届けしたいです。
PDFの変換に使う「OCR」とは

OCRとは「Optical Character Recognition」の略称であり、日本語に訳すと「光学文字認識」となります。本来OCRは、画像や紙に印字された文字をコンピュータへ認識させ、テキストデータに変換する技術です。
標準的な電子文書ファイルとして私たちにも馴染み深い「PDF」ですが、PDFに含まれる文字をテキストデータ化する際は、このOCR技術を活用するといいでしょう。
PDFに含まれる文字をテキスト化できれば、手動で入力する手間が省け、内容を変更したりキーワードでの検索も容易になります。
紙の文書をスキャンしてPDF化する際、OCR技術を使ってPDF内にテキストデータを埋め込めば、PDF文書に含まれる文字をコピーできるため、業務の効率化にも役立つ技術です。
無料版・有料版でのOCRサービスの違い

PDFに対してOCR処理を行えるサービスはたくさんありますが、無料で使えるものと有料で使えるものがあります。OCR処理自体に差はありませんが、使い勝手の部分で異なる点が多くあります。
ここでは、無料・有料のOCRサービスの違いや、メリット・デメリットについて見ていきましょう。
| 無料版 | 有料版 | |
| 手書き文字の読み取り | 精度はあまり高くない | 非常に精度が高い |
| 読み取り範囲 | PDFファイルの全体のみ可能 | 任意の場所だけの抽出も可能 |
| 読み取りできる枚数 | サービスによって枚数は有限 | 基本的には無制限 |
| データの成形 | テキストデータの羅列 | CSVやExcelでの出力にも対応 |
| OCR以外の機能 | 基本的にはPDF変換のみ使える | PDF編集など様々な機能が使える |
| コスト | 無料のためコストがかからない | 毎月定額のコストがかかる |
上記比較の中で最も注目すべき点は「手書き文字の読み取り」の精度です。
パソコンで作られた書類であれば、無料版でも有料版でも読み取り精度にそこまで差はありません。しかし、手書き文書となると圧倒的に有料版の方が読み取り精度が優秀です。
OCRサービスを使う目的が「手書き文字を読み取りたい」であれば、読み取り精度の高い有料版のOCRサービスの利用をご検討ください。
【OCR搭載】PDFの変換におすすめのツール・サービス10選

OCR機能を搭載したPDF変換ツールやサービスは数多く存在しています。
しかし、機能や価格などはツールによって違うため、求めている機能が存在するかどうか確認が必要です。
ここでは、OCR機能を搭載したPDFの変換におすすめのツール・サービス10選をご紹介します。
Google Drive

| 提供元 | Google LLC. |
| 価格・プラン | 無料 |
| 使用方法 | オンライン、モバイルアプリ |
| 主な特徴 | PDFや画像ファイル(JPEG・PNG・GIF)をテキストに変換可能 |
Googleが提供しているオンラインストレージサービスである「Google Drive」でも、PDF変換が可能です。
Google Drive上に保管してあるドキュメントやスプレッドシートといったファイルを、数回クリックするだけでOCR処理済みのPDFへと変換できます。
Google Driveには毎月定額の有料プランがありますが、OCR処理を含むPDF変換機能は無料版でも利用可能です。
普段からGoogle関連のサービスを利用している方におすすめできます。
Microsoft OneNote

| 提供元 | Microsoft Corporation |
| 価格・プラン | 無料 |
| 使用方法 | オンライン・モバイルアプリ・デスクトップアプリ |
| 主な特徴 | OneNoteに保管しているページ単位でPDF変換が可能 |
Microsoftが提供しているオンラインノートブック「OneNote」でもPDF変換が利用できます。アプリとしても提供されているため、オフライン環境でも使用可能です。
OneNoteでは「ノート」もしくは「ページ」という単位でメモを保存できますが、このページ単位でPDF変換が可能となっています。
ページの内容に含まれてさえいれば、テキストはもちろん、画像やイラストでもOCR処理を加えたPDFを作成可能です。
OneNoteは、Microsoftアカウントを持っていれば無料で利用できます。
Smallpdf

| 提供元 | Smallpdf AG |
| 価格・プラン | 無料版は制限あり、有料版は月額¥1,013~ |
| 使用方法 | 無料版はオンラインのみ、有料版ではデスクトップアプリも可能 |
| 主な特徴 | PDF変換だけでなく他のツールも無料で利用可能 |
Smallpdfは、2013年にスイスで創業された「Smallpdf」社が提供しているPDFツールです。世界24ヶ国語に対応しており、10億ユーザー以上の利用実績を誇ります。
OCR処理を含むPDF変換ツールはもちろんですが、その他にも圧縮や編集、PDFをWordやExcelといったオフィスファイルへの変換できる上、無料で21種類のツールを利用可能です。
ツール自体は無料で利用できますが、無料プランのままだとオンライン版しか利用できないほか、変換したPDFファイルをダウンロードできる数に制限があるので注意してください。
PDFCandy

| 提供元 | Icecream Apps Ltd |
| 価格・プラン | 無料版は制限あり、有料版は月額6ドル~ |
| 使用方法 | オンライン、Windowsのみアプリあり |
| 主な特徴 | 47種類以上のPDF編集ツールがオンラインで利用可能 |
PDFCandyは、オンラインで利用できるOCR機能を搭載したPDF変換ツールです。
PDF変換だけでなく、PDFからWord・Excel・PowerPointへの変換や、画像(JPEG)への変換、PDFの分割・削除・保護など、PDFに関するツールが47種類以上も公開されており、すべてが無料で利用できます。
オンラインで利用できるツールなので、無料版だと変換待ち時間が発生してしまう点に注意が必要です。有料プランを契約すれば、待ち時間が少なく高速でPDF変換が行えます。
iLovePDF

| 提供元 | ILOVEPDF S.L., |
| 価格・プラン | 無料版は制限あり、有料版は月額525円 |
| 使用方法 | オンライン、有料版ではデスクトップアプリあり |
| 主な特徴 | PDF変換に加え、圧縮・結合・透かしの挿入が可能 |
iLovePDFは、シンプルなインターフェイスで利用できるOCR機能を搭載したPDF変換ツールです。
機能が一目で分かるため、使いたい機能をクリックしてファイルをドラッグアンドドロップするだけですぐに変換できます。ただし、無料版には様々な制限がある点に注意が必要です。
PDFの変換中は広告視聴が必要になったり、無料で利用できるPDFツールに制限があったりし、PDFからOCR処理済みのWord・Excelの変換も無料プランでは行えません。これらの機能が必須なのであれば、有料プランを検討しましょう。
Renee PDF Aid

| 提供元 | Rene.E Laboratory |
| 価格・プラン | 2,980円(1年ライセンス) 4,980円(永続ライセンス) |
| 使用方法 | ダウンロードソフト(Windowsのみ) |
| 主な特徴 | PDFの修復・分割・結合・透かしの追加・ 画像をPDFへ変換などが可能 |
Renee PDF Aidは、Windowsで使用できるPDF変換ソフトです。
1年ライセンス、もしくは永続ライセンスを購入するとダウンロードできます。オフラインで利用できるため、インターネット環境が無い場所でもPDF変換が可能です。日本語以外に英語・フランス語・ドイツ語など、多言語変換にも対応しています。
ただし、無料版やトライアル版はありません。
LightPDF

| 提供元 | Wangxu Technology Co.,Ltd. |
| 価格・プラン | 無料版は制限あり、有料版は月額1,980円 |
| 使用方法 | オンライン、モバイル、デスクトップアプリ |
| 主な特徴 | PDF変換ツールでありながらAI機能を搭載 |
LightPDFは、OCR処理を搭載したPDF変換だけでなく、AIによる要約・分析機能も搭載したツールです。
PDFファイルをアップロードするだけで文書の内容をAIが解析し、メモと要約を作成してくれます。
AI機能は無料版でも利用できますが、1日にアップロードできるファイル数やサイズが限定される、AIへ質問できる回数も5回までといった制限があるので注意してください。
PDFelement

| 提供元 | Wondershare Technology Group Co., Ltd. |
| 価格・プラン | 無料版あり 標準版(永続ライセンス):5,980円 プロ版(永続ライセンス):9,980円 |
| 使用方法 | デスクトップアプリ |
| 主な特徴 | 様々なOSに対応しているPDF変換デスクトップアプリ |
Wondershare社が提供しているPDFelementは、様々なOSに対応しているPDF変換デスクトップアプリです。
ワードを使うような感覚でPDFを編集でき、PDFとWord・Excel・PNG・JPGなどの相互変換が可能となっています。スキャンしたPDFや画像からテキストを認識できるOCR機能も高精度です。
無料版もありますが「透かしが入る」「AI機能は利用できない」「OCR機能が使えない」など、機能の制限が多いため、基本的には有料版の購入がいいでしょう。
SmartRead

| 提供元 | 株式会社 Cogent Labs |
| 価格・プラン | 無料トライアルあり スモールプラン:年間36万円(月額3万円相当) スタンダードプラン:年間96万円(月額8万円相当) エンタープライズプラン:年間240万円(月額20万円相当) |
| 使用方法 | クラウドサービス |
| 主な特徴 | ドキュメント処理を自動化するAIを搭載したOCR |
SmartReadは、株式会社Cogent Labsが提供している高精度の「AI OCR」を搭載した文書変換サービスです。クラウドサービスでの利用がメインとなっています。
AI機能を搭載したOCRサービスであり、様々なタイプの書類を自動認識・自動仕分けが可能です。
複数種類の文書をまとめてアップロードしても、AI機能が自動判別して仕分けを行うため、人の手によって事前に文書を分類ごとに整理しておく必要がありません。
基本的には法人利用が想定されたサービスであり、毎月大量の文書を高精度OCRでデータ化する必要がある場合などにおすすめです。
Adobe Acrobat

| 提供元 | Adobe Inc. |
| 価格・プラン | 7日間の無料トライアルあり Acrobat Standard:月額1,518円 Acrobat Pro:月額1,980円 |
| 使用方法 | オンライン、モバイル、デスクトップアプリ |
| 主な特徴 | OCR機能だけでなくPDFを取り扱うときに必要な機能を網羅 |
世界中で電子文書の標準規格として使用されている「PDF」を開発したのがAdobe Systems社であり、その同社が提供しているPDFツールが「Adobe Acrobat」です。
スキャンした文書からOCR処理によってテキスト抽出できるようにするのはもちろん、PDFの結合・分割・編集・署名など、PDFに関するあらゆる機能が詰め込まれたツールとなっています。
PDFを開発した企業だからこそ提供できる独自機能が多数あるため、PDFに関する最新技術に触れたい方におすすめのツールです。
PDFの変換に最適なOCRツールを選ぶポイント

PDFの変換に最適なOCRツールを選ぶときは「テキストの認識精度は十分か」や「一度に処理できるデータ量」など、どの点に注目すればいいのかをご紹介します。
テキストの認識精度は十分か
PDFの変換に最適なOCRツールを選ぶ際、もっとも重要だと言えるポイントが「テキストの認識精度」です。
PDF内に含まれる文字をテキスト化し、再利用できるようにするのがOCRツールの目的ですが、抽出したテキストに誤字があったり、所々抜けたりしていては意味がありません。
OCRツールは、正確にテキスト抽出できてこそのツールと言ってもいいでしょう。
しかし、OCRツールのテキスト認識精度はツールによって大きく差が生まれるポイントでもあります。
使いたいツールの認識精度を確かめるためには、無料トライアルを利用してみるか、まずは短期間だけでも使ってみて認識精度がどのレベルまであるか実際に見てみるのがおすすめです。
一度に処理できるデータ量はどれくらいか
PDFの変換を行いたい文書が大量にあった場合、1枚ずつスキャンをしていては時間がいくらあっても足りません。
そのため、OCRツールを選ぶ際は「一度に処理できるデータ量がどれくらいか」といった点にも注目するようにしてください。
特に有料プランを提供しているOCRツールでは、1ヶ月間で変換を行った枚数によって金額が変わってくるものもあるため、処理できるデータ量については事前に確認するようにしましょう。
読み取り場所の指定ができるか
PDFの変換ができるOCRツールの中には、読み取り場所の指定ができるツールも存在します。
無料版の場合はPDF全体を読み取るしかないツールが大半ですが、有料版の場合、文書の中で一部分のみOCR化する機能を持つツールが一般的です。
大量にページがある文書だと、読み取り場所を指定すれば変換スピードが上昇するため、文書の中で一部分だけしかテキスト抽出が必要ないのであれば、これらの機能を持つツールを選ぶようにしましょう。
すぐに使える状態になるか
PDFの変換ができるOCRツールを選ぶ際は、どういった形式でテキスト抽出を行うのかについても事前に確認しておきましょう。
特に無料版のツールだと、OCR処理を行ったとしても出力されるのがただのテキストデータの羅列といったパターンが多くあります。
この状態だとテキストデータを活用するために成形する手間が発生してしまうため、OCRツールを使った意味がありません。
有料版のツールであれば、テキストデータの羅列だけでなく、CSVやExcelなど加工しやすいファイルでの出力にも対応しているため、加工まで行うのならテキストデータの抽出方法も確認しておくのがおすすめです。
セキュリティー性はあるか
PDFを変換できるOCRツールをオンラインで利用する場合、手持ちの文書ファイルをWebサイト上へアップロードする必要があります。
いわばビジネスに関する情報をアップロードするので、セキュリティー性の高いサービスを選ぶようにしましょう。
セキュリティー対策について特に言及していないサービスを利用すると、そのサイトがサイバー攻撃を受けた場合、自社の文書(=情報)が漏洩してしまうリスクがあるからです。
この場合、攻撃を受けたサービスはもちろんですが、文書が漏洩してしまった企業側の社会的信用も低下してしまいます。
オンラインツールを使う場合は、セキュリティー性が高いツールを選ぶようにしてください。
PDFファイルをOCRで変換する際のコツ

PDFファイルをよりOCRで変換する際は、ちょっとしたコツを守るだけでより正確な変換ができるようになります。
ここでは、そのコツをいくつかご紹介しますのでぜひ試してみてください。
画質をできるだけ上げる
読み込む書類をキレイな状態、つまりできるだけ解像度や画質を上げてPDF化すると、OCR処理が上手くいきやすくなります。
OCR処理は文書上にある文字を読み込んでテキストデータとして抽出しますが、その文字自体が読み込めないと正確に抽出できません。
OCR処理がスムーズになるように、スキャンする書類はほんのわずかでも解像度や画質を上げるのがおすすめです。
白黒で丁寧にスキャンする
テキストデータを抽出するのだけが目的ならば、カラーの文書は白黒(モノクロ)にしてからスキャンすると、読み取り精度がより向上します。
スキャンする際、文書にたくさんの色がついているとOCR処理の誤認識につながってしまい、抽出されたテキストデータの品質が悪化するからです。
また、いざスキャンを行うときには、用紙がずれたり傾いたりしていないかもチェックするようにしてください。
これらの点に注意しておけば、より精度の高いOCR処理が期待できるでしょう。
まとめ:PDFの変換にOCRツールを使ってテキスト抽出を効率的に

この記事では、PDFをOCRで変換する方法、そしてテキスト抽出が行えるおすすめツールをご紹介しました。
紙媒体しかなかった資料をPDF化し、OCR処理を施してテキストデータを活用できれば、貴社にとっても重要な資産となるはずです。
OCR処理ができるツールは、オンラインやデスクトップアプリ、そして無料版・有料版と様々な選択肢がありますので、自社に合ったツール選びが重要となります。
PDFの変換やOCR処理の方法やテキストデータの活用事例など、どんな質問や相談でも構いません。
貴社が抱えている課題について、ぜひ一度弊社【株式会社Jitera】へご相談ください。


