サクセスネット(特定非営利活動法人サイエンス・アクセシビリティ・ネット)

数式認識ソフトウェア InftyReaderのロゴ画像 InftyReader

ナビゲーションバーを読み飛ばす


sAccess Netのトップページへ

InftyProjectのトップページへ


■InftyReaderとは

主な特徴

・数式を含む文書用の認識ソフト
・数式を含む文書のPDFやスキャン画像を OCR を用いて
LaTeXWord文書MathMLなど多様なデータ形式に変換できます。
クリップボードにコピーした画像を認識して直接Wordの文書に貼り付け可能new
・1行中に英文と日本語が混在している文章の認識にも有効!
・西欧の言語に対応したFineReaderを用いるオプションもあります
・業務用・開発用に用いることが出来るエンタープライズ版もあります

InftyReaderは、九州大学大学院数理学研究院鈴木昌和研究室を中心に多くの人の協力により開発された、数式を含む文書認識ソフトです。
InftyReader は数式、文字、画像が混在する文書をスキャンした画像を認識します。
テキスト領域の文字認識には株式会社東芝製の認識エンジンと株式会社メディアドライブ製の認識エンジンを併用し、高精度の認識を実現しています。数式部の認識は InftyProject で開発した認識エンジンを用いています。

日英混在文の認識にも威力を発揮します。 1行中に日本語と英語(欧文)の部分が混在していても高精度な認識結果が得られます。

数式を含むPDF文書をアクセシブルな形式に変換する目的にも使うことが出来ます。

InftyReader で認識した結果は直接 LaTeX 形式やXHTML(数式部はMathML)形式で出力することも出来ますし、数学用文書エディタ InftyEditor で原画像と照合しながら修正・編集した後に LaTeX, XHTML(MathML), PDF, Word 文書などの形式に変換することもできます。
また、InftyEditor の起動画面から InftyReader の機能を呼び出して、スキャニングや画像の認識、認識結果を読み込み、修正・編集を行うこともできます。InftyEditor については こちら をご覧下さい。

■ダウンロード

InftyReader Ver.3.1.3.2 (2017年2月20日)

Ver.3.1 ではPDFの認識率が飛躍的に向上しています。--- 詳しくはこちら new
Ver.3.0 シリーズのユーザーはそのままVer.3.1シリーズの利用が可能です。
Windows 10 でご利用の方は、必ず Ver.3.1.3.0 以後のバージョンをご利用下さい。

科学技術文書用OCRソフトウェア InftyReader の最新版を下記よりダウンロードすることができます。PDFを 認識に適した画像に変換する機能や直接認識する機能も含まれています。

InftyReader3 日本語版 InftyReaderJ3132.zip (約85MB) -------- 2017/2/20 new
What's new?
AboutInftyReaderJ.txt ---- InftyReaderに関する概要説明ファイル

MS Word 用のデータ形式での出力が可能になりました。
西欧の言語のテキスト認識にABBY社の多言語対応高性能OCR FineReader のエンジンを使うことが出来るようになりました。
センタリングの出力のON/OFF、ページヘッダ出力のON/OFF等をユーザー設定出来るようになりました。(パッケージ内のReadme.txtを参照)

[1年版について] 
今回のバージョンからは、1年ライセンスも正規ライセンスとソフトウェアが共通になりましたので、「1年版」のパッケージはありません。

注意
2013年に旧版(Ver.2.9シリーズ以前)の正規版又は1年版の InftyReaderをご購入頂いた方はそのまま Ver.3 の InftyReader をご利用頂けます。
2012年以前にご購入頂いた方が InftyReader Ver.3 をご利用される場合は新たに ver.3 用のシリアル番号をご購入頂く必要があります。

バージョンアップについて 2010年~2012年の間に正規版をご購入頂いたユーザーの方には割引価格でバージョン3用の新しいシリアル番号をご購入頂けます。ご希望の方は割引価格表をご覧の上、注文表に記入してメール添付してサイエンス・アクセシビリティ・ネットのオフィス宛てにお送り下さい。送り先:office"at"mail.sciaccess.net ("at"を@で置き換えて下さい。)

旧版(Ver.2.9シリーズ)の正規ユーザーの方で、ライセンスキーを再発行する必要が生じた方は、次のバージョンをインストールしてから再発行を実行して下さい:

Ver.2.9シリーズ最終版:InftyReaderJ2972.zip (約50MB) -------- 2013/11/22

InftyReader には英語版もあります。(→ http://www.sciaccess.net/en/InftyReader/)

試用について

InftyReader を試用モード(Trial Mode)で起動するためには、起動画面で「試用またはキャンセル」ボタンを押して下さい。InftyReader が Trial Mode で起動します。
Trial Mode では認識できるパージ数は1日最大5ページに制限されますので、ご注意下さい。

ライセンスキーの価格と購入方法については こちら をご覧下さい。
シリアル番号やライセンスキーの取得方法も購入方法の説明の所にあります。


FineReader plug-in について

下記のFineReader plug-in のライセンスは現在、品切れ中です

バージョン3のInftyReaderでは、西欧の言語のテキスト認識にABBY社の多言語対応高性能OCR FineReader のエンジンを使うことが出来るようになりました。FineReader のエンジンを InftyReader で使うためには、

1. 次の FineReader plug-in の申込書に従い、ライセンス(シリアルナンバー)を購入して下さい: FineReader plug-in の申込書

2.FineReader 用 OCR Dictionary set : FineReaderDic-for-Infty.zip(約94MB) をダウンロードし、パッケージ内に含まれている HowToInstall.txt の説明に従って、FRDic を InftyReader のbinフォルダにコピーして下さい。

FineReader plug-in によりサポートされている認識言語は、英語、フランス語、ドイツ語、イタリア語、スペイン語、チェコ語、スロバキア語、トルコ語、ハンガリー語、ルーマニア語、ポーランド補、オランダ語、スエーデン語、ロシア語です。日本語の認識には FineReader は使われません。FineReader plug-in の価格は1ライセンス当たり、3万円(税別)です。購入方法は上記の FineReader plug-in の申込書 をご覧下さい。

上記のライセンスは個人使用の場合に適用されます。(但し、少人数の共用パソコンでの運用も可能な場合があります。詳しくは下記のライセンスの項をお読み下さい。)


エンタープライズ版
: 業務用のパッケージや開発者用のSDKについてはライセンス形態が異なります。詳しくはこちらをご覧下さい。

■注意事項

InftyReader は鮮明に印刷されたページ画像の白黒2値による600DPI(又は400DPI)によるスキャン画像を認識対象とします。(*)

スキャニングした画像は TIFF か GIF または PNG の形式で保存する必要があります。また、PDF ファイルを読み取り、InftyEditor のデータ形式や LaTeX や MathMLなど、編集可能な形式に変換することも出来ます。

InftyReader のいくつかの特徴をあげると

  1. InftyReader Ver.2.6 の高精度モード認識では、テキスト部の認識に株式会社東芝製のOCRエンジンと株式会社メディアドライブ製のOCRエンジンを互いに他の誤認識を補正しあう形で併用しているため、現時点で考えられる最高水準の高精度の認識を実現していると考えています。また、数式認識には十万ページに及ぶ専門数学論文誌の電子化で鍛えられた Infty の認識エンジンを用いています。
  2. 数式を含む表や、セルの分割や結合をもつ複雑な表の構造も認識します。
    但し、罫線がかすれていたり、文字と接触している場合には現時点では表の解析成功率は余り高くありません。
    今後のバージョンアップの重要課題です。当面は、表の罫線がかすれたり縦横の線が離れたりしている場合は、
    予め画像を補整してから認識してください。
  3. PDF文書の認識が出来ます。Ver.3.0.9.1 のInftyReader は前処理でxpdfを用いてPDFをPNG形式の600DPIのGray画像に変換してから認識処理を実行します。日本語対応のxpdfを用いていますので、従来のようにGhaustscriptを必要としません。

    注意 WEB 上にある PDF はしばしば、ファイルサイズを小さくするために 200DPI 程度でスキャン画像を用いている場合や、Distiller 等でスクリーンモードでPDF化したものなどが見受けられます。InftyReader は600DPI の画像(カラーやグレイの場合は400DPI)を標準入力としていますので、そのようなPDFの場合は認識結果が殆ど使い物にならないくらい低水準になってしまいますのでご注意下さい。

InftyReader は前処理で或る程度のノイズ除去を実行し、ページ画像を図領域、表領域、テキスト領域(数式を含む)に自動的に分割します。 その上でテキスト領域を認識し、数式は構造解析を行います。そして、表の中はセル毎に認識します。
但し,ノイズが多い場合や,図と文字領域が近い場合などには領域切り分けに失敗する場合もあります.そういう場合は事前に手作業等で画像を補整してから認識にかけるようにしてください.

InftyEditor のバージョンが 2.5.0 以後のものであれば、認識した表の編集も出来ます。

(*) 注意 認識対象とするスキャン画像の品質の目安として、スキャンした画像中の接触文字や切れ文字などの数が、1頁中の総 文字数の1%以内になるようにスキャナの2値化レベルを調節して下さい。 印刷と紙の質に問題がなければ、通常はこの水準のスキャン画像が得られると思います。(勿論、それでも誤認識は発生します。)

■使い方の例

  1. InftyReader を起動した画面で、画像ファイル又はフォルダを選びます。
  2.出力ファイルのタイプ (IML, LaTeX, XHTML など)を選択し、入力画像の言語等などの設定を選んでチェックをいれます。
  3. 出力ファイル名を入力します。
  4. 認識開始ボタンを押します。

すると、ファイルを選んだ場合はそのファイルの認識結果が、フォルダを選んだ 場合はそのフォルダ内の全ての画像ファイルの認識結果が指定した出力ファイル名 のファイルにまとめて書き込まれます。
フォルダを選んだ場合で、「オプション」で「選択したフォルダ以下のサブフォルダ も認識対象にする」にチェックを入れた場合、各サブフォルダ内の画像の認識結果が サブフォルダ名に tex, iml, xhtml の拡張子を付けたファイルに出力されます。
例えば、下記のようなフォルダ構造をもつフォルダ "folodertop" を入力画像フォルダ名として選んだ場合、

foldertop
    |-- subfolder1
    |       |-- a.tif
    |       |-- b.tif
    |
    |-- subfolder2
            |-- c.tif
            |-- d.tif

出力ファイルのタイプが "IML" であれば "subfolder1.iml" と "subfolder2.iml" が "foldertop" フォルダ内にできます。そして、画像ファイル a.tif と b.tif の認識結果が subfolder1.iml に、c.tif と d.tif の認識結果がsubfolder2.iml に書き込まれます。

【InftyEditorを使っての操作】

InftyEditor から直接 InftyReader を呼び出して認識を実行することもかのうです.(Ver.2.04x 以後の InftyEditor をインストールしていただく必要があります。) こちらの操作方法については、InftyEditor専用ページを参考にして下さい。
  →InftyEditor 使用方法のページへ

■ライセンス

この InftyReader は製品版です。利用するためにはライセンスキーを購入する必要があります。ライセンスキーを購入方法については購入サイトをご覧下さい。

起動画面で「試用またはキャンセル」ボタンを押すことにより Trial mode で起動することが出来ます。Trial mode では認識できるページ数に制限があります。

ユーザーはTrial Mode で本ソフトウェアを利用し、動作を十分確認した上で本ソフトウェアの購入手続きを行ってください。如何なる理由があっても、一旦受け取ったライセンスキーの返品は受け付けられませんのでご注意下さい。

InftyReader のライセンスは1つのライセンスで同じユーザーが2台のパソコンまで登録して利用することが出来ます。但し、このライセンスは個人の利用目的のために使用する場合を対象とします。所属機関等によって特定個人の利用の為 に購入された場合もそれに含めます。会社・団体等の組織がネットワークを利用して多数の利用者のため にサービスする場合や、業務上大量のデータを電子化する場合は、下記の連絡先 (特定非営利活動法人サイエンス・アクセシビリティ・ネット)にご相談下さい。 少人数のグループで共同利用するパソコン上で使う場合や、小さな福祉団体等が少人数の利用者の ためにサービスする場合などは、原則として個人利用と同等と見なします。

本ソフトウェアに含まれている、株式会社東芝製のライブラリーや、株式会社 メディアドライブ製のライブラリーを本ソフトウェアと切り離して利用したり 配布したりすることを禁止します。

本ソフトウエアまたはその生成物を上記著作権者の許可なく複製して販売する ことを禁止します。また、上記著作権者の許可なく本ソフトウエアーを改変して 配布することを禁じます。無償での複製の配布は圧縮された元のパッケージの形 で行う場合に限り許可します。本ソフトウェアのリバースエンジニアリング、 逆コンパイル、あるいは逆アセンブルも禁止します。

InftyEditorの著作権はInftyProject, Science Accessibility Net及び株式会社 CAIシステムが保持しています。

株式会社東芝、株式会社メディアドライブ及び上記著作権者は、本ソフトウエア の誤りの修正、その他いかなる保守についても義務を負わず、また、本ソフト ウエアの使用、複製ならびに頒布により生じた損害または第三者からの請求に ついては、法律上の根拠を問わず一切責任を負いません。

■問い合わせ先:

・本プログラムの技術的な内容に関するお問い合わせは下記までお願いします。
  e-mail:support"at"mail.sciaccess.net ("at"を@で置き換えて下さい。)

・その他の内容に関するお問い合わせは下記までお願いします。
  e-mail:office"at"mail.sciaccess.net ("at"を@で置き換えて下さい。)

特定非営利活動法人
サイエンス・アクセシビリティ・ネット(登録略称:サクセスネット)
URL: http://www.sciaccess.net/
-----------------------------------------------------------------------

サクセスネット(NPO法人サイエンス・アクセシビリティ・ネット)のサイトへ


▲TOP