Connect with us

デジタル未来 (Dejitaru Mirai)

MistralがPDF文書をAI準備済みMarkdownファイルに変換する新APIを発表

記事

MistralがPDF文書をAI準備済みMarkdownファイルに変換する新APIを発表

フランスの大規模言語モデル開発企業Mistralが、複雑なPDF文書を扱う開発者向けに新しいAPI「Mistral OCR」を発表しました。これは、光学文字認識(OCR)を利用してPDFをテキストファイルに変換し、AIモデルが情報を容易に取り込めるようにするものです。LLM(大規模言語モデル)が支え

フランスの大規模言語モデル開発企業Mistralが、複雑なPDF文書を扱う開発者向けに新しいAPI「Mistral OCR」を発表しました。これは、光学文字認識(OCR)を利用してPDFをテキストファイルに変換し、AIモデルが情報を容易に取り込めるようにするものです。LLM(大規模言語モデル)が支える人気の生成AIツールであるOpenAIのChatGPTなどは、基本的に生のテキストを用いて動作します。そのため、AIワークフローを構築したい企業にとって、データをクリーンな形式で保存・インデックス化することが極めて重要です。Mistral OCRは、多くのOCR APIとは異なり、多様な形式を認識できるため、テキストと画像が交じり合った文書でも、グラフィカルな要素を適切に出力します。出力形式はMarkdownで、開発者がリンクや見出しなどをテキストファイルに簡単に追加できるものです。Markdownは、多くのLLMのトレーニングデータセットで重要な役割を果たしており、AIアシスタントアプリがリッチテキスト出力に整形する際に広く使用されています。Mistralの共同設立者であるギヨーム・ランプルは、「企業はこれまで、PDFやスライド形式の数多くの文書を抱えており、LLM、特にRAGシステムにアクセスできない状態でした。Mistral OCRを使用することで、顧客は豊かで複雑な文書を、全ての言語で可読なコンテンツへと変換できます」とのことです。また、Mistral OCRは、AWS、Azure、Google Cloud Vertexなどのクラウドパートナーや、MistralのAPIプラットフォーム上で利用可能です。機密データを扱う企業向けにはオンプレミス展開も提供しています。パリに本社を置くこのAI企業によれば、Mistral OCRはGoogle、Microsoft、OpenAIのAPIと比較して性能が優れているとされています。高度なレイアウトや数学的表現を含む複雑な文書でもテストを行い、英語以外のドキュメントについても高いパフォーマンスを発揮します。Mistral OCRは、特定の機能に特化しているため、迅速な処理が期待できます。競合するGPT-4oモデルとは異なり、MistralはOCR機能専用に設計されているため、開発者向けの利便性も高いです。企業向けには、法務文書を扱う法律事務所など、多くのユースケースが考えられています。RAGは、生成AIモデルとコンテキストとして使用されるデータを取得するための技術であり、Mistral OCRは将来的な文書処理の効率化を見込んでいるのです。

MistralがPDF文書をAI準備済みMarkdownファイルに変換する新APIを発表

Click to comment

Leave a Reply

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

More in 記事

To Top