GLM-OCRの概要

OCR(光学文字認識)技術は長い歴史を持つが、複雑なレイアウトの文書や手書き文字への対応は依然として課題だった。そこに登場したのが、中国のAI企業Zhipu AI(智譜AI)が開発したGLM-OCRである。わずか0.9Bパラメータという軽量モデルでありながら、OmniDocBench V1.5で94.62点を記録し、文書解析のベンチマークで最高性能を達成した。

たとえば、表やグラフが混在するPDFレポート、縦書きと横書きが共存する文書など、従来のOCRが苦手としていた場面でも高い精度を発揮する。この「小さくて高精度」というコンセプトが、GLM-OCRの最大の特徴だ。

GLM-Vエンコーダ・デコーダアーキテクチャ

GLM-OCRの基盤となるのが、GLM-Vアーキテクチャと呼ばれるエンコーダ・デコーダ構造である。画像入力をビジョンエンコーダで処理し、テキストデコーダが文字列を生成する仕組みだ。

一方で、単純な画像→テキスト変換ではなく、文書の構造情報も同時に理解する点が従来モデルとの違いになる。段落の区切り、表のセル構造、数式の配置関係などを把握したうえでテキストを出力するため、レイアウト情報が保持される。さらに、マルチモーダルな入力処理により、画像中の図表とテキストの関係性も正確に捉えることが可能だ。

Multi-Token Prediction(MTP)Loss

GLM-OCRが採用するMulti-Token Prediction Lossは、訓練効率を大幅に改善する手法として注目されている。従来のOCRモデルは1トークンずつ順番に予測するのが一般的だった。しかし、MTP Lossでは複数トークンを同時に予測する学習を行う。

つまり、1回の推論ステップで複数の文字を並列に予測することで、学習の収束が速まり、認識精度も向上する。実際のベンチマークでは、MTP Lossの導入により訓練時間の短縮と認識率の改善を両立している。OCR特有の長い文字列処理との相性が良く、帳票や契約書といった長文書の解析に効果を発揮する。

強化学習による訓練手法

もうひとつの技術的特徴が、安定的なフルタスク強化学習の導入だ。従来の教師あり学習だけでは、モデルが特定のデータセットに過剰適合してしまう問題があった。GLM-OCRでは強化学習を組み合わせることで、未知の文書パターンへの汎化性能を高めている。

たとえば、訓練データに含まれないフォントや言語の文書に対しても、安定した認識精度を維持できる。この汎化能力こそ、実務利用において重要なポイントである。

競合OCRモデルとの比較

OCR分野にはGoogleのDocument AI、MicrosoftのAzure AI Document Intelligence、オープンソースのPaddleOCRなど有力なモデルが存在する。一方で、GLM-OCRは0.9Bパラメータという圧倒的な軽量さが差別化要因になっている。

大規模モデルに依存するクラウドAPIと異なり、GLM系列のモデルはローカル環境での実行も視野に入る。エッジデバイスでの文書処理や、機密文書をクラウドに送れない業務シーンでの活用が期待される。さらに、Hugging FaceGitHubで公開されており、誰でも試せる点も大きい。

複雑な文書理解への対応

実用面で特筆すべきは、複雑な文書レイアウトへの対応力だ。表・グラフ・数式・多言語テキストが混在するような技術文書や学術論文でも、構造を崩さずにテキスト化できる。

さらに、RAG(Retrieval-Augmented Generation)パイプラインの前処理としても有用で、PDF文書をOCRで構造化テキストに変換し、そのままベクトルDBに格納するワークフローが構築しやすい。AI技術のトレンドとして、こうした軽量かつ高精度なモデルへの需要は今後も高まるだろう。

まとめ

GLM-OCRは、軽量・高精度・オープンソースという三拍子が揃ったOCRモデルだ。MTP LossやRL訓練といった先端技術を活用しつつ、実務で使いやすいサイズに仕上げている点が評価に値する。文書のデジタル化やAIパイプラインの前処理ツールとして、今後の採用が広がりそうだ。