40行のコードで教科書を丸ごとテキスト化できます。しかもコストはわずか2ドル程度です。DeepSeekとModalを使えば実現可能です。この記事ではサーバーレスOCRの構築方法を紹介します。
使用する技術スタック
DeepSeekのオープンOCRモデルを使います。特に数式の認識精度が優秀です。また、Modalはサーバーレス計算基盤です。つまりGPUインスタンスの管理が不要になります。さらにPythonだけで完結する設計です。そのため環境構築の手間がほとんどありません。
40行のコードで実現する仕組み
まずModalのデコレータでGPU関数を定義します。具体的にはA10GやT4のGPUを指定できます。また、DeepSeekモデルをコンテナイメージに含めます。さらにPDF入力を受け取りページごとに処理します。しかし40行とはいえ各行に重要な役割があります。つまり無駄のない効率的な設計です。
コストと処理速度の実績
300ページの教科書で約2ドルのコストです。実際にGPU利用時間の従量課金だけで済みます。また、処理速度は1ページあたり数秒程度です。さらにModalのコールドスタートは約10秒です。そのため初回起動後は快適に動作します。特にクラウドOCRサービスより圧倒的に安価です。
数式認識が強みのDeepSeekモデル
教科書には数式が多く含まれます。しかし従来のOCRでは数式認識が苦手でした。たとえばLaTeX形式への変換精度が低かったのです。一方でDeepSeekのモデルは数式に特化した学習がされています。さらにMarkdown形式での出力にも対応しています。このようにたった40行で高精度なOCRが実現できます。
