RenderFormerとは？MicrosoftのTransformerベースニューラルレンダリングがCGの常識を変える理由

RenderFormerとは？Transformerでレンダリングを再発明

RenderFormerは、Microsoftが開発したTransformerベースのニューラルレンダリングパイプラインです。SIGGRAPH 2025で発表された論文で、三角メッシュのシーンをグローバルイルミネーション込みで直接レンダリングできるという、かなり野心的なアプローチを提案しています。

従来の3Dレンダリングは、レイトレーシングやラスタライゼーションといった物理ベースの手法が主流でした。光の反射や屈折を物理法則に従って計算するわけですが、リアルな映像を出すにはかなりの計算コストがかかります。

RenderFormerの発想はまったく違っていて、レンダリングを「系列変換問題」として捉えています。三角メッシュのトークン列を入力として、ピクセルパッチのトークン列を出力する。つまり、ニューラルネットワークに「この形状と材質から、この角度で見たらどう見えるか」を学習させているわけです。

RenderFormerは2つのステージで構成されています。それぞれ異なる役割を担っていて、両方ともTransformerアーキテクチャがベースになっています。

最初のステージでは、シーン内の三角形同士の光のやり取りをモデル化します。ある三角形から放射された光が別の三角形に反射して…という間接照明の連鎖を、Transformerの自己注意機構で捉えるイメージです。

このステージはカメラの位置に依存しないため、一度計算すれば同じシーンを異なる視点からレンダリングする際に再利用できる可能性がありそうです。

第2ステージでは、カメラからの光線バンドルを表すトークンを、第1ステージの出力を参照しながら実際のピクセル値に変換します。鏡面反射や光沢のある表面など、視点によって見え方が変わる効果をここで処理しています。

注目すべきは、どちらのステージも「最小限の事前制約」で学習されている点です。物理法則をハードコードするのではなく、データから光の振る舞いを学習させています。

既存のニューラルレンダリング手法、例えばNeRF（Neural Radiance Fields）やガウシアンスプラッティングは、シーンごとに最適化が必要でした。新しいシーンをレンダリングするたびに学習し直す必要があるのが大きな制約です。

RenderFormerは「シーンごとの学習が不要」という点が画期的です。一度訓練されたモデルが、見たことのないシーンでもそのままレンダリングできます。これは実用面で非常に大きなメリットだと感じました。

NVIDIA Blackwell GPUのような最新ハードウェアと組み合わせれば、将来的にはリアルタイムレンダリングへの応用も期待できるかもしれません。

MicrosoftはHuggingFace上でモデルを公開しています。Swin Transformerのラージモデルをベースにしたv1.1が利用可能で、GitHubリポジトリにはセットアップ手順やデモコードも含まれています。

論文で示されている結果を見ると、複雑な鏡面反射、ソフトシャドウ、間接照明、複数光源のシーンなど、従来は物理ベースレンダラーでないと難しかった表現がかなりの精度で再現されていました。

RenderFormerのような研究が出てくる背景には、AI技術の急速な発展があります。Transformerアーキテクチャは自然言語処理で革命を起こしましたが、コンピュータグラフィックスの分野にも確実に浸透してきています。

ゲーム開発やVFX制作の現場では、レンダリング時間の短縮が常に求められています。物理ベースの正確さを保ちながら計算コストを下げる手段として、ニューラルレンダリングは非常に有望な方向性です。

論文（arXiv）では技術的な詳細が公開されているので、3Dグラフィックスや機械学習に興味がある方はチェックしてみると良いかもしれません。

RenderFormerは、3Dレンダリングをseq2seqのTransformer問題として再定義した、MicrosoftのSIGGRAPH 2025論文です。シーンごとの学習が不要で、グローバルイルミネーションを含む高品質なレンダリングを実現しています。

まだ研究段階ではありますが、AI技術がクリエイティブツールの根本を変えつつある現状を象徴するプロジェクトだと思います。今後の発展が楽しみですね。