3Dレンダリングにも深層学習が使われる時代が来ました。RenderFormerはTransformerベースの3Dレンダリング技術です。Microsoft Researchが開発し、SIGGRAPH 2025で発表されました。つまり、従来のレイトレーシングをニューラルネットワークで置き換える試みなのです。
RenderFormerの2段階パイプラインの仕組み
RenderFormerは2段階のTransformerパイプラインで動作します。まず第1段階はビュー非依存ステージです。具体的には、三角形メッシュ間の光輸送をモデル化します。また、シャドウや拡散光の計算もこの段階で行います。そのため、カメラ位置に依存しない処理を先に済ませます。
第2段階はビュー依存ステージです。ここではレイバンドルからピクセル値を生成します。特に、反射やスペキュラハイライトの表現を担当します。さらに、視認性の判定もこの段階で処理されます。このように、2段階に分けることで効率的な処理を実現しています。
RenderFormerが従来技術と異なる点
最大の革新は物理ベースの計算が不要な点です。従来のレイトレーシングでは光線を追跡する必要がありました。しかし、RenderFormerはデータから直接学習します。したがって、手作りのルールやシェーダーが必要ありません。
なお、ベースモデルは2億500万パラメータで構成されています。実際、Objaverseの80万以上の3Dオブジェクトで訓練されました。また、多様な材質や照明条件に対応しています。とはいえ、現時点では従来手法の精度に完全には追いついていません。それでも、エンドツーエンド最適化の可能性を示した点で画期的です。
RenderFormerの応用分野と今後の展望
RenderFormerの応用範囲は広いです。たとえば、ビデオ生成や画像合成に活用できます。さらに、ロボティクスや体現化AIへの応用も期待されています。加えて、連続ビデオフレームの生成も可能です。
一方、課題もあります。処理速度や解像度の面ではまだ改善が必要です。しかし、Transformerの進化に伴って性能向上が見込まれます。だからこそ、3Dグラフィックスの未来を変える可能性を持つ技術なのです。むしろ、数年後にはレイトレーシングの代替として普及するかもしれません。
