다수 카메라를 활용한 3차원 복원 기술의 현 주소와 디지털 트윈
작성자 : 백승렬 울산과학기술원 인공지능대학원 교수 2024.10.31 게시서론
제조, 물류, 건설, 도로 등 산업 현장을 복원하고, 복원된 공간에서의 시뮬레이션을 통해 더 효율적인 제조 공정, 물류 프로세스 등을 찾는 기술을 디지털 트윈(Digital Twin)이라 한다. 디지털 트윈이 정교해질수록, 시뮬레이션과의 괴리가 줄어들어 더 정확하고 신속한 의사결정이 가능할 것으로 예상된다. 본 고에서는 디지털 트윈에 활용될 수 있는 다시점 영상들로부터 3차원 복원(3d reconstruction)을 수행하는 기술에 대해 살펴보고 해당 기술의 현 수준과 향후 연구 방향에 대해 고찰해보고자 한다.
NeRF (Neural Radiance Field) 기술
NeRF (Neural Radiance Field) (논문 [1] 참조)는 ECCV 2020 학회에 논문으로 출판되었으며 미국의 UC 버클리 대학교, Google Research 및 UCSD 대학교 연구원들에 의해 제안되었다. 이 논문은 그림 1에서와 같이 하나의 전경(scene)에 대한 여러 카메라 시점(viewpoint)에 대한 영상들과 그것의 카메라 시점에 대한 정보가 주어졌을 때, 3차원 공간상의 포인트 클라우드(point cloud)와 컬러 정보를 복원해내는 딥러닝 기술의 일종인 다중 레이어 퍼셉트론(MLP)을 학습하는 기술이다. 다중 레이어 퍼셉트론의 출력물인 3차원 공간의 포인트 클라우드와 각 포인트 위치에서의 컬러 정보를 특정 카메라 시점(viewpoint)으로 렌더링을 수행하고 이렇게 렌더링된 영상이 원래 주어졌던 다중 시점의 입력 영상과 같아지도록 다중 레이어 퍼셉트론의 매개변수(parameter)를 학습해 나간다. 이렇게 학습된 다중 레이어 퍼셉트론은 데이터로 주어졌던 전경(scene)에 대하여 학습 때 주어지지 않았던 또 다른 카메라 시점으로 렌더링을 수행할 수 있는 능력을 가지게 된다.
그림1. NeRF 알고리즘 동작 예시
[1] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis, ECCV 2020 논문
초창기 제안된 NeRF 기술은 하나의 전경에 대한 다중 시점 영상이 주어져야 동작할 수 있었지만, [2] 논문은 이러한 NeRF 기술을 비디오에 적용하여, 연속된 프레임에 대한 카메라 시점 정보를 기존 structure-from-motion 기술 (논문 [3] 참조)을 활용하여 알아내고, 각 프레임의 시점 정보와 컬러 영상을 활용하여 NeRF가 다중 레이어 퍼셉트론을 학습하는 방식을 적용하여 움직이는 비디오 내 3차원 공간을 복원할 수 있는 기술을 선보였다. 그림 2는 [2] 논문의 방법론을 드라마에 적용하여 한 카메라에 다 담을 수 없었던 전체 공간에 대한 복원 결과를 보여준다. 그림 3은 특정 포인트 클라우드를 복원된 3차원 공간에 추가하거나 없앰으로서 사람을 지우거나, 큰 토끼(Big Bunny)를 추가하여 렌더링한 모습을 보여준다.
그림2. 드라마로부터 3차원 공간을 파노라믹하게 복원한 모습
[2] Reconstructing 3D Humans and Environments in TV Shows, ECCV 2022 논문
NeRF 논문은 발표 당시 AI분야 Top Conference 중의 하나인 ECCV 2020 학회에서 Best Paper Award를 수상하였으며, 관련 분야에 파급효과가 컸다. 또한 [2] 논문과 같이 비디오에 해당 기술이 적용되면서 활용도가 더 커졌는데, NeRF 기술의 치명적인 단점은 시간 복잡도가 크다는 점이다. 하나의 전경에 대한 3차원 복원 결과를 얻기 위해 짧게는 5~6시간, 길게는 하루 이틀 정도의 학습 시간이 필요하며, 전경에 대한 충분히 많은 시점에 대한 영상 정보를 담은 비디오가 필요하다.
그림3. 3차원 공간의 에디팅을 통해 렌더링 영상을 편집할 수 있음.
[2] Reconstructing 3D Humans and Environments in TV Shows, ECCV 2022 논문
3D Gaussian Splatting 기술
3D Gaussian Splatting (논문 [4] 참조)은 NeRF의 단점인 속도를 개선하고, 렌더링 품질도 개선한 기술이다. 프랑스의 연구소인 INRIA, COTE D’AZUR 대학교, 독일 Max Planck 연구소의 연구원들에 의해 2023년 초 제안되었으며, 그림 4는 3D Gaussian Splatting과 NeRF 기반 최신 알고리즘 (논문 [5] 참조)의 렌더링 품질을 비교하여 나타낸다. Gaussian Splatting은 개념적으로 유한 개의 가우시안을 3차원 공간에 피팅시키고 이를 렌더링을 하는 것으로 NeRF보다 속도가 빠르다. 학습은 비디오 길이 등에 의존하여 여전히 시간이 걸릴 수 있지만 한번 학습된 전경에 대해서 다른 시점의 영상을 얻어내는 것을 실시간(real-time)으로 동작할 수 있다. 또한 렌더링 퀄리티도 NeRF에 비해 좋다. [6] 논문은 3D Gaussian Splatting을 활용하여 SLAM을 하는 논문으로 2024년 6월 CVPR 학회에 발표되었다. 3D Gaussian Splatting을 활용하여, 카메라 시점도 더욱 정교하게 얻을 수 있는 논문이다.
그림4. 3D Gaussian Splatting과 NeRF 기반 알고리즘의 성능 비교
[4] 3D Gaussian Splatting for Real-Time Radiance Field Rendering, SIGGRAPH 2023 논문
결론
본 고에서는 3차원 복원을 수행할 수 있는 NeRF 기술과 3D Gaussian Splatting 기술에 대하여 살펴보았다. 3D Gaussian Splatting 기술은 2023년에 제안되어 NeRF 기술이 활용되었던 응용분야를 빠르게 대체하고 있으며, 활용도가 점차 넓어지고 있다. 물류, 제조 등 환경을 3차원으로 복원하고 공간의 활용도를 검토하는 디지털 트윈(digital twin) 분야에도 이러한 기술이 활용될 수 있을 것으로 예상된다. 이를 위해서는 해당 도메인에서의 데이터 축적과 해당 도메인에 특화된 알고리즘의 개발이 추가적으로 필요할 것으로 예상된다.
본 사이트(LoTIS. www.lotis.or.kr)의 콘텐츠는 무단 복제, 전송, 배포 기타 저작권법에 위반되는 방법으로 사용할 경우 저작권법 제 136조에 따라 5년 이하의 징역 또는 5천만원 이하의 벌금에 처해질 수 있습니다.
집필진 | ||