딥페이크 기술과 물류 컨시어지 분야 활용 전망

작성자 : 백승렬 울산과학기술원 인공지능대학원 교수 2024.03.05 게시

서론

컨시어지(concierge)란 중세시대 성을 지키며 초를 들고 성을 안내하는 촛불관리자를 이르는 프랑스에서 유래된 말로, 주로 호텔 등 서비스 직종에서 고객을 맞이하는 서비스를 하는 사람을 가리킨다. 최근 생성형 AI (generative AI) 를 활용하여 영상 및 동영상을 생성하는 연구가 진행이 되고 있고, 사람에 대한 영상을 생성하는 연구도 활발히 진행되고 있다. 이른바 딥페이크 (deepfake)라 불리우는 기술로 그림1에서처럼 원래 영상의 사람 얼굴을 다른 사람의 얼굴로 바꾸는 페이스 스왑 (face swap)이라 불리우는 기술부터 그림2에서처럼 텍스트 프롬프트와 함께 사람의 포즈를 입력으로 주면 해당 포즈를 취하고 있는 사람을 생성하는 기술까지 점차 성숙도가 높아지고 있다. 본 고에서는 이러한 생성형 AI를 활용한 딥페이크 기술의 발전 정도를 살펴보고, 물류 분야에서의 활용방안 및 전망을 논의해보고자 한다.

그림1. 엠마 왓슨을 스칼렛 요한슨으로 바꾼 face swap 기술 예시

https://github.com/deepfakes/faceswap

그림2. 생성형 AI로 “An astronaut on the moon” 라는 프롬프트와 사람 포즈를 입력으로 사람 영상 생성한 예시

Adding conditional control to text-to-image diffusion models, ICCV’23 논문

딥페이크 기술

사람을 생성하는 AI 기술인 딥페이크 기술은 포르노 영화 주인공을 유명한 정치인의 얼굴로 바꾸거나, 유명 정치인이 하지 않았던 말을 하도록 조작하는 등 악용되어 사생활 문제를 일으킬 수 있지만, 영화나 애니메이션을 제작하는 툴로 쓰이거나 온라인 회의에서 사생활 보호 용도로 활용할 경우 산업적으로 유용하게 활용될 수 있고 오히려 개인의 사생활 보호에 도움이 될 여지가 있는 기술이다. 그림 1과 그림 2에서 보는 바와 같이 딥페이크 기술은 주로 정지 영상(still image)에서는 잘 동작하지만, 동영상으로 제작하는 것은 시간복잡도가 높아 실시간 동작성에 한계가 있다. 고가의 그래픽 카드 (GPU; graphic processing unit)를 장착한 서버에서 병렬적인 처리를 통해 고속으로 처리를 했을 때 비로소 수 초의 시간이 걸릴 수 있는 정도이다. 또한 사람의 움직임(motion)이 자연스럽게 이어지는 동영상을 생성하는 기술은 아직 성숙되지 않아 비디오로의 합성 영상은 퀄리티가 제한적이다. 자연스러운 동영상을 실시간으로 합성할 수 있는 딥페이크 기술의 개발이 시급해 보인다.

생성된 영상 및 동영상에 대해 합성된 영상인지를 탐지하는 딥페이크 탐지 (deepfake detection) 기술도 개발되고 있다. 최근 딥페이크 합성 영상들은 딥러닝(deep learning) 기술을 기반으로 합성되고 있으며, 딥러닝 구조의 주요 연산인 콘볼루션(convolution)으로 인해 생성된 영상에 주파수(frequency) 도메인에서 특이 패턴을 가지게 된다. 딥페이크 탐지 알고리즘들은 이러한 특이 패턴을 분석하여 합성된 영상인지를 판별한다. 딥페이크 탐지 기술을 통해 사회적 문제를 일으킬 수 있는 단점은 잠재우고 장점을 활용해 산업에서 유용하게 쓰일 수 있을 것으로 기대된다.

물류 컨시어지 전망

기존에는 사람의 노동력을 필요로 하였던 컨시어지(concierge) 분야가 점차 AI기술로 대체되고 있다. 고객에 대한 안내를 대신 맡아주는 AI 기술을 개발한다면 노동력 절감 뿐 아니라 24시간 신뢰성 있는 서비스를 제공할 수 있다는 장점이 있다. 그림 3에서처럼 물류 분야에서도 고객에게 현재 배송중인 물품의 정보를 실시간 제공하는 등 고객과의 상호작용을 해야하는 컨시어지 업무가 점차 중요한 비중을 차지하고 있다. 현재는 그림3에서와 같이 텍스트 기반으로 이러한 물류 서비스가 제공이 되지만, 딥페이크 기술과 그를 바탕으로 한 컨시어지가 개발된다면 고객은 마치 사람과 의사소통을 하는 것과 같이 가상의 콘시어지와 소통함으로서 보다 이질감없이 서비스를 활용할 수 있을 것으로 전망된다. 가상의 콘시어지는 메시지를 사람처럼 읽어주고 사람은 말로 필요한 정보를 글이 아닌 말로 의사소통하여 얻을 수 있는 직관적인 인터페이스 개발이 기대된다. 타자에 익숙지 않은 노인이나 어린 아이 등도 손쉽게 해당 인터페이스를 활용할 수 있을 것으로 예상된다.

그림3. 텍스트 기반 컨시어지 서비스 예시

CJ 대한통운(https://www.cjlogistics.com/ko/newsroom/latest/LT_00000211|)

결론

본 고에서는 생성형 AI를 활용해 사람에 대한 영상 및 동영상을 편집 및 제작할 수 있는 딥페이크 기술과 물류 컨시어지에서의 활용 전망에 대해 살펴보았다. 딥페이크 기술은 양날의 검으로 사생활 침해라는 부작용을 낳을수도 있는 반면, 제대로 활용된다면 산업적으로 부가가치가 높다. 해당 기술의 발전을 통해 고객에게 편의를 제공할 수 있는 상용화 가능한 수준의 컨시어지 기술을 기대하고 또한 이의 물류 분야에의 활용도 기대해본다.

본 사이트(LoTIS. www.lotis.or.kr)의 콘텐츠는 무단 복제, 전송, 배포 기타 저작권법에 위반되는 방법으로 사용할 경우 저작권법 제 136조에 따라 5년 이하의 징역 또는 5천만원 이하의 벌금에 처해질 수 있습니다.

핵심단어 물류 분야기술 사람유명인 얼굴기술 딥페이크 기술딥페이크 기술 발달
자료출처
첨부파일
집필진