Google Veo, AI 동영상 제작에 본격적으로 뛰어들어 구글 I/O 2024에서 공개 (techcrunch 24.5.14 기사 한글 번역, 원본 영어 출처 맨 아래)
Google은 텍스트 프롬프트가 주어지면 약 1분 길이의 1080p 동영상 클립을 만들 수 있는 AI 모델인 OpenAI의 Sora 를 Veo로 노리고 있습니다.
화요일 Google의 I/O 2024 개발자 컨퍼런스에서 공개된 Veo는 풍경과 타임랩스 촬영 등 다양한 시각적 및 영화적 스타일을 캡처하고 이미 생성된 영상을 편집 및 조정할 수 있습니다.
"우리는 스토리보드와 긴 장면 생성 등의 기능을 연구하며 Veo가 어떤 기능을 할 수 있는지 살펴보고 있습니다."라고 Google의 AI R&D 연구소인 DeepMind의 책임자 데미스 카사비스는 가상 라운드테이블에서 기자들에게 말했습니다.
"우리는 비디오 분야에서 놀라운 진전을 이루었습니다."
Veo는 구글의 이미지 생성 모델인 Imagen 2 제품군을 활용하여 반복되는 동영상 클립을 제작하는 동영상 생성 분야의 예비 상용 작업을 기반으로 하며, 지난 4월에 미리 공개된 바 있습니다.
그러나 몇 초 길이의 저해상도 동영상만 제작할 수 있었던 Imagen 2 기반 도구와 달리 Veo는 Sora뿐만 아니라 Pika, Runway, Irreverent Labs와 같은 스타트업의 모델 등 오늘날의 주요 동영상 생성 모델과 경쟁할 수 있는 것으로 보입니다.
딥마인드에서 제너레이티브 미디어 연구를 이끌고 있는 더글라스 에크는 브리핑에서 Veo가 할 수 있는 일을 몇 가지 예시로 보여주었습니다. 특히 북적이는 해변의 조감도는 경쟁사 동영상 모델에 비해 Veo의 강점을 잘 보여줬다고 그는 말했습니다.
"해변에 있는 모든 수영 선수의 디테일은 이미지와 비디오 생성 모델 모두에서 그토록 많은 움직이는 캐릭터를 표현하기 어려운 것으로 입증되었습니다."라고 그는 말했습니다. "자세히 보면 파도가 꽤 멋져 보입니다. 그리고 '북적북적'이라는 단어의 의미는 일광욕하는 사람들로 가득 찬 활기찬 해변가의 모든 사람들과 함께 포착되었다고 생각합니다."
Veo는 수많은 영상으로 학습되었습니다. 이는 일반적으로 생성형 AI 모델이 작동하는 방식입니다: 어떤 형태의 데이터에 대한 예시를 계속해서 제공하면 모델은 데이터의 패턴을 파악하여 새로운 데이터(Veo의 경우 동영상)를 생성할 수 있습니다.
Veo를 학습시키는 영상은 어디에서 가져왔나요? 에크는 정확히 밝히지는 않았지만 일부 영상은 Google의 자체 YouTube에서 가져온 것일 수 있다고 인정했습니다.
"Google 모델은 일부 YouTube 콘텐츠에서 훈련을 받을 수 있지만 항상 YouTube 크리에이터와의 계약에 따릅니다."라고 그는 말했습니다.
'합의'라는 부분은 엄밀히 말하면 사실일 수 있습니다. 하지만 YouTube의 네트워크 효과를 고려할 때 크리에이터가 최대한 많은 시청자에게 도달하려면 Google의 규칙을 따를 수밖에 없는 것도 사실입니다.
지난 4월 뉴욕타임스의 보도에 따르면 구글은 작년에 AI 모델 학습을 위해 더 많은 데이터를 활용할 수 있도록 서비스 약관을 일부 변경한 것으로 밝혀졌습니다. 기존 ToS에서는 Google이 동영상 플랫폼 이외의 제품을 개발하는 데 YouTube 데이터를 사용할 수 있는지 여부가 명확하지 않았습니다. 하지만 새로운 약관에서는 제한이 상당히 완화되었습니다.
방대한 양의 사용자 데이터를 활용하여 사내 모델을 학습시키는 거대 기술 기업은 구글만이 아닙니다. (참조: 메타) 하지만 일부 크리에이터가 실망할 만한 것은 구글이 윤리적인 측면에서 '황금 표준'을 설정하고 있다는 에크의 주장입니다.
"이 [학습 데이터] 문제에 대한 해결책은 모든 이해관계자가 함께 모여 다음 단계가 무엇인지 알아내는 데서 찾을 수 있을 것입니다."라고 그는 말했습니다. "영화 산업, 음악 산업, 아티스트 등 이해관계자들과 함께 이러한 단계를 밟기 전까지는 빠르게 움직이지 않을 것입니다."
하지만 구글은 이미 도널드 글로버(일명 차일디시 감비노)와 그의 크리에이티브 에이전시 길가 등 일부 크리에이터에게 베오를 제공했습니다. (Sora의 OpenAI와 마찬가지로 Google은 Veo를 크리에이터를 위한 도구로 포지셔닝하고 있습니다.)
에크는 웹마스터가 구글의 봇이 자신의 웹사이트에서 교육 데이터를 스크랩하는 것을 방지할 수 있는 도구를 제공한다고 언급했습니다. 하지만 이 설정은 YouTube에는 적용되지 않습니다. 또한 일부 경쟁사와 달리 Google은 스크래핑 후 크리에이터가 학습 데이터 세트에서 자신의 작업을 삭제할 수 있는 메커니즘을 제공하지 않습니다.
저는 Eck에게 역류에 대해서도 질문했는데, 역류는 생성형 AI 맥락에서 모델이 학습 예제의 미러 복사본을 생성하는 것을 의미합니다. '듄', '어벤져스', '스타워즈' 등의 영화에서 타임스탬프가 제공되면 정확한 스틸컷을 뱉어내는 Midjourney와 같은 도구가 발견되어 사용자에게 잠재적인 법적 지뢰밭이 될 수 있습니다. OpenAI는 저작권 문제를 회피하기 위해 상표와 제작자의 이름을 차단하는 기능까지 도입한 것으로 알려졌습니다.
그렇다면 구글은 베오의 역류 위험을 완화하기 위해 어떤 조치를 취했을까요? 에크는 연구팀이 폭력적이고 노골적인 콘텐츠에 대한 필터를 구현했으며(포르노는 제외), 딥마인드의 SynthID 기술을 사용하여 Veo의 동영상을 AI가 생성한 것으로 표시하고 있다는 말 외에는 답을 내놓지 못했습니다.
"Veo 모델처럼 큰 프로젝트의 경우, 모델의 의미를 이해하기 위해 긴밀히 협력할 수 있는 소수의 이해관계자에게 점진적으로 공개한 다음 더 큰 그룹으로 확산하는 것이 중요합니다."라고 그는 말합니다.
에크는 모델의 기술적 세부 사항에 대해 더 많은 것을 공유했습니다.
에크는 모델이 '팬', '줌', '폭발' 같은 설명어를 통해 카메라 움직임과 VFX를 합리적으로 잘 이해한다는 점에서 Veo를 "상당히 제어 가능하다"고 설명했습니다. 또한 소라와 마찬가지로 Veo는 유체 역학 및 중력 등 물리학을 어느 정도 이해하고 있어 생성하는 비디오의 사실성에 기여합니다.
또한 Veo는 비디오의 특정 영역을 변경할 수 있는 마스크 편집을 지원하며, Stability AI의 Stable Video와 같은 생성 모델처럼 정지 이미지에서 비디오를 생성할 수 있습니다. 가장 흥미로운 점은 스토리를 전달하는 일련의 프롬프트가 주어지면 Veo는 1분 이상의 긴 동영상도 생성할 수 있다는 점입니다.
그렇다고 Veo가 완벽하다는 뜻은 아닙니다. 오늘날의 생성형 AI의 한계를 반영하듯 Veo의 동영상에서는 별다른 설명이나 일관성 없이 사물이 사라졌다가 다시 나타나기도 합니다. 예를 들어, 자동차가 설명할 수 없을 정도로 갑자기 후진하는 등 Veo는 종종 물리학을 잘못 이해하기도 합니다.
그렇기 때문에 Veo는 당분간 Google의 실험적인 기술을 위한 포털인 Google Labs의 대기 목록에 남아 VideoFX라는 새로운 AI 동영상 제작 및 편집을 위한 프런트엔드에 포함될 것입니다. 개선이 진행됨에 따라 Google은 이 모델의 일부 기능을 YouTube 쇼트 및 기타 제품에 적용하는 것을 목표로 하고 있습니다.
"이것은 매우 진행 중이며 실험적인 작업입니다... 아직 완료된 것보다 완료되지 않은 것이 훨씬 더 많습니다."라고 Eck는 말합니다. "하지만 저는 이것이 영화 제작 분야에서 정말 멋진 일을 하기 위한 원재료라고 생각합니다."
반응형
'논문&아티클 리뷰(LLM + RS)' 카테고리의 다른 글
Large Language Model(LLM)을 활용한 에이전트의 계획 수립 및 추론 능력에 대해 심도 있게 분석한 연구입니다. (0) | 2024.05.28 |
---|---|
GPT-4o 는 claude opus 보다 성능이 뛰어나다고 주장합니다. 그래서 직접 테스트를 실행해 보았습니다 (0) | 2024.05.17 |
프롬프트 엔지니어링 방법 (0) | 2024.05.08 |
Two-Tower Networks and Negative Sampling in Recommender Systems (0) | 2024.05.07 |
ReAct: 언어 모델에서 추론과 행동의 시너지 효과 (0) | 2024.05.07 |