본문 바로가기

TECH

단어만 가지고 작품을 만드는 인공지능 기술

728x90
반응형

 

 

인공지능의 발달이 무서울 정도로 빠르게 진행되고 있습니다. 인공지능 로봇이 시민권을 따기도 하고, 작품을 만들기도 하죠. '기계가 예술을 할 수 있을까?'라는 질문에 답하듯, 여러 연구소에서 다양한 실험과 개발이 이루어지고 있습니다. 제가 예전에 소개한 예술가 로봇 아이다 (Ai-Da)와 소피아 모두 자신만의 예술 세계를 펼치며 주목받고 있습니다.

 

 

베니스 비엔날레에 참가하는 인공지능 로봇, 아이다

세계 최초 예술을 창조하는 인공지능 로봇, 아이다 (Ai-Da)는 세상에 태어난 이래로 인공지능 로봇의 역사를 새로 쓰고 있습니다. 미국 로봇 제작회사와 영국 과학자들의 협업으로 만들어진 그녀

11010design.tistory.com

 

A cute corgi lives in a house made out of sushi ©  https://imagen.research.google/

 

이런 가운데 구글 리서치 브레인 팀이 개발한 '이매젠 (Imagen)'은 그보다 더 놀라운 결과물을 선보입니다. 이는 대형 트랜스포머 언어 모델의 힘을 기반으로 마치 사진과 같은 이미지를 생성하는 기술인데요. 단어 조합만 가지고도 이미지를 뚝딱 만들어낸다고 합니다. 예를 들어 '초밥으로 만든 집에 있는 개' 같이, 사람이 들으면 어이없어할 내용도 이 기술을 이용하면 진짜 있는 사진처럼 이미지를 생성할 수 있게 됩니다. 기발한 콘셉트 사진이 필요할 때, 이 기술을 이용하면 아주 효과적인 결과물을 얻을 수 있습니다.

 

 

The Toronto skyline with Google brain logo written in fireworks
Android Mascot made from bamboo
A photo of a Corgi dog riding a bike in Times Square. It is wearing sunglasses and a beach hat
A small cactus wearing a straw hat and neon sunglasses in the Sahara desert ©  https://imagen.research.google/

 

이와 유사한 기술을 선보인 업체는 마이크로소프트가 자금을 댄 오픈 인공지능 연구소가 있습니다. 지난달 이들은 'DALL-E 2’라는 인공지능 기술을 선보였는데요. 아무런 소스 없이 처음부터 작품을 만들어낸다는 점에서 이 기술도 사람들의 관심을 끌었습니다. 단어에서부터 작품을 만드는 점뿐만 아니라 기존 작품을 새롭게 재해석하거나 이미지 교체 등 다양한 기술을 펼칠 수 있어 이 또한 관심 있게 봐야 할 기술인 거 같습니다. 우키요에, 디지털 아트, 1990년대 만화 같은 스타일도 상관없이 다양하게 작품이 만들어지는 모습이 인상적이네요.

 

 

DALL·E 2

DALL·E 2 is a new AI system that can create realistic images and art from a description in natural language.

openai.com

 

 

A dragon fruit wearing karate belt in the snow
A robot couple fine dining with Eiffel Tower in the background
A photo of a raccoon wearing an astronaut helmet, looking out of the window at night
A chrome-plated duck with a golden beak arguing with an angry turtle in a forest ©  https://imagen.research.google/

 

단어만 가지고 그림, 사진이 만들어진다? 듣기만 해도 설렙니다. 상상 속에 있는 아이디어를 시각화하는 방법이 너무나 쉬워질 거 같아요. 바로 기술을 사용해 보고 싶지만, 현재는 사용할 방법이 없다고 합니다. 구글에서는 이 기술이 잘못 사용될 위험이 크다고 여겨 공개하지 않고 있습니다. 기술의 예시만 보여주고 있는데요. 구글이 사용자의 창의적 자유를 중시하면서 편견을 완화할 수 있는 해결책을 찾기 전까지 사용할 수 없을 것이라고 합니다. 기술의 빠른 발전에 비해 사회의 인식이 빠르게 변하지 못하고 있기 때문에 그런 거 같네요... 어떻게 나쁘게 쓰일지는 단박에 이해가 갑니다만, 그래도 언젠가는 이 기술이 실제로 사용되면 좋겠다는 생각이 듭니다.

 

 

Imagen: Text-to-Image Diffusion Models

Imagen unprecedented photorealism × deep level of language understanding unprecedented photorealism deep level of language understanding We present Imagen, a text-to-image diffusion model with an unprecedented degree of photorealism and a deep level of la

imagen.research.google

 

728x90
반응형