서론
그림 그릴 줄 모르는 사람도 예술 작품을 팔아 이익을 남길 수 있는 방법이 있습니다. AI 기술을 활용해 예술작품을 창작하고 큐레이팅 할 수 있는데요. CLIP과 VQGAN Model을 활용해 높은 작품성을 지닌 디지털 페인팅 창작물을 만들어 내고 NFT로 판매하는 법, 오늘 알려드리겠습니다!
학습부터 창작까지
위는 학습부터 창조까지의 과정을 보여주는 고도화된 시스템 구조도입니다. 위를 참조하여 각 단계의 세부 정보를 확인할 수 있습니다. 우선 50,000개의 공공으로 사용 가능한 작품을 WikiArt.org에서 가져와 VQGAN 모델을 학습시켰습니다. 또 OpenAI의 CLIP 모델을 이용해 작품을 인식/학습하는데 사용했습니다. 마지막으로 다시 VQGAN 모델을 활용하여 이미지를 만들어내는데요. 각 모델에 대해 자세히 알아볼까요?
VQGAN 모델
VQGAN 모델은 ‘The Vector Quantized Generative Adversarial Network’의 약자로 벡터 양자화된 생산적 적대 신경망이라는 뜻입니다. 보통의 GAN 모델에서는 Generator와 Discriminator가 적대적으로 대립하면서 모델의 성능을 향상시키는데요. VQGAN 모델에서는 Encorder/ Transformer/ Decoder 단계에서 학습한 이미지를 세분화하여 가짜 이미지를 만들어냅니다. 그리고 Discriminator는 가짜 이미지와 진짜 이미지를 구별합니다. 이 모든 과정을 반복하면서 진품에 가까운 가짜 이미지를 만들어내고 또 그 가짜를 구별해내는 성능을 향상시킵니다.
위처럼 VQGAN 모델은 원래의 이미지를 잘 재현함에 더불어 눈과 입 등 몇몇 특징에서 구별되는 가짜 이미지를 만들어낼 수 있고, 이를 구별하는 능력 또한 가지게 됩니다.
CLIP 모델
그럼 CLIP 모델에 대해 알아봅시다. CLIP은 ‘Contrastive Language-Inage Pre-training’의 약자로 자연어를 기반으로 정확한 이미지 분류를 수행할 수 있는 신경망입니다. CLIP 시스템에는 이미지 및 텍스트 인코더가 있는데 이를 Cross-modal 검색을 수행하는데 사용합니다.
아래 그림과 같이 이미지 데이터베이스가 있는 경우 이미지 인코더를 통해 각 이미지를 실행하여 이미지 임베딩 목록을 가져올 수 있습니다. 그런 다음 텍스트 인코더를 통해 ‘녹색 잔디밭에 앉은 강아지’ 구문을 실행하면 해당 구문에 가장 적합한 이미지를 찾을 수 있습니다.
CLIP과 VQGAN 모델 활용하여 작품 만들기
CLIP 모델에 VQGAN을 이용해 만들어낸 가짜 이미지들을 학습시킵니다. 그리고 CLIP 모델에서 이미지/텍스트 인코딩, VQGAN 디코딩 과정을 거치면 내가 입력한 텍스트에 대응되는 독창적인 이미지를 얻게 되는거죠.
결과
수백장의 이미지를 생성해보았을 때, 모든 작품이 예술적 가치가 있다고 보기는 어려웠는데요. 텍스트를 입력했을 때 원하는 구성을 갖춘 좋은 작품들도 있지만, 형태가 일그러져 가치가 없는 이미지들도 더러 있었습니다.
‘Bad’ 작품을 확인해보면, 각각 ‘호수’, ‘헤어드라이어’, ‘스컹크’라는 텍스트를 입력한 후 받은 결과값인데 형체를 알아보기 어려웠습니다.
만들어진 이미지를 NFT 시장에 판매할 수 있답니다! NFT가 뭔지 모르신다고요?
그럼 저번 게시글인 ‘NFT; 단 하나의 고유성을 지니다’ 를 확인해주세요!
[출처 : TowardsDataScience
https://towardsdatascience.com/ganshare-creating-and-curating-art-with-ai-for-fun-and-profit-1b3b4dcd7376 ]
Comments