Generative AI
사용자의 요청(프롬프트)에 따라 텍스트, 이미지, 오디오, 비디오 등
새로운 콘텐츠를 생성할 수 있는 인공지능의 한 종류이다
Multimodal Generative AI
Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation
Diffusion 모델
노이즈를 점점 제거하면서 원하는 데이터를 만들어내는 생성 AI 방식이다.
- 학습할 때: 이미지를 노이즈가 점점 많아지도록 망가뜨린다.
- 생성할 때: 완전한 노이즈에서 시작해 학습한 규칙을 따라 조금씩 노이즈를 제거 → 이미지 생성
Diffusion 기반 모델
정방향 확산(forward diffusion)
역방향 확산(reverse diffusion)
Cross-modal Fusion (영상과 오디오의 동시 학습)
서로 다른 종류의 데이터(예: 영상과 오디오)의 표현을 상호 학습하고 융합하는 방법론이다.