카테고리 없음

딥러닝) 딥러닝 개념 정리(7)

jijijinog 2025. 11. 14. 09:44

Generative AI

사용자의 요청(프롬프트)에 따라 텍스트, 이미지, 오디오, 비디오 등
새로운 콘텐츠를 생성할 수 있는 인공지능의 한 종류이다

 

Multimodal Generative AI

Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation

 

Diffusion 모델

노이즈를 점점 제거하면서 원하는 데이터를 만들어내는 생성 AI 방식이다.

  • 학습할 때: 이미지를 노이즈가 점점 많아지도록 망가뜨린다.
  • 생성할 때: 완전한 노이즈에서 시작해 학습한 규칙을 따라 조금씩 노이즈를 제거 → 이미지 생성

 

Diffusion 기반 모델

정방향 확산(forward diffusion)
역방향 확산(reverse diffusion)

 

Cross-modal Fusion (영상과 오디오의 동시 학습)

서로 다른 종류의 데이터(예: 영상과 오디오)의 표현을 상호 학습하고 융합하는 방법론이다.