Introduction 기존의 diffusion 기반 모델들은 이미지 생성은 정말 뛰어났지만, 텍스트 프롬프트 만으로는 우리가 원하는 이미지를 뽑기에는 상당히 어려웠습니다. 예를들어 왼쪽과 같은 포즈 스켈레톤과 동일한 자세를 취하는 사람 이미지를 생성하고 싶어도, 프롬프트 만으로는 여러차례 시도해야 간신히 한 두장 정도 비슷한 사진을 건질 수 있...
일부는 저의 해석이 들어가 있어서 잘못된 부분이 있을 수 있습니다. 혹시 잘못된 부분이 있다면 지적 부탁드립니다. text-to-3D LucidDreamer는 text-to-3D 생성 모델을 학습하기 위한 손실 함수에 대해 중점적으로 다루고 있습니다. text-to-3D의 역사에 대해 짧게 짚고 넘어가보면, 인터넷에 있는 풍부한 텍스트-이미지 ...
DMTet은 저해상도의 voxel 또는 포인트 클라우드를 고해상도의 삼각형 mesh로 변환할 수 있는 hybrid representation입니다. 여기서 hybrid라고 하는 이유는 voxel이라는 explicit representation과 signed distance field라는 implicit representation을 동시에 사용하기 때...
CLIP은 텍스트와 이미지를 모두 다루는 task에서 특징을 추출하기 위해 매우 자주 사용되는 인코더입니다. CLIP을 그냥 가져다 쓰더라도 어느정도 알고 써야할 것 같아, 간단히 어떤 모델인지만 가볍게 정리하고자 합니다. Motivation CLIP이 발표될 당시, 대부분의 Computer Vision 모델은 ImageNet 데이터셋 등을 기반...
Background NFSD는 SDS Loss의 한계를 극복하기 위해 새롭게 제안된 loss입니다. SDS Loss에 대해서는 이전 게시글에서도 다루었지만, 다시 읽어보니 너무 글을 못 쓴 것 같아서 다시 간략하게 설명하고자 합니다. 딥러닝 및 생성형 모델을 배우기 시작한지 얼마 안되었기 때문에 틀린 부분이 있을 수도 있습니다. 이런 부분을 발견...
논문 소개 제한된 입력(이미지, 텍스트 등)으로 3D Scene을 복원하는 문제는 컴퓨터 비전에서 매우 활발하게 연구되고 있는 분야입니다. 그 중 NeRF는 상당한 수준의 high-fidelity한 3D 복원이 가능했기 때문에 3D reconstruction 분야 발전에 큰 기여를 하였습니다. 하지만 NeRF는 volumetric rendering ...
서론 LRM(Large Reconstruction Model)은 이름 그대로 ‘큰’ 3D Reconstruction 모델이다. 이전의 single image to 3D reconstruction 모델들은 주로 특정 카테고리에 대해서만 prior를 학습하여 새로운 카테고리를 생성하기 어려운 모델이거나, Stable Diffusion과 같은 pre-tr...
Score Distillation Sampling이란 SDS(Score Distillation Sampling) loss는 DreamFusion 논문에서 처음 제시된 손실 함수로, 현재 다양한 Text-to-3D 모델에서 중요하게 사용되고 있다. SDS의 기반이 되는 손실 함수 SDS는 latent diffusion model을 기반으로 한다. l...
벡터 연산, 행렬 연산, 내적 (inner product) 점곱(dot product)이라고 부르기도 한다. 표기법 \(a \cdot b = <a, b> = a^Tb = \left | a \right | \left | b \right | \cos{\theta} = \sum{a_k b_k}\) 내적하는 두 벡터의 길이(성분 갯수)...
이전 게시글 4. Fundamental Matrix Essential Matrix를 구할 때에는 두 카메라가 canonical camera라고 가정하였다. 그러나 현실의 카메라에 적용하기 위해서는 canonical이 아닌 카메라에 대응하는 Matrix가 필요하다. 이것이 바로 Fundamental Matrix이다. 두 카메라의 Intrinsi...