리뷰에 앞서 정확히 이해하지 못한 부분들이 있어 부족한점이 많은 글이기에 잘못된 부분이 있다면 댓글로 알려주시면 감사하겠습니다.
[Depth Estimation]
Depth Estimation은 2D Image로 부터 3차원 정보를 얻어내는 방법으로 Monocular(단안)와 Stereo(쌍안)의 방법이 있습니다. 본 논문은 Stereo Image를 사용하는 방법으로 두개의 이미지 사이의 disparity를 구하는 방법을 설명합니다.
[Method]

HITNet은 크게 Feature Extraction, Initialization 그리고 Propagation 3가지 파트로 나뉩니다. 그리고 Tile hypothesis의 개념을 사용하여 High-resolution Image을 효율적으로 학습가능합니다.
Tile Hypothesis

구조를 설명하기에 앞서 Tile Hypothesis는 High-resolution을 작은 사이즈의 tile로 나누어 학습하는 것으로 다음과 같이 구성됩니다.
: disparity : gradient of disparity in and direction : tile feature descriptor (learnable)
Feature Extraction

본 논문에서 Feature Extraction은 작은 U-net의 구조를 사용합니다. 두개의 Image를 각각 Feature Extraction에 넣어 encoder부분에서 high-level feature를 얻어낸 후에 decoder부분에서의 featrue map (Left Image)
Initialization

Initialization 부분은 Tile hypothesis를 초기화하는 과정으로 초기 disparity와 descriptor를 설정하고
먼저 Feature extraction에서 얻어진 Featrue map
그 결과로

이때
후에 계산한 matching cost를 이용해서 초기 disparity
+추가 업로드 예정