본문 바로가기

DeepLearning

(5)
[논문리뷰] STARK: Learning Spatio-Temporal Transformer for Visual Tracking STARK: Learning Spatio-Temporal Transformer for Visual Tracking Main contributions sprout-robe-00e.notion.site 추후 한글로 정리하여 업데이트할 예정입니다.
[논문리뷰] HITNet: hierarchical iterative tile refinement network for real-time stereo matching 리뷰에 앞서 정확히 이해하지 못한 부분들이 있어 부족한점이 많은 글이기에 잘못된 부분이 있다면 댓글로 알려주시면 감사하겠습니다. [Depth Estimation] Depth Estimation은 2D Image로 부터 3차원 정보를 얻어내는 방법으로 Monocular(단안)와 Stereo(쌍안)의 방법이 있습니다. 본 논문은 Stereo Image를 사용하는 방법으로 두개의 이미지 사이의 disparity를 구하는 방법을 설명합니다. [Method] HITNet은 크게 Feature Extraction, Initialization 그리고 Propagation 3가지 파트로 나뉩니다. 그리고 Tile hypothesis의 개념을 사용하여 High-resolution Image을 효율적으로 학습가능합니다. ..
[논문리뷰] YOLOv4: Optimal Speed and Accuracy of Object Detection [Introduction] 최신 Object Detector들은 Real-time에 적용하기어렵고 큰 mini-batch-size로 인해 학습에 많은 양의 GPU가 필요했습니다. 이러한 문제들을 해결하기 위해 YOLOv4에서는 여러가지 좋은 성능을 보이는 기법들을 YOLO에 적용하여 성능향상을 이루었습니다. 본 논문의 Main Contributions는 다음과 같습니다. Develop an efficient and powerful object detection model. It makes everyone can use a single GPU. Verify the influence of SOTA Bag-of-Freebies and Bag-of-Specials methods. Modify SOTA metho..
[논문리뷰] PointCNN: Convolution on X-Transformed Points [Introduction] 먼저 CNN이 성공할 수 있었던 많은 요인들 중 하나를 본다면 Convolution operator는 Image와 같은 grid에서 공간적인 특징을 추출하는 데에 있어 높은 성능을 보여주었던 점도 포함되겠죠. 하지만 Point cloud에서는 다릅니다. 왜냐하면 Point cloud는 irregular 하고 unordered 하기 때문에 이러한 Point cloud data에 바로 kernel을 적용시킨다는 것은 점의 순서를 다르게 하거나 형상정보를 버리는 꼴이 되니까요. 이러한 문제를 다루기 위해 본 논문에서는 학습 가능한 X-transformation을 제안합니다. 이를 통해 convolution은 point cloud의 공간 정보를 얻을 수 있고 unordered 한 po..
[논문리뷰] PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation [Introduction] 일반적으로 Image는 행렬로 표현된 pixel값을 사용하여 표현합니다. 여기서 기하학적인 정보는 행렬의 좌표 (x, y)에 해당하죠. 반면 3D data는 depth정보를 포함하여 (x, y, z)좌표를 사용하여 rgb값을 표현하며 Image처럼 행렬이 아닌 Point들의 집합으로 표현됩니다. 정리하면 Image는 Regular format으로 Point들의 집합은 Irregular format으로 표현되는 것이니 Point는 Image와 달리 특정한 순서가 없고 Grouping되어 있지도 않죠. 그로 인해 발생하는 문제점들이 있기에 Point들을 아래와 같이 Mesh(polygon) 또는 Voxel(volume+pixel)의 형태로 표현하여 사용합니다. 위처럼 Point c..