3. Decoder의 역할 모델의 전체 구조 이미지를 입력으로 받으면, Backbone을 통해서 Visual Feature를 추출. 추출된 Feature는 보통 입력 이미지보다 작은 크기를 가지고 있어서 추후 활용에 용이. 이후 풀고자하는 task에 따라 여러 가지 Decoder를 붙임. Decoder는 앞서 추출한 feature를 이용하여 풀고자하는 vision task에 맞는 결과를 추출함. Classification Backbone 옆 ( B x C x W x H) 의 의미 Visual feature의 tensor 크기 W와 H는 각각 높이와 넓이, C는 channel, B는 Batch size B개의 이미지에 대해서 Visual Feature를 추출했고, 추출한 Visual Feature는 C x..