1. Backbone의 의미
- Visual Feature
눈으로 감지할 수 있는 시각적 특징을 통해 많은 정보를 얻고 스스로 판단 근거로 활용. - Visual Feature in Computer Vision
컴퓨터 비전 task (classification, detection, segmentation, · · · )를 해결할 때 필요한 이미지의 특성을 담고 있는 정보들을 지칭함. - Backbone의 역할
Backbone은 이미지에서 중요한 Feature를 추출(extract)할 수 있도록 훈련됨.
즉, Backbone의 역할은 주어진 비전 task를 잘 수행할 수 있는 압축된 Visual Feature를 산출하는 것.
출처 : https://www.baeldung.com/cs/neural-network-backbone - Backbone의 구조
여러 개의 Layer로 이루어짐. Layer는 다양한 종류의 feature를 추출함. Layer에 따라서 추출하는 Visual Feature의 종류에는 큰 차이가 존재.
layer1 에서는 Edge와 같은 Low-level feature를 추출. layer를 거칠수록 feature의 level이 올라감을 확인할 수 있음.
☆ 후속 layer에서 feature를 뽑을 때, 전속 layer에서 뽑은 feature를 활용함. 즉, layer 3에서 얼굴의 전반적인 feature를 뽑을 때, layer1이나 layer2에서 뽑은 Edge나 얼굴 일부에 대한 feature를 활용한다는 의미.
H. Lee, R. Grosse, R. Ranganath and A. Ng, “Convolutional Deep Belief Networks for Scalable Unsupervised Learning of Hierarchical Representations”. In Proc. of the 26th Int. Conf. on Machine Learning (ICML 2009), 9 pp. 609–616, 2009. / 출처 : Upstage 모델 구성, 9page
- Layer
Input 이미지에서 Feature(points, edges, shapes, · · · )를 추출하기 위한 연산을 하는 층.
- Layer
2. 모델의 구성
- Decoder
압축된 Feature를 목표하는 task의 출력 형태로 만드는 과정을 수행.
출처 : Upstage 모델 구성, 11~14page - Encoder
경우에 따라 Decoder만 있는 것이 아니라 Encoder가 들어가는 경우가 있음.
Backbone에서 뽑은 Visual Feature를 Decoder에 넘겨주기 전에 한 번 더 가공하는 역할을 수행.
Encoder는 Feature와 Image Patch들 사이의 관계를 학습시키기도 함.
Backbone에 Encoder가 함께 사용될 경우, Backbone과 Encoder의 구조적 차이로 인해 Encoder가 수행하는 가공과정이 더 효과적인 경우가 있음. 다만 Encoder는 Decoder에 Input 값을 더 좋게 하기 위한 역할이므로 크게 보았을 때, Visual Feature를 추출하는 Backbone과 Encoder가 있고 이를 활용하여 정해진 문제에 맞는 결과를 출력하는 Decoder가 있음.
'Upstage AI Lab > AI 심화학습 : CV' 카테고리의 다른 글
| [14] CV 모델 성능 높이기 (0) | 2024.02.06 |
|---|---|
| [2-2] 고전 컴퓨터 비전 심화 (0) | 2024.01.31 |
| [2-1] 고전 컴퓨터 비전 (0) | 2024.01.31 |
| [1] Computer Vision 이란? (0) | 2024.01.31 |