Project & Competiton/Upstage x Fastcampus

[프로젝트 5] Team PLUS 대회 소개

Visioneer 2024. 5. 11. 02:03

대회 소개 (Document Type Classification : 문서 타입 분류)

문서 타입 분류를 위한 이미지 분류 대회

사용될 데이터는 총 17개 종의 문서로 분류

1570장의 학습 이미지를 통해 3140장의 평가 이미지를 예측

 

대회 목표

이번 대회를 통해서 문서 타입 데이터셋을 이용해 이미지 분류를 모델을 구축함.
주어진 문서 이미지를 입력 받아 17개의 클래스 중 정답을 예측.
computer vision에서 중요한 backbone 모델들을 실제 활용해보고, 좋은 성능을 가지는 모델을 개발할 수 있음.
그 밖에 학습했던 여러 테크닉들을 적용해 볼 수 있음.

데이터셋

train.csv

1570개의 행으로 이루어져 있음. train/ 폴더에 존재하는 1570개의 이미지에 대한 정답 클래스를 제공. ID 학습 샘플의 파일명. target 17개의 클래스 번호.


sample_submission.csv

3140개의 행으로 이루어져 있음. ID 평가 샘플의 파일명이 저장되어 있음. target 예측 결과가 입력될 컬럼. 값이 전부 0으로 저장되어 있음. 그 밖에 평가 데이터는 학습 데이터와 달리 랜덤하게 Rotation 및 Flip 등이 되었고 훼손된 이미지들이 존재.

 

평가 방법

평가 지표 : Macro F1

F1 score는 Precision과 Recall 조화 평균을 의미. 클래스마다 개수가 불균형할 때 모델의 성능을 더욱 정확하게 평가. 

 

 

Macro F1 score는 multi classification을 위한 평가 지표로 클래스 별로 계산된 F1 score를 단순 평균한 지표.