Project & Competiton/Upstage x Fastcampus

[프로젝트 7²] Team EOC-VCP 대회 소개

Visioneer 2024. 5. 11. 02:12

대회 소개 (Chemical Process Anomaly Detection : 화학 공정 이상 탐지)

화학 공정 데이터를 이용한 이상 탐지(anomaly detection)를 수행.

입력 데이터로는 약 25만 개의 화학 공정 데이터가 제공되며, 이에 대응하는 약 72 개의 출력 데이터가 제공.


대회 목표

화학 공정 데이터를 이용한 이상 탐지(anomaly detection)를 수행하여, 공정 데이터에서 비정상적인 동작을 탐지하는 것을 목표.

이를 통해 공정에서 발생할 수 있는 문제를 예측하고 대비할 수 있음.

이상 탐지를 위한 알고리즘 개발은 화학 공정 분야에서 매우 중요한 과제이며, 이를 통해 공정의 안정성을 높이고 예기치 않은 문제를 예방할 수 있다는 점에서 큰 의미가 있음.

 

데이터셋

train.csv

250000 개의 row와 55개의 column 으로 구성되어 있고, column 의 데이터 타입은 float형태

 

각 column의 의미는 다음과 같습니다.

  • faultNumber : 정상인지, 비정상인지 나타내는 Label 입니다. 정상일 경우 '0', 비정상일 경우 '1' .
  • simulationRun : 시뮬레이션이 실행된 Run 의 번호.
    • 동일한 하나의 simulationRun 이 정상일 경우 faultNumber 가 모두 '0'.
    • 반대로 하나의 simulationRun 이 비정상일 경우 faultNumber 가 모두 '1'.
    • 학습 데이터에는 정상 데이터만 존재합니다. 따라서 faultNumber 가 모두 '0'.
    • 테스트 데이터에는 정상/비정상 데이터가 모두 존재. 따라서 faultNumber 가 모두 '0'인 simulationRun도 있고, faultNumber 모두 '1'인 simulationRun도 있음.
  • sample: 하나의 Run 안의 sample 번호를 의미합니다. 학습 데이터는 한 Run 당 500 sample 이 있습니다.
  • xmeas_* : measurement 의 약자로, 화학 공정에서 측정된 센서 값 입니다.
  • xmv_* : manipulated variable 의 약자로, 화학 공정에서 제어되는 값 입니다.

 

test.csv

학습 데이터와 동일하게 52 가지 센서 값을 가진 변수가 존재

 

평가 방법

평가 지표 : F1

F1 score는 Precision과 Recall 조화 평균을 의미. 클래스마다 개수가 불균형할 때 모델의 성능을 더욱 정확하게 평가. 

실제 정답의 정상/이상과 모델의 정상/이상을 계산하여 F1 Score 를 산출. Accuracy Score 또한 리더보드에 참고용으로 제공되나, 등수 산정은 F1 Score 만을 기준.