대회 소개 (Chemical Process Anomaly Detection : 화학 공정 이상 탐지)
화학 공정 데이터를 이용한 이상 탐지(anomaly detection)를 수행.
입력 데이터로는 약 25만 개의 화학 공정 데이터가 제공되며, 이에 대응하는 약 72 개의 출력 데이터가 제공.

대회 목표
화학 공정 데이터를 이용한 이상 탐지(anomaly detection)를 수행하여, 공정 데이터에서 비정상적인 동작을 탐지하는 것을 목표.
이를 통해 공정에서 발생할 수 있는 문제를 예측하고 대비할 수 있음.
이상 탐지를 위한 알고리즘 개발은 화학 공정 분야에서 매우 중요한 과제이며, 이를 통해 공정의 안정성을 높이고 예기치 않은 문제를 예방할 수 있다는 점에서 큰 의미가 있음.
데이터셋
train.csv
250000 개의 row와 55개의 column 으로 구성되어 있고, column 의 데이터 타입은 float형태
각 column의 의미는 다음과 같습니다.
- faultNumber : 정상인지, 비정상인지 나타내는 Label 입니다. 정상일 경우 '0', 비정상일 경우 '1' .
- simulationRun : 시뮬레이션이 실행된 Run 의 번호.
- 동일한 하나의 simulationRun 이 정상일 경우 faultNumber 가 모두 '0'.
- 반대로 하나의 simulationRun 이 비정상일 경우 faultNumber 가 모두 '1'.
- 학습 데이터에는 정상 데이터만 존재합니다. 따라서 faultNumber 가 모두 '0'.
- 테스트 데이터에는 정상/비정상 데이터가 모두 존재. 따라서 faultNumber 가 모두 '0'인 simulationRun도 있고, faultNumber 모두 '1'인 simulationRun도 있음.
- sample: 하나의 Run 안의 sample 번호를 의미합니다. 학습 데이터는 한 Run 당 500 sample 이 있습니다.
- xmeas_* : measurement 의 약자로, 화학 공정에서 측정된 센서 값 입니다.
- xmv_* : manipulated variable 의 약자로, 화학 공정에서 제어되는 값 입니다.

test.csv
학습 데이터와 동일하게 52 가지 센서 값을 가진 변수가 존재
평가 방법
평가 지표 : F1
F1 score는 Precision과 Recall 조화 평균을 의미. 클래스마다 개수가 불균형할 때 모델의 성능을 더욱 정확하게 평가.
실제 정답의 정상/이상과 모델의 정상/이상을 계산하여 F1 Score 를 산출. Accuracy Score 또한 리더보드에 참고용으로 제공되나, 등수 산정은 F1 Score 만을 기준.



'Project & Competiton > Upstage x Fastcampus' 카테고리의 다른 글
| [프로젝트 7²] Team EOC-VCP (0) | 2024.05.11 |
|---|---|
| [프로젝트 7¹] Team GBE.SK 회고록 (0) | 2024.05.11 |
| [프로젝트 7¹] Team GBE.SK 대회 소개 (0) | 2024.05.11 |
| [프로젝트 6] Team SHTD 회고록 (0) | 2024.05.11 |