전체 글 36

[머신러닝을 위한 수학 복습]

벡터 (Vector)정의 크기(Scale)와 방향(Direction)을 가진 물리량일련의 숫자 리스트 (list)ex ) 고차원에서의 좌표특성$\overrightarrow{A}$ = (2,4) 크기 : $\sqrt{2^{2}+4^{2}}$방향 : $\overrightarrow{u}_{A}=\left( \dfrac{2}{\sqrt{20},}\dfrac{4}{\sqrt{20}}\right)$ ※ 방향은 벡터를 크기로 나눠주면 표현된다.리스트 혹은 튜플의 형태로 나타낼 수 있음.서로 다른 차원의 벡터끼리는 계산을 할 수 없음.내적은 벡터에서 서로 대응하는 성분끼리 곱한 다음 그것들을 모두 더한 값.왜 벡터를 알아야하나?데이터는 대게 리스트의 형태로 저장여러 리스트의 데이터를 기반으로 특징을 추출하고 분석해야함..

AI/LG Aimers 2024.06.11

[프로젝트 7²] Team EOC-VCP 대회 소개

대회 소개 (Chemical Process Anomaly Detection : 화학 공정 이상 탐지)화학 공정 데이터를 이용한 이상 탐지(anomaly detection)를 수행.입력 데이터로는 약 25만 개의 화학 공정 데이터가 제공되며, 이에 대응하는 약 72 개의 출력 데이터가 제공.대회 목표화학 공정 데이터를 이용한 이상 탐지(anomaly detection)를 수행하여, 공정 데이터에서 비정상적인 동작을 탐지하는 것을 목표.이를 통해 공정에서 발생할 수 있는 문제를 예측하고 대비할 수 있음.이상 탐지를 위한 알고리즘 개발은 화학 공정 분야에서 매우 중요한 과제이며, 이를 통해 공정의 안정성을 높이고 예기치 않은 문제를 예방할 수 있다는 점에서 큰 의미가 있음. 데이터셋train.csv250000..

[프로젝트 7¹] Team GBE.SK 회고록

※ Anomaly Detection & Information Retrival 대회를 함께 진행1. AbstractGoal of the Competition과학 상식을 질문하는 시나리오를 가정하고 과학 상식 문서 4200여개를 미리 검색엔진에 색인해 둡니다.만일 과학 상식 이외의 질문이라면 검색엔진을 활용할 필요 없이 적절한 답을 바로 생성합니다. 대화 메시지 또는 질문이 들어오면 과학 상식에 대한 질문 의도인지 그렇지 않은 지 판단 후에 과학 상식 질문이라면 검색엔진으로부터 적합한 문서들을 추출하고 이를 기반으로 답변을 생성합니다.본 프로젝트는 모델링에 중점을 둔 대회가 아니라 RAG(Retrieval Augmented Generation) 시스템의 개발에 집중하고 있습니다. 이 대회는 여러 모델과 다양..

[프로젝트 7¹] Team GBE.SK 대회 소개

대회 소개 ( Scientific Knowledge Question Answering : 과학 지식 질의 응답 시스템 구축 )질문과 이전 대화 히스토리를 보고 참고할 문서를 검색엔진에서 추출 후 이를 활용하여 질문에 적합한 대답을 생성하는 대회.대회 목표과학 상식을 질문하는 시나리오를 가정하고 과학 상식 문서 4200여개를 미리 검색엔진에 색인. 대화 메시지 또는 질문이 들어오면 과학 상식에 대한 질문 의도인지 그렇지 않은 지 판단 후에 과학 상식 질문이라면 검색엔진으로부터 적합한 문서들을 추출하고 이를 기반으로 답변을 생성.만일 과학 상식 이외의 질문이라면 검색엔진을 활용할 필요 없이 적절한 답을 바로 생성.본 프로젝트는 모델링에 중점을 둔 대회가 아니라 RAG(Retrieval Augmented Ge..

[프로젝트 6] Team SHTD 회고록

1. AbstractGoal of the Competition일상생활에서 대화는 항상 이루어지고 있습니다. 대화를 하는 도중에 이를 요약하게 되면 대화에 집중할 수 없으며, 대화 이후에 기억에 의존해 요약하게 되면 오해나 누락이 추가되어 주관이 많이 개입되게 됩니다. 이를 돕기 위해, 우리는 이번 대회에서 "일상 대화를 바탕으로 요약문을 생성하는 모델을 제작"합니다. 최소 2명에서 최대 7명의 화자가 등장하며, 최소 2턴에서 최대 60턴으로 구성된 대화문 12457개가 문제해결을 위한 데이터셋으로 제공됩니다. Timeline24.03.08 ~ 24.03.20 19:00Description of the workHugging Face의 pretrain된 Kobart-summarization 모델을 finet..

[프로젝트 6] Team SHTD 대회 소개

대회 소개 (DialogSum : A Real-life Scenario Dialogue Summarization)실제 일상생활에서 가능한 다양한 시나리오 multi-turn 대화를 바탕으로 생성 요약문을 만들어보는 대회대화 스타일 : 구어체 (대화형식)대화 Domain : 다양한 주제Senario : daily life #Dialogs : 13,455 (train 12,457, valid 499, test 499) 대회 목표비정형 데이터인 일상 대화 텍스트 데이터를 기반으로 다양한 딥러닝 모델 구축 프로세스를 경험베이스라인 코드를 기반으로 데이터 전처리, 모델 구축 및 평가 파이프라인 전반을 직접 구동 해보는 경험데이터 분석 및 분석 결과를 바탕으로 다양한 모델을 fine-tuning해보면서 모델의 성능..

[프로젝트 5] Team PLUS 회고록

0. PrologueTeam 플러스는 두 번째 프로젝트부터 같은 팀원들과 ㅎ지금의 4번째 프로젝트까지 함께 했다.  2번째 프로젝트때 우리 Team의 이름은 "URSA. 우루사." 였다. 간 과 관련된 EDA를 했었다. 해당 EDA와 관련된 내용들도 향후 올려놓도록 하겠다. 우리 팀은 정말 신기한 사람들이 모였다. 서로 부족한 점을 돌봐준다. 그렇다보니 모든 부분에서 골고루 좋은 성과를 내게 된다. 정리를 잘하는 사람도 있고, 보통 보이지 않는 부분을 집요하게 들춰내는 사람도 있고, 우리 모두를 혼자 두지 않고 자꾸만 무언가를 함께하도록 하는 사람도 있다. 그러다보니 하나씩 둘씩 우리도 모르는 사이 서로의 장점을 보고 배우는 중이다. 그 덕분인지 매번 프로젝트 후 강사님과 매니저님들에게 칭찬을 잔뜩 받는..

[프로젝트 5] Team PLUS 대회 소개

대회 소개 (Document Type Classification : 문서 타입 분류)문서 타입 분류를 위한 이미지 분류 대회사용될 데이터는 총 17개 종의 문서로 분류1570장의 학습 이미지를 통해 3140장의 평가 이미지를 예측 대회 목표이번 대회를 통해서 문서 타입 데이터셋을 이용해 이미지 분류를 모델을 구축함. 주어진 문서 이미지를 입력 받아 17개의 클래스 중 정답을 예측. computer vision에서 중요한 backbone 모델들을 실제 활용해보고, 좋은 성능을 가지는 모델을 개발할 수 있음. 그 밖에 학습했던 여러 테크닉들을 적용해 볼 수 있음.데이터셋train.csv1570개의 행으로 이루어져 있음. train/ 폴더에 존재하는 1570개의 이미지에 대한 정답 클래스를 제공. ID 학습 ..

이상 탐지 개요

이상 탐지 (Anomaly Detection) 이상 탐지란 무엇인가? - 데이터 분석에서 이상 탐지(Anomaly Detection)(때로는 outlier detection 또는 novelty detection로도 불림)는 일반적으로 데이터의 대다수와 현저히 다르며 정상 범위에서 벗어나서 드물게 발생하는 항목, 사건, 또는 관측치를 찾아내는 과정 - 이러한 이상치는, 어떠한 다른 원인에 의해 발생한 것으로 추측되며, 데이터 집합의 나머지 정상 부분과 일치하지 않은 특징을 보임 => 이상한 데이터 찾기 => 이상?(異常)한 데이터는 무엇일까요? 이상의 기준 - 기존 데이터와 다른 특성을 가지며, 드물게 발생한다. => 이상치의 기준은 우리의 관심사, 데이터의 특성에 따라 달라질 수 있음 - 데이터의 특성을..