NLP 5

이상 탐지 개요

이상 탐지 (Anomaly Detection) 이상 탐지란 무엇인가? - 데이터 분석에서 이상 탐지(Anomaly Detection)(때로는 outlier detection 또는 novelty detection로도 불림)는 일반적으로 데이터의 대다수와 현저히 다르며 정상 범위에서 벗어나서 드물게 발생하는 항목, 사건, 또는 관측치를 찾아내는 과정 - 이러한 이상치는, 어떠한 다른 원인에 의해 발생한 것으로 추측되며, 데이터 집합의 나머지 정상 부분과 일치하지 않은 특징을 보임 => 이상한 데이터 찾기 => 이상?(異常)한 데이터는 무엇일까요? 이상의 기준 - 기존 데이터와 다른 특성을 가지며, 드물게 발생한다. => 이상치의 기준은 우리의 관심사, 데이터의 특성에 따라 달라질 수 있음 - 데이터의 특성을..

Evaluation Metric

Precision & Recall Evaluation Metric 이해를 위한 기본 개념 - 전체 문서 집합 중 모델이 추출한 문서에 대해 다음과 같은 분류를 할 수 있음 Precision 계산 방식 Precision = TP / Retrieved Documents = TP / (TP + FP) Recall = TP / Relevant Documents = TP / (TP + FN) Accuracy = (TP + TN) / Total Documents = (TP + TN) / (TP + TN + FP + FN) Precision-Recall Curve - Precision과 recall 하나만으로 지표를 삼을 수 없음 현실적인 이슈 - 대규모 문서를 다루는 IR에서는 recall은 큰 의미가 없음 - I..

AI/NLP 2024.04.16

Query-Document Relevance

Boolean 모델 질의는 Boolean 형식으로 표현되고, 문서는 단어들의 집합으로 표현 - Retrieval 모델 중 가장 단순한 검색 모델 - 단어들의 순서 및 중요도를 고려하지 않음 - Boolean 형식으로 표현되는 질의를 통해 조건에 맞는 문서 추출 - AND, OR, NOT과 같은 논리 연산들을 이용해 만들어져 있어 정확한 논리적 의미를 가짐 - 모델은 Boolean 수식을 만족하는 모든 문서를 반환함 Boolean 모델의 특징 및 한계점 - 질의에 자연어를 그대로 사용할 수 없고 Boolean 연산을 위한 문법을 따라야 함 - 단어의 순서 및 중요도를 고려하지 않기 때문에 성능이 낮음 (성능이 낮음 = 추출된 결과에 대해서 랭킹을 멕일 수 없음. 맞다 틀리다의 결과가 나오기 때문. 이로써 ..

AI/NLP 2024.04.16

역색인과 형태소 분석기

문서 색인 색인 (Indexing) - 키워드를 입력했을 때 문서를 빠르고 효율적으로 검색하기 위해 문서 집합을 미리 가공하는 작업 - 문서를 검색어 토큰들로 변환하여 데이터가 빠르게 추출될 수 있는 구조로 저장 - 이때 inverted index. 즉, 역색인 구조를 활용. 검색엔진의 색인 구조 - 역색인 (Inverted Index) - 단어가 key 값이 되고, 그 단어가 존재하는 문서들이 value - 특정 토큰이 어떤 문서와 연관되어 있는지 맵핑되어 있음 - 관련된 문서를 찾는 과정에서 키워드에 해당하는 문서만 추출할 수 있기 때문에 검색 속도가 빠름 역색인을 활용하는 일반적인 색인 단계 1. 텍스트 추출 : 다양한 형식을 가진 문서에서 텍스트를 추출 2. 토큰 추출 : 자연어인 텍스트를 단어 ..

AI/NLP 2024.04.16

kakaobrain/pororo install in conda

kakaobrain/pororo # pytorch 1.6이 무조건 선행되어야함. python은 3.6 conda create -n test python=3.6 conda install pytorch==1.6.0 torchvision==0.7.0 cudatoolkit=10.1 -c pytorch # pororo git git clone https://github.com/kakaobrain/pororo.git ls cd pororo pip install -e . 필자는 pip install -e . 를 했더니 아래와 같은 오류가 발생하며 실행되지 않았다. ERROR: Command errored out with exit status 1: command: 'C:\Users\SangHyuk\.conda\envs..

AI/NLP 2024.03.20