문서 색인 색인 (Indexing) - 키워드를 입력했을 때 문서를 빠르고 효율적으로 검색하기 위해 문서 집합을 미리 가공하는 작업 - 문서를 검색어 토큰들로 변환하여 데이터가 빠르게 추출될 수 있는 구조로 저장 - 이때 inverted index. 즉, 역색인 구조를 활용. 검색엔진의 색인 구조 - 역색인 (Inverted Index) - 단어가 key 값이 되고, 그 단어가 존재하는 문서들이 value - 특정 토큰이 어떤 문서와 연관되어 있는지 맵핑되어 있음 - 관련된 문서를 찾는 과정에서 키워드에 해당하는 문서만 추출할 수 있기 때문에 검색 속도가 빠름 역색인을 활용하는 일반적인 색인 단계 1. 텍스트 추출 : 다양한 형식을 가진 문서에서 텍스트를 추출 2. 토큰 추출 : 자연어인 텍스트를 단어 ..