WIL

  • 홈
  • 태그
  • 방명록

IR 1

역색인과 형태소 분석기

문서 색인 색인 (Indexing) - 키워드를 입력했을 때 문서를 빠르고 효율적으로 검색하기 위해 문서 집합을 미리 가공하는 작업 - 문서를 검색어 토큰들로 변환하여 데이터가 빠르게 추출될 수 있는 구조로 저장 - 이때 inverted index. 즉, 역색인 구조를 활용. 검색엔진의 색인 구조 - 역색인 (Inverted Index) - 단어가 key 값이 되고, 그 단어가 존재하는 문서들이 value - 특정 토큰이 어떤 문서와 연관되어 있는지 맵핑되어 있음 - 관련된 문서를 찾는 과정에서 키워드에 해당하는 문서만 추출할 수 있기 때문에 검색 속도가 빠름 역색인을 활용하는 일반적인 색인 단계 1. 텍스트 추출 : 다양한 형식을 가진 문서에서 텍스트를 추출 2. 토큰 추출 : 자연어인 텍스트를 단어 ..

AI/NLP 2024.04.16
이전
1
다음
더보기
프로필사진

공부한 것들을 기록합니다.

  • 분류 전체보기 (36)
    • AI (6)
      • DL (Deep Learning) (0)
      • CV (Computer Vision) (0)
      • NLP (4)
      • AD (Anomaly Detection) (1)
      • LG Aimers (1)
    • Project & Competiton (11)
      • Upstage x Fastcampus (10)
      • LGaimers (1)
    • Upstage AI Lab (9)
      • AI 기초 학습 : 딥러닝 (1)
      • AI 심화학습 : CV (5)
      • AI 심화학습 : NLP (3)
    • Certificate (1)
      • SQLD (0)
      • 빅분기 (1)
    • Github & Git (2)
    • Book (5)
      • 목적이 이끄는 삶 (3)
      • 컴퓨터 비전과 딥러닝 by 오일석 (0)
      • 컴퓨터 비전 by 오일석 (1)
      • Deep Learning from Scratch .. (1)
    • Career (0)
    • Tips (1)

Tag

Ai, 패스트캠퍼스, fastcampus, ComputerVision, UpstageAILab, 부트캠프, 인공지능개발자, UpsatgeAILab, 데이터분석, 데이터 분석, 데이터사이언스, NLP, 목적이이끄는삶, ML, 국비지원, 빅분기, 릭워렌, DS, UpStage, 머신러닝,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2026/03   »
일 월 화 수 목 금 토
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31

방문자수Total

  • Today :
  • Yesterday :

티스토리툴바