Skip to content

개선: 검색 엔진 — embedding 필수 구간 개선 (FiQA 0.132, MultiLongDoc 0.070) #2

@SonAIengine

Description

@SonAIengine

현황 (FTS only 벤치마크)

데이터셋 Corpus MRR 문제점
FiQA 57,638 0.132 대규모 corpus에서 FTS 한계
MultiLongDocRetrieval 6,176 0.070 장문서 + 추론형 질의에 FTS 무력
XPQARetrieval 889 0.167 짧은 상품 QA 어휘 미스매치
Ko-StrategyQA 9,251 0.317 대규모 한국어 corpus

Ablation 결과 인사이트

  • S7 Auto+Embed가 S0 Flat 대비 MRR +41~90% 개선 → embedding이 핵심
  • S8 LLM Full의 PhraseExtractor가 노이즈 유입 (MRR -6.8% vs S7)
  • Hebbian이 소규모에서 +18.4% 기여

TODO

  • embedding 기본 활성화 시 FiQA/MultiLongDoc MRR 재측정
  • PhraseExtractor 필터링 강화 — search 결과에서 _phrase 노드 제외 로직 검토
  • FTS + embedding hybrid weight 튜닝 (현재 50/50 → corpus 크기 기반 동적 조절)
  • 장문서 청킹 전략 — 2000자 잘라내기 대신 의미 단위 분할
  • PPR damping factor를 corpus 크기에 따라 동적 조절
  • NodeKind를 검색 랭킹에 반영 (S1 ablation 무효 → 구현 필요)

타겟

데이터셋 현재 MRR 목표 MRR
FiQA 0.132 0.40+ (embedding)
MultiLongDoc 0.070 0.30+ (chunking + embedding)
Ko-StrategyQA 0.317 0.50+ (embedding)

🤖 Generated with Claude Code

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type
    No fields configured for issues without a type.

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions