Skip to content

LongMemEval 개선 로드맵 — 20.8% → 60%+ 목표 (Agentic Retrieval) #5

@SonAIengine

Description

@SonAIengine

현황

LongMemEval-S 초기 벤치마크 결과 (50문항, Qwen3.5-27B):

유형 Accuracy Session Recall
single-session-assistant 75.0% 높음
single-session-user 25.0% 중간
knowledge-update 25.0% 중간
multi-session 0.0% 낮음
temporal-reasoning 0.0% 낮음
single-session-preference 0.0% 중간
전체 20.8% 79.5%

비교: Supermemory ASMR 98.6%, GPT-4o 64%

핵심 발견

  • Session Recall 79.5% → 검색은 양호, LLM 답변 생성이 병목
  • multi-session / temporal 유형이 0% → 이 두 유형만 해결하면 대폭 상승

개선 로드맵

Phase 1: Retrieval 개선 (목표 40%+)

  • multi-session 검색: 질문 분해 → 여러 검색 → 결과 합산 (Supermemory의 3 search agent 아이디어)
  • temporal 검색: 날짜 파싱 + 시간 범위 쿼리 확장 ("2 days after X" → 날짜 계산)
  • knowledge-update: 같은 토픽 최신 세션 우선 (timestamp 기반 recency boost)
  • 검색 limit 15 → 20 + context 10 → 15로 확대

Phase 2: Agentic Retrieval (목표 55%+)

  • 3-axis search agent 구현 (ASMR 아이디어 적용):
    • Agent 1: 직접 사실 검색 (exact fact lookup)
    • Agent 2: 맥락/관련 정보 검색 (contextual expansion)
    • Agent 3: 시간 순서 재구성 (temporal timeline)
  • 검색 결과 병합 + 중복 제거 + 시간순 정렬
  • AgentSearch에 LongMemEval 전용 intent 추가

Phase 3: 답변 생성 개선 (목표 60%+)

  • Specialist prompt: 유형별 특화 프롬프트 (counting, temporal, preference)
  • Chain-of-Note: 검색 결과 각각에 대해 관련성 메모 → 최종 답변
  • Abstention 처리: 정보 부족 시 "I don't know" 대신 구체적 이유 제시

Phase 4: 고급 기능 (목표 75%+)

  • 인덱싱 단계 Observer Agent: 세션 인입 시 6축 추출 (개인정보/선호/이벤트/시간/업데이트/어시스턴트)
  • Fact-augmented key expansion: 각 turn에서 핵심 사실 추출하여 검색 키워드 확장
  • Ensemble answering: 여러 specialist가 독립 답변 → majority voting

참고

🤖 Generated with Claude Code

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type
    No fields configured for issues without a type.

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions