탐색적 검색을 유도하는 Query Recommendation @Spotify

Encouraging Exploration in Spotify Search through Query Recommendations (2024)

배경 및 동기

Spotify 검색은 전통적으로 known-item search에 최적화된 instant search 시스템
- 키입력마다 결과를 보여주는 방식 → 짧은 prefix로도 원하는 곡/아티스트를 찾을 수 있었음
- 예: “stair” 입력 후 “Stairway To Heaven” 클릭 → query가 완성되지 않아도 목적 달성
- 결과적으로 search log가 대부분 몇 글자짜리 짧은 prefix로 채워짐
카탈로그 확장으로 인한 새로운 도전
- Music → Podcast → Audiobook 등 콘텐츠 유형 다변화
- prefix query “new”만 봐서는 music intent인지 news podcast intent인지 불분명
- 유저가 정확한 검색 의도를 표현하기 어려워짐
탐색적 검색(exploratory search)의 필요성
- “new indie releases” 같은 open-ended 쿼리는 잠재적으로 관련 항목이 매우 많음
- Personalization 기반 추천 패러다임과 결합해야 효과적으로 처리 가능
- 새로운 콘텐츠 타입과 creators에게 distribution 기회를 부여하는 것도 목표

5가지 방식을 iterative하게 추가하며 각 방식의 효과를 온라인 A/B 테스트로 검증

카탈로그 title 추출: 아티스트명, 곡명, 플레이리스트명, 팟캐스트명 등에서 직접 추출
Search log 마이닝: 로그에서 완성된 쿼리를 감지하는 classifier 활용
- Instant search 특성상 로그 대부분이 incomplete query → cold-start 문제 존재
- Complete query classifier로 완성된 쿼리만 필터링
유저 개인 데이터: 본인의 최근 검색어 및 개인 items 활용
메타데이터 확장 규칙: 예: [아티스트명] + covers 형태의 규칙 기반 생성
LLM 기반 synthetic query 생성
- Doc2query, InPars 기법 활용 → 자연어 쿼리 변형 후보 생성
- 탐색 검색 지원 + retrievability bias 감소 효과도 기대
  - → 인기 콘텐츠와 niche 콘텐츠 간 노출 격차 완화

Point-wise ranker로 여러 소스의 후보를 단일 ranked list로 통합
학습 레이블: 클릭된 추천 쿼리 중 downstream 성공 액션(stream, save, playlist 추가 등)으로 이어진 것 → positive / 나머지 → negative
Features:
- 어휘 특성: prefix query 통계, 추천 쿼리 통계, lexical features
- 검색 특성: retrieval scores, query entropy, 해당 쿼리가 이어지는 콘텐츠 유형
- 유저 특성: user-level features, 소비 패턴
- 개인화: 유저와 쿼리 후보의 vector representation 활용
  - 예: 뉴스를 자주 듣는 유저는 prefix “new” 입력 시 “new releases for me” 보다 “news podcast” 추천 가능성 높음
Ablation: ranker 제거 시 추천 쿼리 클릭 -20% → 순위 모델의 중요성 확인

기존 검색 지표(prefix와 reformulation을 sequence로 묶는 방식)는 QR 도입 이후 부적합
- QR이 query 분포 자체를 바꿔버리기 때문
탐색 검색 성공을 측정하는 새로운 query-based 지표 개발 필요
- 예: 타이핑한 글자 대비 삭제 횟수
탐색 쿼리의 open-ended 특성상 쿼리만 따로 분리해서 평가하기 어려움