Warmer for Less: A Cost-Efficient Strategy for Cold-Start Recommendations at Pinterest (2025)

Note

Pinterest Related Pins cold-start 아이템 추천 개선을 위한 3가지 경량 기법 제안

  • 파라미터 +5% 이내로 fresh Pin 참여도 ~10% 향상
  • cold-start 문제를 feature underfit / score bias / label scarcity로 분리해 각각 독립 기법으로 해결함
  • 세 기법 모두 plug-and-play. 기존 아키텍처 수정 없이 적용 가능

Background

  • Pinterest: 5.7억 유저, 매주 15억 Pin 저장
  • Ranking model은 historical user engagement 데이터로 학습 → warm(인기) 아이템에 편향
  • CS 아이템 = 학습 데이터에 드물게 등장하는 신규 아이템 (여기서는 생성 후 28일 이내)

핵심 어려움:

  1. 컴퓨팅 제약: CS 아이템은 소수이므로, 개선 비용이 낮아야 함
  2. historical feature 부재: CS 아이템은 non-historical(content/attribute) feature만 존재하는데, 모델이 이를 덜 중요하게 학습함
  3. 예측 점수 편향: CS positive 아이템의 점수가 non-CS 대비 8-14% 낮게 예측됨
  4. 레이블 희소성: CS 아이템이 노출 자체가 적어 학습 신호도 부족

  • (a) historical vs. non-historical feature를 제거했을 때 ΔPR-AUC 비율 → historical 기여가 압도적으로 큼
  • (b) 학습 중 non-historical / historical gradient ℓ2-norm 비율이 1 미만 → 모델 업데이트가 historical signal에 지배됨
  • (c) warm vs. cold 예측 점수 분포 비교 → cold positive 아이템이 일관적으로 낮게 예측됨

Method

아키텍처 개요

  • 입력: Query Pin features, Candidate Pin features, User features, Transformer-based user sequence embedding
  • Summarization module → feature crossing 학습
  • DCNv2 → high-order feature interaction 학습
  • MLP → 차원 축소 후 단일 임베딩으로 통합
  • MMoE → multi-task(grid-click, save, click) 예측 헤드

기본 forward pass:

최종 랭킹 점수:

  • : 비즈니스 목적에 따른 task별 utility weight vector

1. Residual Connection for Non-Historical Features

  • : gradient 분석 결과 non-historical feature 업데이트가 historical에 비해 일관되게 작음. extra embedding tower로 해결하는 기존 방법(ALDI 등)은 파라미터 28% 이상 증가.
  • 방법: non-historical feature를 interaction module을 건너뛰어 prediction module F에 직접 연결하는 residual path 추가.

  • 파라미터 증가: < 5% (non-historical feature 차원 축소용 MLP 레이어 하나 추가)
  • auxiliary prediction head나 복잡한 hyperparameter tuning 불필요

2. Score Regularization (ScoreReg) via MMD

  • : 모델이 warm 아이템에 높은 점수를 부여하도록 편향됨. post-processing이나 sample re-weighting은 추가 데이터나 전체 성능 희생이 필요.
  • 방법: warm/cold 예측 점수 분포 간 Maximum Mean Discrepancy(MMD)를 penalty로 추가.

  • 추가 파라미터 없음, serving cost/latency 변화 없음
  • 특정 sampling 기법 불필요 (mini-batch 내 warm/cold를 그대로 사용)

3. Manifold Mixup

  • : CS 아이템이 warm 아이템과 다른 분포를 따른다는 domain generalization 관점으로 접근. 데이터 증강 설계는 비용이 크고 trade-off가 있음.
  • 방법: interaction module 출력 embedding에 linear interpolation을 적용해 새로운 학습 인스턴스 생성.

  • 는 mini-batch에서 무작위 선택 (warm-cold 강제 mixing 안 함 → cold 부족으로 diversity 저하 방지)
  • 원본 샘플 + mixed 샘플을 함께 학습 (mixed만 사용 시 성능 저하)

4. 전체 학습 목표

  • , (경험적 튜닝)
  • 학습 데이터: 27일, 1 epoch

효과

  • (a),(b) Residual Connection for Non-Historical Features
    • non-historical feature 제거 시 ΔPR-AUC 분포가 왼쪽으로 이동 → feature importance 증가
    • 학습 중 non-historical gradient 비율이 일관되게 증가
  • (c) Score Regularization
    • positive grid-click 예측 갭: 13.65% → 0.53%
    • positive/negative 모두에서 편향 완화

  • PCA 분석: mixup 모델의 feature space가 더 high-rank → 더 분산된 표현, dominant item에 대한 암기를 억제함
    • low-rank feature space에서는 trivial pattern을 암기해서 generalization을 방해한다는 기존 연구와 일치
  • 하위 ranked Pins에서 효과 집중 → position bias 완화

Experiments

Online

fresh Pins (<28일내) 참여도:

cold-start users:

  • Homefeed/Search save도 개선 → CS 유저의 활성화가 user sequence를 풍부하게 하는 positive feedback loop