비용 효율적인 Cold-Start 추천 @Pinterest

Warmer for Less: A Cost-Efficient Strategy for Cold-Start Recommendations at Pinterest (2025)

Note

Pinterest Related Pins cold-start 아이템 추천 개선을 위한 3가지 경량 기법 제안

파라미터 +5% 이내로 fresh Pin 참여도 ~10% 향상

cold-start 문제를 feature underfit / score bias / label scarcity로 분리해 각각 독립 기법으로 해결함

세 기법 모두 plug-and-play. 기존 아키텍처 수정 없이 적용 가능

Background

Pinterest: 5.7억 유저, 매주 15억 Pin 저장
Ranking model은 historical user engagement 데이터로 학습 → warm(인기) 아이템에 편향
CS 아이템 = 학습 데이터에 드물게 등장하는 신규 아이템 (여기서는 생성 후 28일 이내)

핵심 어려움:

컴퓨팅 제약: CS 아이템은 소수이므로, 개선 비용이 낮아야 함
historical feature 부재: CS 아이템은 non-historical(content/attribute) feature만 존재하는데, 모델이 이를 덜 중요하게 학습함
예측 점수 편향: CS positive 아이템의 점수가 non-CS 대비 8-14% 낮게 예측됨
레이블 희소성: CS 아이템이 노출 자체가 적어 학습 신호도 부족

(a) historical vs. non-historical feature를 제거했을 때 ΔPR-AUC 비율 → historical 기여가 압도적으로 큼
(b) 학습 중 non-historical / historical gradient ℓ2-norm 비율이 1 미만 → 모델 업데이트가 historical signal에 지배됨
(c) warm vs. cold 예측 점수 분포 비교 → cold positive 아이템이 일관적으로 낮게 예측됨

Method

아키텍처 개요

입력: Query Pin features, Candidate Pin features, User features, Transformer-based user sequence embedding
Summarization module → feature crossing 학습
DCNv2 → high-order feature interaction 학습
MLP → 차원 축소 후 단일 임베딩으로 통합
MMoE → multi-task(grid-click, save, click) 예측 헤드

기본 forward pass: $z = I ([x^{h}; x^{nh}]), \hat{y} = F (z)$

최종 랭킹 점수: $s = \hat{y} \cdot u$

$u$ : 비즈니스 목적에 따른 task별 utility weight vector

1. Residual Connection for Non-Historical Features

왜: gradient 분석 결과 non-historical feature 업데이트가 historical에 비해 일관되게 작음. extra embedding tower로 해결하는 기존 방법(ALDI 등)은 파라미터 28% 이상 증가.
방법: non-historical feature를 interaction module을 건너뛰어 prediction module F에 직접 연결하는 residual path 추가.

$\hat{y} = F ([z; x^{nh}])$

파라미터 증가: < 5% (non-historical feature 차원 축소용 MLP 레이어 하나 추가)
auxiliary prediction head나 복잡한 hyperparameter tuning 불필요

2. Score Regularization (ScoreReg) via MMD

왜: 모델이 warm 아이템에 높은 점수를 부여하도록 편향됨. post-processing이나 sample re-weighting은 추가 데이터나 전체 성능 희생이 필요.
방법: warm/cold 예측 점수 분포 간 Maximum Mean Discrepancy(MMD)를 penalty로 추가.

$L_{MM D} = \frac{1}{∣ D _{w} ∣} \sum_{D_{w}} \hat{y} - \frac{1}{∣ D _{c} ∣} \sum_{D_{c}} \hat{y}^{2}$

추가 파라미터 없음, serving cost/latency 변화 없음
특정 sampling 기법 불필요 (mini-batch 내 warm/cold를 그대로 사용)

3. Manifold Mixup

왜: CS 아이템이 warm 아이템과 다른 분포를 따른다는 domain generalization 관점으로 접근. 데이터 증강 설계는 비용이 크고 trade-off가 있음.
방법: interaction module 출력 embedding에 linear interpolation을 적용해 새로운 학습 인스턴스 생성.

$z_{mi x e d} = λ \cdot z_{i} + (1 - λ) \cdot z_{j}, λ \sim Beta (α, α)$ $y_{mi x e d} = λ \cdot y_{i} + (1 - λ) \cdot y_{j}$

$i \neq = j$ 는 mini-batch에서 무작위 선택 (warm-cold 강제 mixing 안 함 → cold 부족으로 diversity 저하 방지)
원본 샘플 + mixed 샘플을 함께 학습 (mixed만 사용 시 성능 저하)

4. 전체 학습 목표

$L_{f ina l} = L_{BCE} (\hat{y}, y) + λ_{1} L_{BCE} (\hat{y}_{mi x}, y_{mi x}) + λ_{2} L_{MM D} (\hat{y}, y)$

$λ_{1} = 0.2$ , $λ_{2} = 0.1$ (경험적 튜닝)
학습 데이터: 27일, 1 epoch

효과

(a),(b) Residual Connection for Non-Historical Features
- non-historical feature 제거 시 ΔPR-AUC 분포가 왼쪽으로 이동 → feature importance 증가
- 학습 중 non-historical gradient 비율이 일관되게 증가
(c) Score Regularization
- positive grid-click 예측 갭: 13.65% → 0.53%
- positive/negative 모두에서 편향 완화

PCA 분석: mixup 모델의 feature space가 더 high-rank → 더 분산된 표현, dominant item에 대한 암기를 억제함
- low-rank feature space에서는 trivial pattern을 암기해서 generalization을 방해한다는 기존 연구와 일치
하위 ranked Pins에서 효과 집중 → position bias 완화

Experiments

Online

fresh Pins (<28일내) 참여도:

cold-start users:

Homefeed/Search save도 개선 → CS 유저의 활성화가 user sequence를 풍부하게 하는 positive feedback loop

비용 효율적인 Cold-Start 추천 @Pinterest

Background

Method

아키텍처 개요

1. Residual Connection for Non-Historical Features

2. Score Regularization (ScoreReg) via MMD

3. Manifold Mixup

4. 전체 학습 목표

효과

Experiments

Online

Graph View

Table of Contents