Aligning and Balancing ID and Multimodal Representations for Recommendation (2025)
Note
ID 표현과 Multimodal 표현 사이의 분포 불일치와 최적화 불균형을 Wasserstein 정렬 + Gradient Modulation으로 해결한 AB-Rec 프레임워크를 제안
- 기존의 단순 ID+MM 결합은 오히려 ID-only보다 성능이 떨어지는 경우가 있었는데, 이를 distribution conflict와 convergence rate 차이라는 두 가지 원인으로 진단
- Gradient Modulation이 Distribution Alignment보다 더 큰 성능 기여를 함
- cold-start 구간에서도 개선 효과가 뚜렷하여, ID 피처가 부족한 상황을 MM이 보완하는 시너지를 설계 수준에서 실현함
Background
- 대규모 산업 추천 시스템은 sparse ID 피처에 의존
- 강력한 fitting 능력으로 user-item 패턴을 하지만, 아이템의 semantic content를 포착하지 못함
- → long-tail 아이템, data sparsity, cold-start 문제에 취약
- 멀티모달 정보(이미지, 텍스트)를 ID와 결합하면 성능 향상이 기대되지만, 두 가지 핵심 문제가 존재
-@Kuaishou/problems.png)
문제 1: Distribution Discrepancy (a)(b)
- item 표현 공간과 user-item pair 표현 공간에서 ID와 MM의 분포를 t-SNE로 시각화
- MM 표현 (파랑)과 ID 표현 (주황)이 완전히 다른 클러스터에 분리되어 있음 → 단순 결합 시 user-item mismatch 발생
- MM 표현: 풍부한 semantic 정보 (visual + textual) ↔️ ID 표현: memory-based matching 패턴 저장
문제 2: Optimization Imbalance (c)(d)
- ID-only vs MM-only 수렴 속도 비교 / ID+MM 결합 시 MM 기여도 추이
- ID는 1 epoch 내에 수렴하는 반면 MM은 지속적으로 느리게 수렴 → ID+MM에서 ID가 그래디언트를 독차지하고, MM이 under-optimize됨
Method
-@Kuaishou/architecture.png)
- AB-Rec
- MLLM(freeze)로 MM 임베딩 생성 → BackBone1(ID)과 BackBone2(MM)를 각각 학습 → 2-Wasserstein alignment + Gradient Modulation 적용 → BCE loss
MLLM Fine-tuning (Multimodal Representation Generation)
- Backbone: Qwen2VL-2B (freeze)
- 특수 토큰
[Item_cls]를 입력 끝에 추가, 해당 hidden state를 아이템 임베딩으로 사용
-
추천 태스크 특화 fine-tuning 3가지:
- Multimodal Content Alignment: 입력 텍스트의 20%를
[MASK]로 가림 + 이미지 정보 → 원본 텍스트 재구성 (BERT-style). visual-text 간 관계를 학습하도록 유도 - Metadata Processing: structured metadata(제목, 가격, 태그 등)를 입력 → detailed 텍스트 설명 생성. 아이템 메타데이터 이해력 강화
- Multimodal Robustness: textual + 이미지 토큰 일부를 masking한 입력 → 완전한 MM 표현 재구성. data augmentation 효과, 일반화 능력 향상
- Multimodal Content Alignment: 입력 텍스트의 20%를
-
유저 MM 표현 = 최근 k개 상호작용 아이템 MM 임베딩의 평균:
Distribution Alignment
- ID 브랜치:
- MM 브랜치:
- 배치 내 두 분포 간 2-Wasserstein 거리 최소화:
-
동시에 같은 user-item pair의 ID-MM 표현 간 코사인 거리를 최대화 → representation collapse 방지
- Wasserstein 거리만 최소화하면 두 표현이 완전히 동일해질 수 있음. 이 경우 MM 표현이 ID의 복제가 되어 버려 complementary 정보를 잃음
- 즉 두 표현이 분포는 비슷해지되, 같은 쌍에 대해서는 서로 다른 정보를 담게
-
전체 alignment loss:
Gradient Modulation
- 각 표현의 contribution score (단독 예측 기여도):
- ID vs MM contribution 차이 비율:
- (ID가 지배적일 때) ID의 gradient를 scale-down:
-
업데이트 규칙:
-
→ 즉, ID가 MM보다 훨씬 많이 기여하고 있는 epoch에서는 ID의 학습 속도를 줄여 MM이 따라잡을 수 있도록 함. adaptive한 learning rate 조절과 유사한 효과
Experiments
데이터셋 및 설정
- Baby(19K users, 7K items), Sports(35K, 18K), Electronics(192K, 63K), Industrial(KuaiShou 실 서비스, 174K users, 610K items, 6M interactions)
- MLLM fine-tuning: Qwen2VL-2B, 5 epochs, batch 128, 8×A100
- AB-Rec 추론: RTX 4090, TensorFlow 2.9.0, Adam optimizer
- 하이퍼파라미터 탐색: α, β, η ∈ {0.1, …, 1.0}, batch ∈ {256, 512, 1024, 2048}, lr ∈ {1e-3, 1e-4, 1e-5}
- 평가 지표: AUC (높을수록 좋음), LogLoss (낮을수록 좋음), Recall@K
Zero-Shot MM 표현 품질 평가
-@Kuaishou/zero-shot-rec-result.png)
- 추천 모델 없이 임베딩 유사도만으로 추천했을 때 결과를 본 것
- 유저의 이력으로 MM 표현 만들고 마지막 실제 아이템을 맞히는지
- Traditional(CNN+Transformer), untuned MLLM, AB-Rec(fine-tuned MLLM) 비교
- AB-Rec이 R@20, R@50 모두에서 압도적으로 우위 (예: Baby R@20: 0.0052 → 0.0140 → 0.0276)
- fine-tuning 전 MLLM 대비도 크게 개선 → 3가지 alignment task가 추천 특화 표현 품질을 실질적으로 향상
다양한 Backbone 비교
-@Kuaishou/backbone-comparison.png)
- MLP, DCN, Fibinet, AutoInt 4가지 backbone에서 ID / MM / ID+MM / AB-Rec 비교
- AB-Rec이 모든 backbone에서 최고 성능 달성
- 소규모 데이터셋(Baby, Sports)에서는 ID+MM이 ID보다 낮은 경우도 있음 → 데이터가 적을수록 분포 충돌이 더 심각
SOTA 방법 비교
-@Kuaishou/sota-methods-comparison.png)
- VBPR, FREEDOM, BM3, AlignRec vs AB-Rec
- 4개 데이터셋 모두에서 AUC, LogLoss 최고 성능
- Industrial AUC: AlignRec 0.8253 → AB-Rec 0.8300 (+0.0047)
Ablation Study
-@Kuaishou/ablation.png)
- DA 제거(-DA): AUC 소폭 하락
- CR 제거(-CR): AUC 소폭 하락
- GM 제거(-GM): AUC 가장 큰 폭 하락
- → Gradient Modulation이 Distribution Alignment보다 성능에 더 중요한 역할. optimization imbalance가 distribution discrepancy보다 더 근본적인 문제임을 시사
심화 분석
-@Kuaishou/comprehensive-analysis.png)
Bucket Testing
- G1(고빈도) ~ G5(저빈도) 아이템 그룹별 AUC
- cold-start(G5) 구간에서 ID-only는 낮은 성능, MM-only가 상대적으로 강세
- AB-Rec은 전 구간에서 최고 성능, 특히 G5에서 격차가 두드러짐
Hyperparameter
- α=0.25, β=0.7, η=0.6이 최적
- η(Gradient Modulation 강도) 변화에 의한 AUC 변동폭 > α, β 변화에 의한 변동폭 → GM 모듈의 sensitivity가 더 높음
Convergence
- AB-Rec의 MM 기여도 곡선이 ID+MM 대비 훨씬 빠르게 수렴하고 높은 AUC 도달
- GM이 수렴 속도 불균형을 효과적으로 해소함을 시각적으로 확인
Representation Visualization
- AB-Rec 학습 후 ID-MM 표현의 분포가 Figure 1(b) 대비 훨씬 가깝게 정렬됨
- Distribution Alignment 효과 시각적 검증
온라인 A/B 테스트
-@Kuaishou/online-result.png)
- KuaiShou 비디오 플랫폼 실서비스 A/B 테스트
- 단순 +MM 대비 AB-Rec이 전 지표에서 압도
- short view는 두 방법 모두 소폭 감소 (-0.235%, -0.160%) → long-form 콘텐츠 소비 품질 향상에 집중되는 효과