Aligning and Balancing ID and Multimodal Representations for Recommendation (2025)

Note

ID 표현과 Multimodal 표현 사이의 분포 불일치와 최적화 불균형을 Wasserstein 정렬 + Gradient Modulation으로 해결한 AB-Rec 프레임워크를 제안

  • 기존의 단순 ID+MM 결합은 오히려 ID-only보다 성능이 떨어지는 경우가 있었는데, 이를 distribution conflict와 convergence rate 차이라는 두 가지 원인으로 진단
  • Gradient Modulation이 Distribution Alignment보다 더 큰 성능 기여를 함
  • cold-start 구간에서도 개선 효과가 뚜렷하여, ID 피처가 부족한 상황을 MM이 보완하는 시너지를 설계 수준에서 실현함

Background

  • 대규모 산업 추천 시스템은 sparse ID 피처에 의존
    • 강력한 fitting 능력으로 user-item 패턴을 하지만, 아이템의 semantic content를 포착하지 못함
    • long-tail 아이템, data sparsity, cold-start 문제에 취약
  • 멀티모달 정보(이미지, 텍스트)를 ID와 결합하면 성능 향상이 기대되지만, 두 가지 핵심 문제가 존재

문제 1: Distribution Discrepancy (a)(b)

  • item 표현 공간과 user-item pair 표현 공간에서 ID와 MM의 분포를 t-SNE로 시각화
  • MM 표현 (파랑)과 ID 표현 (주황)이 완전히 다른 클러스터에 분리되어 있음 → 단순 결합 시 user-item mismatch 발생
  • MM 표현: 풍부한 semantic 정보 (visual + textual) ↔️ ID 표현: memory-based matching 패턴 저장

문제 2: Optimization Imbalance (c)(d)

  • ID-only vs MM-only 수렴 속도 비교 / ID+MM 결합 시 MM 기여도 추이
  • ID는 1 epoch 내에 수렴하는 반면 MM은 지속적으로 느리게 수렴 → ID+MM에서 ID가 그래디언트를 독차지하고, MM이 under-optimize됨

Method

  • AB-Rec
    • MLLM(freeze)로 MM 임베딩 생성 → BackBone1(ID)과 BackBone2(MM)를 각각 학습 → 2-Wasserstein alignment + Gradient Modulation 적용 → BCE loss

MLLM Fine-tuning (Multimodal Representation Generation)

  • Backbone: Qwen2VL-2B (freeze)
  • 특수 토큰 [Item_cls]를 입력 끝에 추가, 해당 hidden state를 아이템 임베딩으로 사용

  • 추천 태스크 특화 fine-tuning 3가지:

    1. Multimodal Content Alignment: 입력 텍스트의 20%를 [MASK]로 가림 + 이미지 정보 → 원본 텍스트 재구성 (BERT-style). visual-text 간 관계를 학습하도록 유도
    2. Metadata Processing: structured metadata(제목, 가격, 태그 등)를 입력 → detailed 텍스트 설명 생성. 아이템 메타데이터 이해력 강화
    3. Multimodal Robustness: textual + 이미지 토큰 일부를 masking한 입력 → 완전한 MM 표현 재구성. data augmentation 효과, 일반화 능력 향상
  • 유저 MM 표현 = 최근 k개 상호작용 아이템 MM 임베딩의 평균:

Distribution Alignment

  • ID 브랜치:
  • MM 브랜치:
  • 배치 내 두 분포 간 2-Wasserstein 거리 최소화:

  • 동시에 같은 user-item pair의 ID-MM 표현 간 코사인 거리를 최대화 → representation collapse 방지

    • Wasserstein 거리만 최소화하면 두 표현이 완전히 동일해질 수 있음. 이 경우 MM 표현이 ID의 복제가 되어 버려 complementary 정보를 잃음
    • 즉 두 표현이 분포는 비슷해지되, 같은 쌍에 대해서는 서로 다른 정보를 담게
  • 전체 alignment loss:

Gradient Modulation

  • 각 표현의 contribution score (단독 예측 기여도):

  • ID vs MM contribution 차이 비율:

  • (ID가 지배적일 때) ID의 gradient를 scale-down:

  • 업데이트 규칙:

  • 즉, ID가 MM보다 훨씬 많이 기여하고 있는 epoch에서는 ID의 학습 속도를 줄여 MM이 따라잡을 수 있도록 함. adaptive한 learning rate 조절과 유사한 효과

Experiments

데이터셋 및 설정

  • Baby(19K users, 7K items), Sports(35K, 18K), Electronics(192K, 63K), Industrial(KuaiShou 실 서비스, 174K users, 610K items, 6M interactions)
  • MLLM fine-tuning: Qwen2VL-2B, 5 epochs, batch 128, 8×A100
  • AB-Rec 추론: RTX 4090, TensorFlow 2.9.0, Adam optimizer
  • 하이퍼파라미터 탐색: α, β, η ∈ {0.1, …, 1.0}, batch ∈ {256, 512, 1024, 2048}, lr ∈ {1e-3, 1e-4, 1e-5}
  • 평가 지표: AUC (높을수록 좋음), LogLoss (낮을수록 좋음), Recall@K

Zero-Shot MM 표현 품질 평가

  • 추천 모델 없이 임베딩 유사도만으로 추천했을 때 결과를 본 것
    • 유저의 이력으로 MM 표현 만들고 마지막 실제 아이템을 맞히는지
  • Traditional(CNN+Transformer), untuned MLLM, AB-Rec(fine-tuned MLLM) 비교
  • AB-Rec이 R@20, R@50 모두에서 압도적으로 우위 (예: Baby R@20: 0.0052 → 0.0140 → 0.0276)
  • fine-tuning 전 MLLM 대비도 크게 개선 → 3가지 alignment task가 추천 특화 표현 품질을 실질적으로 향상

다양한 Backbone 비교

  • MLP, DCN, Fibinet, AutoInt 4가지 backbone에서 ID / MM / ID+MM / AB-Rec 비교
  • AB-Rec이 모든 backbone에서 최고 성능 달성
  • 소규모 데이터셋(Baby, Sports)에서는 ID+MM이 ID보다 낮은 경우도 있음 → 데이터가 적을수록 분포 충돌이 더 심각

SOTA 방법 비교

  • VBPR, FREEDOM, BM3, AlignRec vs AB-Rec
  • 4개 데이터셋 모두에서 AUC, LogLoss 최고 성능
  • Industrial AUC: AlignRec 0.8253 → AB-Rec 0.8300 (+0.0047)

Ablation Study

  • DA 제거(-DA): AUC 소폭 하락
  • CR 제거(-CR): AUC 소폭 하락
  • GM 제거(-GM): AUC 가장 큰 폭 하락
  • Gradient Modulation이 Distribution Alignment보다 성능에 더 중요한 역할. optimization imbalance가 distribution discrepancy보다 더 근본적인 문제임을 시사

심화 분석

Bucket Testing

  • G1(고빈도) ~ G5(저빈도) 아이템 그룹별 AUC
  • cold-start(G5) 구간에서 ID-only는 낮은 성능, MM-only가 상대적으로 강세
  • AB-Rec은 전 구간에서 최고 성능, 특히 G5에서 격차가 두드러짐

Hyperparameter

  • α=0.25, β=0.7, η=0.6이 최적
  • η(Gradient Modulation 강도) 변화에 의한 AUC 변동폭 > α, β 변화에 의한 변동폭 → GM 모듈의 sensitivity가 더 높음

Convergence

  • AB-Rec의 MM 기여도 곡선이 ID+MM 대비 훨씬 빠르게 수렴하고 높은 AUC 도달
  • GM이 수렴 속도 불균형을 효과적으로 해소함을 시각적으로 확인

Representation Visualization

  • AB-Rec 학습 후 ID-MM 표현의 분포가 Figure 1(b) 대비 훨씬 가깝게 정렬됨
  • Distribution Alignment 효과 시각적 검증

온라인 A/B 테스트

  • KuaiShou 비디오 플랫폼 실서비스 A/B 테스트
  • 단순 +MM 대비 AB-Rec이 전 지표에서 압도
  • short view는 두 방법 모두 소폭 감소 (-0.235%, -0.160%) → long-form 콘텐츠 소비 품질 향상에 집중되는 효과