Why Mean Pooling Works: Quantifying Second-Order Collapse in Text Embeddings (2026)

Note

Mean pooling은 1차 통계(평균)만 보존하여 2차 통계(공분산)를 버리는 구조적 한계가 있는데, 실제로 contrastive fine-tuned 모델은 이 collapse에 강건하다는 것을 이론/실험으로 입증

  • SOCM(Second-Order Collapse by Mean pooling) 메트릭 제안: 평균 SOCM이 낮을수록 MTEB 성능이 높음 (Spearman ρ = -0.678)
  • Fine-tuning 후 토큰 임베딩이 텍스트 내에서 concentrate되어 2차 통계 차이(dΣ)가 자연스럽게 줄어든다는 메커니즘 규명

Background

  • Mean pooling의 구조적 한계

    • 토큰 임베딩 리스트 를 평균해 text embedding 생성
    • 이 과정에서 1차 통계(평균)만 살아남고, 2차 통계(공분산 )는 버려짐
    • 분포가 다른 두 텍스트가 비슷한 text embedding으로 collapse될 수 있음
    • 그럼에도 실용적 관점에서 mean pooling은 계산 효율 + 경험적 성능으로 선호되어왔음 -> 왜 괜찮았던 걸까?
  • Collapse 발생 조건

    • Collapse 발생: AND
      • = 평균은 같은데 퍼짐이 다른 경우, mean pooling 시 구분 안 됨.
    • Collapse 미발생 케이스:
      • (1차 통계 자체가 다름)
      • AND (둘 다 유사 → 실제로 비슷한 텍스트)

Method

SOCM (Second-Order Collapse by Mean pooling) 메트릭

  • 정의:

  • : 1차 통계 거리 (scaled squared Euclidean distance, )
    • “mean-pool했을 때 얼마나 비슷해지는가”

  • : 2차 통계 거리 (scaled Bures-Wasserstein distance, )
    • “얼마나 다른 텍스트인가”

  • 두 가지는 곱해지므로, 둘 다 클 때만 SOCM이 커지는 구조(즉 둘이 매우 다른 텍스트인데 평균내면 비슷해질수록)

  • Wasserstein distance 분해 기반:

    • 토큰 임베딩 분포를 Gaussian 로 근사
    • (L2-Wasserstein 거리의 1차+2차 분해)
    • Gaussian 근사 선택 이유: 고차원 Wasserstein 계산의 tractability, FID 등 기존 사례

  • - 2D 공간에서 SOCM 값 시각화
    • 좌상단(1차 유사, 2차 상이) → SOCM 높음 / 나머지 세 코너 → SOCM 낮음 (위에서 정의된 collapse의 발생/미발생 케이스를 정확히 반영하고 있으므로 적절한 메트릭이다 라는 논리)

Concentration Theory

  • Attention은 기본적으로 각 토큰이 다른 토큰들의 정보를 가져와 평균내는 연산으로 이 자체가 토큰들을 뭉치게 하는 경향 있음

  • 특히 Contrastive learning은 mean-pooled text embedding을 supervise하므로 이게 잘 작동하려면 토큰들이 mean 주변에 모여있어야(mean이 토큰들을 잘 대표해야) 하므로, 학습 과정에서 자연히 토큰들이 mean 주변으로 집중화된다는 것

    • 사실 기본적으로는 contrastive learning은 negative pair끼리 멀어져야 하므로 를 늘리는 방향으로도 SOCM을 줄이기는 할 것인데, 아래 정리들은 를 줄이는 경로에 관한 것.
  • 세팅: 단일 헤드 self-attention 블록 기반 simplified Transformer

    • Attention 출력:
    • Residual:
    • Per-token transform:
    • Spread 정의:
  • Theorem 1: 이면 final token embedding의 normalized spread는 (r, C → 0)

    • : attention+projection의 spread 수축 지표
    • : residual에서 input spread 영향 비율
    • : per-token transform의 relative spread 증폭 비율
    • = Attention이 토큰을 뭉치게 하고 residual이 그걸 방해하지 않으면, 최종 토큰들은 mean 주변에 집중된다.
  • Theorem 2: 이면

    • 토큰이 concentrate되면 within-text 공분산 가 작아지고 → 가 작아지고 → SOCM이 작아짐

Experiments

실험 설정

  • 데이터: Wikipedia 1M 문장에서 1,000개 샘플 → 499,500 쌍 생성 (추가로 MS MARCO도 검증)
  • 모델: BERT/MiniLM/MPNet/nomic-bert-2048 backbone + 각각의 contrastive fine-tuned 버전
    • E5base, GTEbase, Unsup-SimCSE (BERT 계열)
    • E5small, GTEsmall, all-MiniLM-L12-v2 (MiniLM 계열)
    • all-mpnet-base-v2 (MPNet 계열)
    • nomic-embed-text-v1.5 (nomic-bert 계열)

Fine-tuned 모델의 SOCM 강건성

  • Wikipedia 기준 평균 SOCM 비교
  • Fine-tuned 모델이 backbone 대비 대부분 SOCM 크게 감소
    • BERT: 0.396 → GTEbase: 0.018 (-0.378), E5base: 0.029 (-0.367)
    • 예외: all-MiniLM-L12-v2는 MiniLM 대비 소폭 증가 (+0.071)
  • GTEbase vs BERT 정성적 예시: BERT SOCM=0.618 vs GTEbase SOCM=0.024 (같은 텍스트 쌍)

Concentration 메커니즘 검증

  • λ (attention+projection 수축): BERT/GTEbase 모두 전 레이어에서 λ < 1 → fine-tuning 전후 모두 attention이 spread를 수축시킴
  • r (residual에서 input spread 영향): GTEbase가 BERT보다 후반 레이어에서 낮음, 최종 레이어에서 0에 가까워짐
  • C (per-token transform spread 증폭): 전반적 유사하나 GTEbase가 후반 레이어에서 소폭 낮음
  • S(X)/||μ(X)||² (최종 concentration): GTEbase가 BERT보다 현저히 낮음, 특히 후반 레이어
  • 해석: Attention은 fine-tuning 전후 모두 수축 역할 / Residual connection에서 input spread 영향이 fine-tuning 후 작아지는 것이 핵심 차이

SOCM과 Downstream 성능 상관관계

  • 11개 모델에 대한 SOCM vs MTEB (eng, v2) 스코어 산점도
  • Spearman ρ = -0.678 (p=0.015): SOCM 낮을수록 MTEB 높음
  • S(X)/||μ(X)||² vs MTEB: ρ = -0.622 (더 낮음)
    • SOCM이 더 나은 이유: inter-text separation(dμ)도 반영하기 때문 - contrastive learning이 음성 쌍 분리를 촉진하는 효과를 포착