Tag Archive

标签:SemDeDup

这里整理所有带有「SemDeDup」标签的文章,方便按主题快速回看。

SemDeDup

共 1 篇
主题归档 · 2026-04-27

大模型预训练数据准备中的去重算法:从 ExactSubstr 到 MinHash LSH 与语义去重

系统梳理大模型预训练数据去重的主流算法脉络,重点解释当前最常用、最有效的 MinHash LSH 近重复去重,以及 ExactSubstr、后缀数组、语义去重和 GPU 加速工具链的适用边界。
LLM预训练数据数据去重MinHashSemDeDup