Tag Archive
标签:MinHash
这里整理所有带有「MinHash」标签的文章,方便按主题快速回看。
首页
每日调研
论文精读
主题归档
实验分析
MinHash
共 1 篇
主题归档 · 2026-04-27
大模型预训练数据准备中的去重算法:从 ExactSubstr 到 MinHash LSH 与语义去重
系统梳理大模型预训练数据去重的主流算法脉络,重点解释当前最常用、最有效的 MinHash LSH 近重复去重,以及 ExactSubstr、后缀数组、语义去重和 GPU 加速工具链的适用边界。
LLM
预训练数据
数据去重
MinHash
SemDeDup