共计 958 个字符,预计需要花费 3 分钟才能阅读完成。
在自然语言处理(NLP)领域,随着多语言应用和跨语言任务需求的增长,强大的嵌入模型变得尤为重要。这些模型是检索增强生成(RAG)系统和其他 AI 解决方案的基础。然而,现有模型往往面临数据噪声大、领域覆盖有限及多语言数据集管理效率低下等问题。为解决这些问题,哈尔滨工业大学(深圳)的研究团队推出了KaLM-Embedding,这是一个强调数据质量和创新训练方法的多语言嵌入模型,并以 MIT 许可证开源发布。
- GitHub:https://github.com/HITsz-TMG/KaLM-Embedding
- 模型:https://huggingface.co/collections/HIT-TMG/kalm-embedding-67316afa4c56f4fc1f58764b
数据驱动的设计
KaLM-Embedding 基于 Qwen 2-0.5B 构建,是一款设计紧凑且高效的多语言嵌入模型,特别适合资源受限的实际应用场景。该模型的核心优势在于其数据驱动的设计,包含 55 万条合成数据样本,通过角色技术生成,确保了数据的多样性和相关性。此外,采用了 排序一致性过滤 技术来去除噪声数据和假阴性样本,从而提高训练数据的质量和鲁棒性。
技术特性与优势
KaLM-Embedding 结合了多种先进技术,提供强大的多语言文本嵌入能力。其中,Matryoshka 表示学习 支持灵活调整嵌入维度(从 64 到 896 维),允许根据不同的应用场景进行优化。训练过程分为两个阶段:弱监督预训练和监督微调,使用超过 70 个涵盖多种语言和领域的多样化数据集。采用的 半同质任务批处理 策略进一步优化了训练效果。
基于 Qwen 2-0.5B 架构,KaLM-Embedding 相较于传统的 BERT 类模型,在嵌入任务中展现了更强的适应性。
性能与基准测试结果
在 大规模文本嵌入基准测试(MTEB)中,KaLM-Embedding 取得了平均 64.53 分的成绩,树立了参数量少于 10 亿模型的新标杆。尤其在中文和英文 MTEB 上分别获得了 64.13 和 64.94 的高分,显示了其出色的多语言处理能力。即使对于那些微调数据有限的语言,模型也展示了强大的泛化能力。
消融研究揭示了 Matryoshka 表示学习和排序一致性过滤对性能提升的重要性,同时指出了未来改进的方向,如优化低维嵌入以进一步提高效果。
相关文章
相关文章
