KaLM-Embedding：基于Qwen2-0.5B的多语言嵌入模型系列

浏览：407次阅读

共计 958 个字符，预计需要花费 3 分钟才能阅读完成。

文章目录[隐藏]

数据驱动的设计
技术特性与优势
性能与基准测试结果

在自然语言处理（NLP）领域，随着多语言应用和跨语言任务需求的增长，强大的嵌入模型变得尤为重要。这些模型是检索增强生成（RAG）系统和其他 AI 解决方案的基础。然而，现有模型往往面临数据噪声大、领域覆盖有限及多语言数据集管理效率低下等问题。为解决这些问题，哈尔滨工业大学（深圳）的研究团队推出了KaLM-Embedding，这是一个强调数据质量和创新训练方法的多语言嵌入模型，并以 MIT 许可证开源发布。

GitHub：https://github.com/HITsz-TMG/KaLM-Embedding
模型：https://huggingface.co/collections/HIT-TMG/kalm-embedding-67316afa4c56f4fc1f58764b

KaLM-Embedding 基于 Qwen 2-0.5B 构建，是一款设计紧凑且高效的多语言嵌入模型，特别适合资源受限的实际应用场景。该模型的核心优势在于其数据驱动的设计，包含 55 万条合成数据样本，通过角色技术生成，确保了数据的多样性和相关性。此外，采用了 排序一致性过滤 技术来去除噪声数据和假阴性样本，从而提高训练数据的质量和鲁棒性。

KaLM-Embedding 结合了多种先进技术，提供强大的多语言文本嵌入能力。其中，Matryoshka 表示学习 支持灵活调整嵌入维度（从 64 到 896 维），允许根据不同的应用场景进行优化。训练过程分为两个阶段：弱监督预训练和监督微调，使用超过 70 个涵盖多种语言和领域的多样化数据集。采用的 半同质任务批处理 策略进一步优化了训练效果。

基于 Qwen 2-0.5B 架构，KaLM-Embedding 相较于传统的 BERT 类模型，在嵌入任务中展现了更强的适应性。

在 大规模文本嵌入基准测试（MTEB）中，KaLM-Embedding 取得了平均 64.53 分的成绩，树立了参数量少于 10 亿模型的新标杆。尤其在中文和英文 MTEB 上分别获得了 64.13 和 64.94 的高分，显示了其出色的多语言处理能力。即使对于那些微调数据有限的语言，模型也展示了强大的泛化能力。

消融研究揭示了 Matryoshka 表示学习和排序一致性过滤对性能提升的重要性，同时指出了未来改进的方向，如优化低维嵌入以进一步提高效果。

KaLM-Embedding：基于Qwen2-0.5B的多语言嵌入模型系列

数据驱动的设计

技术特性与优势

性能与基准测试结果

相关文章

相关文章

相关文章