专门针对翻译任务优化的多语言模型Tower

52次阅读

共计 1125 个字符，预计需要花费 3 分钟才能阅读完成。

Tower 是一个经过针对翻译相关任务优化的、拥有 70 亿参数的多语言大型语言模型（LLM）。Tower 是基于 LLaMA2 构建的，目前支持 10 种语言：英语、德语、法语、西班牙语、中文、葡萄牙语、意大利语、俄语、韩语和荷兰语。它在翻译任务上的表现与最先进模型相当，甚至超过了 GPT3.5，以及更大的开源模型，如 ALMA 13B 和 LLaMA-2 70B。Tower 还掌握了许多其他与翻译相关的任务，包括预翻译任务（如语法错误纠正）和翻译及评估任务（如机器翻译（MT）、自动后期编辑（APE）和翻译排序）。

详细介绍：https://unbabel.com/announcing-tower-an-open-multilingual-llm-for-translation-related-tasks

Tower 模型的发布包括两个版本：TowerBase 和 TowerInstruct，TowerInstruct 是 Tower 模型的一个变体，它特别适合在零样本的情况下执行翻译和相关任务，以及其他多语言任务。这意味着 TowerInstruct 能够直接应用于新的任务，而无需针对那些任务进行额外的训练或微调。

TowerBase 模型：https://huggingface.co/Unbabel/TowerBase-7B-v0.1
TowerInstruct 模型：https://huggingface.co/Unbabel/TowerInstruct-7B-v0.1
TowerBlocks 数据：https://huggingface.co/datasets/Unbabel/TowerBlocks-v0.1
TowerEval 地址：https://github.com/deep-spin/tower-eval

主要功能特点：

多语言支持：Tower 模型支持 10 种不同语言—英语、德语、法语、西班牙语、中文、葡萄牙语、意大利语、俄语、韩语和荷兰语，这与其他主要以英语数据构建的开源模型不同。
翻译相关任务：模型专门针对翻译及相关任务进行了优化，能够处理包括语法改进、机器翻译、自动后编辑等。
优越的性能：Tower 在翻译任务上超越了现有的最先进模型，如 GPT-3.5、Mixtral 8x7B 和 LLaMA-2 70B。
多任务能力：模型在自动后编辑、命名实体识别、源错误校正等任务上表现突出，部分任务甚至超过了 GPT-4。

模型训练情况：