专门针对翻译任务优化的多语言模型Tower

52次阅读
没有评论

共计 1125 个字符,预计需要花费 3 分钟才能阅读完成。

Tower 是一个经过针对翻译相关任务优化的、拥有 70 亿参数的多语言大型语言模型(LLM)。Tower 是基于 LLaMA2 构建的,目前支持 10 种语言:英语、德语、法语、西班牙语、中文、葡萄牙语、意大利语、俄语、韩语和荷兰语。它在翻译任务上的表现与最先进模型相当,甚至超过了 GPT3.5,以及更大的开源模型,如 ALMA 13B 和 LLaMA-2 70B。Tower 还掌握了许多其他与翻译相关的任务,包括预翻译任务(如语法错误纠正)和翻译及评估任务(如机器翻译(MT)、自动后期编辑(APE)和翻译排序)。

详细介绍:https://unbabel.com/announcing-tower-an-open-multilingual-llm-for-translation-related-tasks

Tower 模型的发布包括两个版本:TowerBase 和 TowerInstruct,TowerInstruct 是 Tower 模型的一个变体,它特别适合在零样本的情况下执行翻译和相关任务,以及其他多语言任务。这意味着 TowerInstruct 能够直接应用于新的任务,而无需针对那些任务进行额外的训练或微调。

TowerBase 模型:https://huggingface.co/Unbabel/TowerBase-7B-v0.1

TowerInstruct 模型:https://huggingface.co/Unbabel/TowerInstruct-7B-v0.1

TowerBlocks 数据:https://huggingface.co/datasets/Unbabel/TowerBlocks-v0.1

TowerEval 地址:https://github.com/deep-spin/tower-eval

主要功能特点:

  • 多语言支持:Tower 模型支持 10 种不同语言—英语、德语、法语、西班牙语、中文、葡萄牙语、意大利语、俄语、韩语和荷兰语,这与其他主要以英语数据构建的开源模型不同。
  • 翻译相关任务:模型专门针对翻译及相关任务进行了优化,能够处理包括语法改进、机器翻译、自动后编辑等。
  • 优越的性能:Tower 在翻译任务上超越了现有的最先进模型,如 GPT-3.5、Mixtral 8x7B 和 LLaMA-2 70B。
  • 多任务能力:模型在自动后编辑、命名实体识别、源错误校正等任务上表现突出,部分任务甚至超过了 GPT-4。

模型训练情况:

  • 继续预训练:Tower 的训练使用了 200 亿个文本标记,平均分布在不同语言中,其中三分之二来自单语数据,三分之一来自公开的双语数据集。
  • 指令调整:此阶段通过细化的数据集提高了模型解决零样本任务的能力,如 TowerBlocks,包含了多种翻译相关任务的特定记录。

专门针对翻译任务优化的多语言模型 Tower

正文完
关注公众号获取最新教程
post-qrcode
 
AI小诸葛
版权声明:本站原创文章,由 AI小诸葛 2024-01-19发表,共计1125字。
转载说明:除特殊说明外本站文章皆由原创发布,请勿转载。
评论(没有评论)
验证码