微软研究人员推新AI方法,用合成数据改进高质量文本嵌入

来源:互联网· 2024-01-04 16:06:19

1月4日 消息:微软公司的研究团队最近提出了一种独特且简单的方法,用于生成高质量的文本嵌入。这种新方法仅使用合成数据和极少的训练步骤(少于1,000步),就取得了令人瞩目的成果。相比于现有的方法,该方法不依赖于多阶段的预训练和有限的标记数据微调,避免了繁琐的训练流程和手动收集数据集的问题,这些数据集通常在任务多样性和语言覆盖方面存在问题。

image.png

该方法利用专有的大型语言模型在约100种语言的文本嵌入任务中生成了各种合成数据。与复杂的预训练阶段不同,该方法使用基本的对比损失函数,将开源的仅解码的大型语言模型在生成的合成数据上进行微调。

研究团队进行了一些测试以验证该方法的有效性。该模型在激烈竞争的文本嵌入基准测试中展现了出色的结果,而无需使用任何标记数据。当使用合成数据和标记数据的组合进行改进时,该模型在 BEIR 和 MTEB 基准测试上取得了新的记录,成为了文本嵌入领域的最先进方法。

专利的大型语言模型如 GPT-4被用来生成包括多语言指令在内的各种合成数据。通过利用 Mistral 模型强大的语言理解能力,该方法在几乎所有工作类别上在激烈竞争的 MTEB 基准测试中取得了出色的性能。

该研究表明使用大型语言模型可以显著提高文本嵌入的质量。该研究的训练过程极大地减少了对中间预训练的需求,相较于当前的多阶段系统,更加简洁高效。

论文网址:https://arxiv.org/abs/2401.00368


您可能关注: 微软 AI



文章来源: https://www.cy211.cn/aizixun/1899.html

[免责声明]如需转载请注明原创来源;本站部分文章和图片来源网络编辑,如存在版权问题请发送邮件至398879136@qq.com,我们会在3个工作日内处理。非原创标注的文章,观点仅代表作者本人,不代表本站立场。