Multilingual Task Survey
:material-circle-edit-outline: 约 768 个字 :material-clock-time-two-outline: 预计阅读时间 3 分钟
Introduction
多语言模型 multilingual models 就是能解决多语言任务的模型。在主流训练数据是英语、稀有语言数据稀缺的背景下,如何将模型能力泛化到稀有语言是重要的问题。除了最近的大语言模型外,还会介绍传统方法和传统模型。
Survey
A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers (2024)
简介
本文介绍多语言大语言模型的训练、使用、挑战、未来研究方向等。由 Beijing Jiaotong University, University of Montreal 和 Tsinghua University 发布。
训练
有多语言能力的大语言模型概览
多语言推理策略
安全性
多领域多语言大语言模型
多语言数据资源
多语言评测
偏见和公平性
Models
Datasets
Studies
Do Llamas Work in English? (2024, EPFL)
猜想:多语言模型(比如 Llama)在使用以英语为主的语料进行训练时,会将英语作为一种思考的中间步骤 pivot language。
实验方法:对 Llama-2 系列模型,设计数据对 (非英语提示词,next token)。从顶层向量空间 high-dimensional space 探索中间嵌入 intermediate embeddings 如何计算下一个单词的规律。
发现三个阶段:
- intermediate embeddings 远离(不像) output embedding。
- 尽管 intermediate embedding 已经可以解码出语义上正确的下一个单词,但模型对英语词的预测概率更高。
- intermediate embedding 最终在嵌入空间中确定了特定的输入语言。
一句话总结:imtermediate embedding 所代表的抽象概念空间 concept space 更接近英语,可能导致多语言模型中的偏见问题。
Language-Specific Neurons: The Key to Multilingual Capability in Large Language Models (2024, RUC)
背景
识别多语言大模型里,产生特定语言能力的神经元仍然非常 challenging。
方法
提出了 language activation probability entropy (LAPE) 来检测大语言模型不同语言对应的神经元。
LAPE: 为了减少 RLHF 可能带来的对语言偏好的的影响,主要关注预训练过的模型,而不是微调后的模型。
对于在第 i 层的第 j 个 neuron,定义在语言 k 上的激活概率 activation probability
I 是 indicator function(当给定条件为真时,指示函数的值为 1;当给定条件为假时,指示函数的值为 0)。
以此可以获得每个神经元对语言的分布
定义上述分布的熵为 language activation probability entropy (LAPE) 。
使用 Llama-2, BLOOM, Mistral 和 Phi-2 进行实验,发现这些神经元主要在顶层和底层 embedding 上。
发现
- 在不同具体的语言上,模型使用的都是一小部分 neuron。
- 可以通过激活或冻结部分神经元,来控制输出的语言。
- 相似的语言激活区域有一定重合度,比如 Chinese 和 Japanese。模型更大,这种效果更明显。