Multilingual Task Survey

:material-circle-edit-outline: 约 768 个字 :material-clock-time-two-outline: 预计阅读时间 3 分钟

Introduction

多语言模型 multilingual models 就是能解决多语言任务的模型。在主流训练数据是英语、稀有语言数据稀缺的背景下，如何将模型能力泛化到稀有语言是重要的问题。除了最近的大语言模型外，还会介绍传统方法和传统模型。

本文介绍多语言大语言模型的训练、使用、挑战、未来研究方向等。由 Beijing Jiaotong University, University of Montreal 和 Tsinghua University 发布。

猜想：多语言模型（比如 Llama）在使用以英语为主的语料进行训练时，会将英语作为一种思考的中间步骤 pivot language。

实验方法：对 Llama-2 系列模型，设计数据对 (非英语提示词，next token)。从顶层向量空间 high-dimensional space 探索中间嵌入 intermediate embeddings 如何计算下一个单词的规律。

发现三个阶段：

一句话总结：imtermediate embedding 所代表的抽象概念空间 concept space 更接近英语，可能导致多语言模型中的偏见问题。

识别多语言大模型里，产生特定语言能力的神经元仍然非常 challenging。

提出了 language activation probability entropy (LAPE) 来检测大语言模型不同语言对应的神经元。

LAPE: 为了减少 RLHF 可能带来的对语言偏好的的影响，主要关注预训练过的模型，而不是微调后的模型。

对于在第 i 层的第 j 个 neuron，定义在语言 k 上的激活概率 activation probability

\[ p_{i,j}^k = E(I(act_fn(\tilde{h}^iW_1^i)_j \lt 0 | language\spacek)) \]

I 是 indicator function（当给定条件为真时，指示函数的值为 1；当给定条件为假时，指示函数的值为 0）。

以此可以获得每个神经元对语言的分布

\[ p_{i,j} = (p_{i,j}^1, ... , p_{i,j}^k, ... , p_{i,j}^l) \]

定义上述分布的熵为 language activation probability entropy (LAPE) 。

\[ LAPE_{i,j} = -\sum^{l}_{k=1} p^{\prime k}_{i,j} log(p^{\prime k}_{i,j}) \]

使用 Llama-2, BLOOM, Mistral 和 Phi-2 进行实验，发现这些神经元主要在顶层和底层 embedding 上。