中国科学院信息工程研究所第六研究室9篇论文被EMNLP 2023录用
EMNLP 2023于10月8日公布了论文接收结果。中国科学院信息工程研究所第六研究室有9篇论文被EMNLP 2023录用。
EMNLP (Conference on Empirical Methods in Natural Language Processing) 2023计划于2023年12月6日-12月10日在新加坡圣淘沙召开。EMNLP年会是三大计算语言学和自然语言处理领域最重要的顶级国际会议之一(ACL、EMNLP、NAACL)。
下面是录用论文列表及介绍(按论文首字母排序)。
01
/ EMNLP 2023, Findings /
论文题目:
An Empirical Study of Instruction-tuning Large Language Models in Chinese
论文作者:
佀庆一,王彤,林政,张旭,曹亚男,王伟平
论文类型:
Long Paper, Findings
论文概述:
ChatGPT的成功验证了大型语言模型(LLM)在通用人工智能(AGI)中的潜力。随后,各种LLMs的放出引发了开源社区对指令微调的兴趣,这加速了ChatGPT的复现过程。然而,指令微调在世界上最常用的语言——中文上的相关研究仍处于早期阶段。因此,本文对中文场景下的LLM指令微调进行了深入的实证研究,并为如何更好地定制化响应中文的LLM提供了大量有价值的发现。具体而言,我们系统地探讨了一系列的开源LLMs、多种参数有效方法和不同类型指令数据的影响,这是指令微调三个最重要的元素。此外,我们还进行了实验来探索大模型研究中其他重要因素的影响:如思维链数据,人类价值观对齐和中文词表扩充等。我们希望这一实证研究能够为ChatGPT的中文开源版本做出微薄的贡献。本文同时发布了一个强大的中文LLM,可与ChatGLM相媲美。
代码和数据可在https://github.com/PhoebusSi/Alpaca-CoT上获取。
02
/ EMNLP 2023, Findings /
论文题目:
Chain-of-Thought Reasoning in Tabular Language Models
论文作者:
郑明钰,郝洋,姜文斌,林政,吕雅娟,佘俏俏,王伟平
论文类型:
Long Paper, Findings
论文概述:
表格数值推理任务需要模型基于表格和文本内容进行多步的信息查找和数值计算操作,现有工作通常采用“思维链提示+大语言模型”(CoT Promting+LLM)的方式来解决该任务。然而,这种方式无法应对资源受限或需要私有化部署的场景。针对该问题,我们首次探索传统表格预训练模型(Tabular Language Models, TaLMs)的思维链推理能力并提出一个通用框架TaCo,作为一种替代LLM的解决方案。该框架将思维链生成和最终答案推理两项职能分别交由两个小规模的表格预训练模型承担,并且可以通过引入外部计算器来增强系统的精准数值计算能力。实验结果表明,经过充分微调后的TaLM同样可以展现出不俗的思维链推理能力。在TABMWP数据集上,TaCo方法能够以更少的参数量(0.8B)取得比CoT+ChatGPT更优的性能(82.60% 92.15%)。
03
/ EMNLP 2023, Main Conference /
论文题目:
Compressing and Debiasing Vision-Language Pre-Trained Models for Visual Question Answering
论文作者:
佀庆一,刘源鑫,林政,付鹏,曹亚男,王伟平
论文类型:
Long Paper, Main Conference
论文概述:
尽管视觉语言预训练模型(VLP)在传统的VQA任务中表现出色,但它们仍然存在两个问题:首先,VLP倾向于依赖数据集中的语言偏见,无法推广到分布外(OOD)数据。其次,它们在内存占用和计算方面效率低下。尽管在这两个问题上都取得了可喜的进展,但大多数现有的工作都是独立解决的。为了促进VLP在VQA任务中的应用,必须联合研究VLP压缩和OOD鲁棒性,然而,这一点尚未得到探索。本文研究了通过搜索稀疏和稳健的子网来探究VLP是否可以同时被压缩和去偏。为此,我们系统地研究了用于搜索子网络的训练和压缩pipeline,以及将不同稀疏性分配给不同模态特定模块的问题。我们的实验涉及3种VLPs、2种压缩方法、4种训练方法、2个数据集和一系列稀疏性级别和随机种子。我们的结果表明,确实存在稀疏且鲁棒的子网络,它们与去偏后的全参数量VLP具有竞争力,并且在OOD数据集VQA-CP v2和VQA-VS上明显优于参数较少的去偏SoTA方法。
04
/ EMNLP 2023, Main Conference /
论文题目:
CT-GAT: Cross-Task Generative Adversarial Attack based on Transferability
论文作者:
吕民轩,戴程威,李鲲,周薇,虎嵩林
论文类型:
Long Paper, Main Conference
论文概述:
神经网络模型容易受到对抗性样本的攻击,而对抗的转移性进一步增加了对抗攻击的风险。现有基于转移性的方法通常依赖于替代模型,但在现实场景中,由于训练数据的不可获取和受害模型的结构细节不可知,这种方法可能不切实际且成本高昂。为了解决这个问题,我们提出了一种新的方法,通过提取各种任务中的可转移特征直接构建对抗性样本。我们通过大量实验发现对抗转移性可以跨越不同的任务。具体来说,我们训练了一个名为CT-GAT(跨任务生成对抗攻击)的序列到序列生成模型,使用从多个任务中收集的对抗样本数据来获取通用的对抗特征,并且可以应用到不同于训练任务的其他任务上,从而对不同任务的受害者模型进行攻击。我们在十个不同的数据集上进行了实验,结果表明,我们的方法在小成本下可实现优越的攻击性能。
05
/ EMNLP 2023, Main Conference /
论文题目:
MeaeQ: Mount Model Extraction Attacks with Efficient Queries
论文作者:
戴程威,吕民轩,李鲲,周薇
论文类型:
Long Paper, Main Conference
论文概述:
本文研究了自然语言处理中的模型提取攻击。攻击者旨在通过反复调用开放的API来提取受害者模型。最新研究主要关注有限API查询设置,并通过随机策略或者基于主动学习的策略在公开可用的未标注数据源上采样Query。然而,这些方法通常会导致所采样的Query缺乏任务相关性和数据多样性,从而在低查询成本下难以取得令人满意的结果。为了解决这些问题,本文提出了一种简单且有效的模型提取方法MeaeQ。具体地,我们首先利用一个零样本序列推理分类器并结合API服务内容信息来从公开的文本语料库(而非特定问题域)中过滤与目标任务相关的数据。然后,我们设计了一种基于聚类的数据归约方法来进一步获取有代表性的数据作为最终Query。四个基准数据集的实验证明,MeaeQ在更少的查询情况下,能够比基线方法取得更好性能。
06
/ EMNLP 2023, Main Conference /
论文题目:
Multi-level Adaptive Contrastive Learning for Knowledge Internalization
in Dialogue Generation
论文作者:
杨晨旭,林政,王岚睿,田冲,庞亮,李江楠,曹亚男,王伟平
论文类型:
Long Paper, Main Conference
论文概述:
知识驱动的对话生成旨在通过引入外部知识补充上下文信息来缓解文本退化问题。然而,模型通常很难用与人类相似的方式将这些信息内化到回复中。相反,模型更倾向于仅仅将提供的知识片段插入到常规回复中。这样做的结果是,生成的回复往往乏味且缺乏连贯性、互动性,这意味着退化问题实际上仍未得到解决。在本工作中,我们发现这种复制式的退化主要是由弱的似然目标函数导致的,模型仅仅做到了匹配高的token重叠度这种浅层的表面匹配方式(即复制部分知识片段)来“欺骗”了常规的MLE目标函数达到了向回复中融入知识的目标。为了克服这一挑战,我们提出了一个多级的自适应对比学习(MACL)框架。MACL可以动态抽样负例,并对token级和序列级的退化行为进行惩罚。在WoW数据集上的广泛实验表明,我们的方法在各种预训练模型和解码策略上都很有效。
07
/ EMNLP 2023, Findings /
论文题目:
PUNR: Pre-training with User Behavior Modeling for News Recommendation
论文作者:
马广远、刘洪涛、伍星、钱万晖、吕喆朋、杨青、虎嵩林
论文类型:
Long Paper, Findings
论文概述:
新闻推荐任务旨在基于用户行为预测其点击行为。如何有效地建模用户表示是推荐首选新闻的关键。现有的研究主要集中在监督微调阶段的改进上。然而,仍然缺乏针对用户表示进行优化的、基于预训练模型的无监督预训练方法。在这项工作中,我们提出了一种无监督预训练范式,包括两个任务,即用户行为掩码和用户行为生成,都旨在有效地建模用户行为。首先,我们引入了用户行为掩码预训练任务,根据上下文行为恢复被掩码的用户行为。通过这种方式,模型可以在新闻推荐任务中捕捉到更强大和更全面的用户行为模式。此外,我们还结合了一种新颖的辅助用户行为生成预训练任务,以增强从用户编码器派生的用户表示向量。我们使用上述预训练的用户建模编码器在下游微调中获取新闻和用户表示。对真实世界新闻基准的评估显示,与现有基准相比,性能有显著改进。
08
/ EMNLP 2023, Main Conference /
论文题目:
Query-as-context Pre-training for Dense Passage Retrieval
论文作者:
伍星,马广远,钱万晖,林梓佳,虎嵩林
论文类型:
Long Paper, Main Conference
论文概述:
稠密文本检索常使用基于上下文监督预训练的方法来改善性能。这些方法简单地将采样自同一文档的两个段落视为相关文本对,而不考虑可能存在的弱相关性对。因此,本文提出了"以查询为上下文"的预训练方法,一种简单而有效的预训练技术来缓解这个问题。以查询为上下文的预训练,认为从段落中生成的查询更可能与该段落相关,并形成段落-查询对。然后,这些段落-查询对被用于对比或生成范式的上下文监督预训练,预训练后的模型在大规模段落检索基准和跨领域零样本基准上进行评估。实验结果表明,以查询为上下文的预训练带来了显著的提升,证明了其有效性和效率。
09
/ EMNLP 2023, Main Conference /
论文题目:
TrojanSQL: SQL Injection against Natural Language Interface to Database
论文作者:
章锦川,周艳,惠彬原,刘雅新,李子明,虎嵩林
论文类型:
Long Paper, Main Conference
论文概述:
文本到数据库查询语言技术(Text-to-SQL)通过将自然语言自动化地转换为SQL语句,极大地方便了人们访问、查询和操作数据库的过程。随着大语言模型的发展,这项技术同样取得了长足的进步,并逐渐发展成数据库的一种自然语言接口(Natural Language Interface to Database,NLIDB)。尽管数据库安全对于隐私数据的保护和数据的完备性非常重要,但却很少有工作探索其自然语言接口的安全性。本文通过提出一种基于后门的针对NLIDB的SQL注入框架:TrojanSQL,展示了目前主流的NLIDB系统很容易被诱导产生可以破坏数据库隐私的有害SQL语句。我们提出了两种具体的攻击手段:基于布尔查询和联合查询的SQL注入攻击,分别使用不同的触发器来达成不同的攻击目的。实验表明基于微调的(Finetuning-based)和基于大语言模型的(LLM-based)解析器都很容易受到这类攻击。我们为NLIDB的开发者和用户提供了一些防御这类攻击的安全实践手段,并试图通过这一工作引发社区对于数据库的自然语言接口的安全性的关注:即不能理所当然地认为通过自然语言访问和操作数据库是绝对安全的,在开发部署和使用相关的系统前应当进行充分的测试。