《 A Parallel Dual-Channel Chinese Offensive Language Detection Method Combining BERT and CTM Topic Information》
《一种结合BERT和CTM主题信息的并行双通道中文攻击性语言检测方法》

吐槽一句这论文也太水了吧,完全流水账没有任何创新点,IEEE ACCESS好歹也是2区,怪不得网上的风评这么差。合理怀疑他这个实验数据也是作假的,虽然没有源码,但是由于他的模型十分简单感觉像是一个NLP初学者就可以做出来的东西,我们复现完以后感觉效果很拉跨...

image-20240913002820154

0 摘要

随着智能技术的发展,检测模型在各个领域的应用变得越来越重要。本研究开发了一种新型的检测模型(BCOLD),该模型不仅适用于语言检测,还可以广泛应用于医疗文本和图像识别等领域。BCOLD模型首先利用BERT生成的词向量来捕捉上下文细节,然后将其与CTM生成的主题向量结合,以理解文本的核心主题。这种融合策略增强了模型的检测能力和对文本深层含义的理解。融合后的向量并行输入到DPCNN和TextCNN模型中,以捕捉复杂的语义结构和局部特征,并通过多头注意力机制进一步优化特征表示。实验结果表明,BCOLD模型在语言检测中表现良好,为自动检测和分类提供了高效且准确的解决方案,展现了广泛的应用前景。

关键词:注意力模型,中文文本分类,CTM,双通道模型,BERT。

1 引言

随着数字平台上不当内容的激增,特别是在中文互联网论坛中,检测攻击性语言和虚假信息变得越来越重要。这不仅影响到社交媒体环境的健康,也对用户的心理健康和信息的真实性产生了负面影响。近年来,随着机器视觉技术和医疗技术的快速发展,这些领域的应用需求也在不断增长。例如,在医疗处方管理系统中,使用机器视觉技术自动识别和处理处方可以显著提高医生开具处方的效率和准确性。此外,在智能康复管理软件的开发中,结合机器视觉技术和自然语言处理技术可以实现对患者康复进度的精确监控,并提供个性化的康复建议,从而优化康复过程。

为应对这些挑战,本研究开发了一种新型的检测模型(BCOLD),旨在为多个领域,尤其是医疗和机器视觉领域,提供高效的解决方案。BCOLD模型采用了最先进的深度学习技术,利用BERT生成的词向量来捕捉上下文细节,并将其与CTM生成的主题向量结合,以理解文本的核心主题。这种融合策略不仅增强了模型的检测能力,还提高了其对文本深层含义的理解。

在特征处理方面,融合后的向量并行输入到DPCNN和TextCNN模型中,以捕捉文本的复杂语义结构和局部特征。通过将两个模型的输出连接起来,达到了全面的特征融合。此外,结合多头注意力机制进一步优化了特征表示,使模型能够更有效地关注关键信息。实验结果表明,BCOLD模型在检测中文攻击性语言方面表现出色。然而,BCOLD模型的应用不止于此;它还展示了在医疗和机器视觉领域的广泛应用前景。通过自动识别和处理文本内容,BCOLD模型可以帮助医疗行业提高诊断和治疗的效率和准确性,支持医生更好地管理患者信息,并在智能康复管理中提供个性化建议,从而提升医疗服务的整体质量和效率。

目前,对于攻击性言论的定义尚无统一标准。文献中最早认可的定义可以追溯到2000年,当时Nockleby将攻击性言论定义为基于某些特征因素(如国籍、宗教、种族、民族、性别、肤色或其他特征)针对个人或群体的贬低性和侮辱性言论【1】。为了营造健康、积极的网络环境,构建和谐社会,这类社交媒体数据需要得到有效识别。因此,面对主要为文本数据的社交媒体数据,攻击性言论的分类仍是当前自然语言处理任务中的一个迫切问题。

最初,攻击性语言的检测和应对主要依赖人工审查和简单的关键词过滤。然而,随着用户数量和内容多样性的增加,这种方法变得越来越无效。攻击性语言的多样性和复杂性需要更智能且更细致的处理方式。在21世纪,随着计算机科学和自然语言处理技术的发展,研究人员开始探索使用机器学习方法来自动识别攻击性语言【2】。这些早期模型主要基于规则和统计方法,尽管取得了一些进展,但在理解语言的深层含义和上下文方面仍然有限。

近年来,基于神经网络的深度学习模型能够学习和理解复杂的语言模式,并更有效地处理语言中的细微差别和隐含意义。例如,卷积神经网络(CNN)、循环神经网络(RNN)和长短时记忆网络(LSTM)【3】、【4】、【5】被用于特征提取,以捕捉文本中的局部特征和序列信息。CNN在处理文本数据时,尤其擅长捕捉局部特征。通过多级卷积操作,CNN能够有效地从文本中提取关键词和短语,这对于识别攻击性语言中的侮辱性词汇和表达非常有用【6】、【7】。

然而,CNN的主要局限性在于处理长期依赖性问题,这可能成为理解复杂句子结构的瓶颈。RNN通过序列化处理来捕捉文本数据中的时间序列或顺序关系,解决了这一问题。RNN特别适合处理包含连续上下文的文本数据,例如对话或叙述性文本。然而,RNN也存在一些缺点,如在处理长序列数据时会遇到梯度消失或梯度爆炸问题。LSTM作为RNN的改进版本,通过引入“门”机制,解决了这些问题。它能够更高效地处理长序列数据,保留长期依赖信息,同时避免与梯度相关的问题。LSTM在捕捉和理解文本中的长期上下文关系方面表现出色,这对于理解攻击性语言中的隐含意义和复杂结构尤为重要

这些神经网络模型各有其优势,通常根据特定任务的需求在实际应用中被选择或结合使用。例如,CNN可以用于快速提取关键特征,而LSTM则用于理解更长的上下文信息。这种组合方法使得深度学习模型在处理攻击性语言检测任务时更加高效和准确。

尽管先进的深度学习模型如BERT和GPT【8】、【9】、【10】、【11】在识别中文内容中的攻击性语言方面取得了显著成功,但有效应用这些模型仍面临许多挑战。特别是,模型可解释性问题【12】、【13】对于建立用户信任以及确保模型决策的公正性至关重要。此外,如何应对语言的多样性和复杂性,并在学习过程中避免算法引入偏差,是当前研究中需要关注的问题。未来,更可解释的模型能够解释其决策理由,保证结果不含偏见因素,是十分必要的

通过在架构设计和学习方法上的不断改进,结合对复杂和多样化文本数据的增强处理,这类研究不仅旨在更精确地识别和减轻数字话语中的攻击性言论,还确保光子和电子医疗技术领域信息的准确和可信传播。本研究提出了一种新型的中文攻击性语言检测方法,结合了BERT生成的词向量和CTM生成的主题向量,显著增强了对复杂语境和细微语义差异的理解。通过开发并行双通道架构,充分利用DPCNN和TextCNN的优势,模型有效地捕捉了深层语义含义和文本的局部特征,从而在区分细微的攻击性表达与常规言论方面表现出高准确性和效率

为应对光子和电子医疗(PEM)平台面临的挑战,本研究确保了医疗信息的真实性和可信性,保护了用户的心理健康,并支持了PEM技术的传播,从而为讨论和推动医疗创新创建了一个更健康的在线环境。这对于维护社交媒体生态系统的完整性以及促进医疗创新的在线讨论具有重要意义。

2 相关工作

目前,攻击性语言检测的研究主要基于英文场景,中文场景下的攻击性言论检测则受到了较少的关注。由于文化背景的差异,中英文在语言表达、语法结构以及攻击性类型上存在很大差异【14】。因此,开展针对中文攻击性评论的检测研究具有重要的现实意义和应用价值。

最初,攻击性语言的检测依赖于基于规则的方法和简单的关键词匹配。这些方法的核心在于构建词汇表,通过识别文本中的特定词汇来标记攻击性内容。徐和朱【15】提出了一种新的自动句子级过滤方法,用于有效识别和删除在线社区中的攻击性语言。通过利用单词之间的语法关系,语义过滤攻击性言论,效果接近人工过滤。陈等人【16】通过分析用户的写作风格和特定网络欺凌内容等特征,成功检测社交媒体上的攻击性内容和潜在的攻击性用户,展现了较高的准确性和快速处理能力,展示了在社交媒体上有效部署的潜力。然而,这类方法缺乏对上下文的理解,无法识别复杂的言论表达。随着时间的推移,这些方法逐渐被更先进的机器学习和深度学习技术所取代【17】【18】【19】【20】,这些技术能够更全面地理解语言细微差别和上下文。

随着机器学习技术的发展,其在检测攻击性语言中的应用引起了研究者越来越多的关注。最早的研究方法使用了决策树、支持向量机(SVM)和朴素贝叶斯分类器等算法【21】【22】【23】【24】【25】。这些方法通常依赖于手动特征工程,如词频统计和N-gram模型。Warner 和 Hirschberg【26】研究了一种在线文本仇恨言论检测方法,通过分析针对特定人群的滥用性言论中的高频刻板词汇,并结合SVM技术,成功实现了反犹太仇恨言论的高精度分类。Kwok 和 Wang【27】开发了一种基于Twitter数据自动检测针对黑人种族歧视推文的方法,使用朴素贝叶斯分类器,准确率达到76%,显示出识别反黑人言论的潜力和改进空间。Saravanaraj等人【28】使用监督学习技术(如朴素贝叶斯和随机森林)开发了一种检测针对同伴的网络欺凌评论的方法。Waseem 和 Hovy【29】研究了社交媒体上常见的种族和性别歧视性评论,提出了一种基于批判种族理论的仇恨言论检测方法。通过标注超过16,000条公开推文,该研究考察了语言属性和字符n-gram在仇恨言论检测中的作用,并引入了从数据集中最具代表性的术语中提取的词汇表,提供了新颖的自动化检测工具和见解

Waseem【30】还探讨了标注者的专业性对仇恨言论检测模型准确性的影响,发现专业标注者比非专业标注者更谨慎地识别攻击性言论。研究结果表明,使用专业标注数据训练的模型比使用业余标注数据训练的模型表现更好。李等人【31】在信息内容安全领域,探索了微博评论信息的管理和使用,并提出了一种利用潜在狄利克雷分配(LDA)模型和依存句法分析技术对情感倾向进行自动分类和情感表达提取的新方法,以提高情感表达提取的准确性。尽管这些方法在一定程度上提高了检测效果,但它们在理解语言的深层含义方面仍然有限。

深度学习的兴起标志着该领域的一个重要转折点,BERT词嵌入模型【32】、ERNIE【33】等一系列预训练词向量模型的出现,极大地推动了中文攻击性语言检测的准确性和效率的提高。Pavlopoulos等人【34】通过比较分析基于新闻门户网站用户评论的新数据集和Wikipedia讨论页面评论的现有数据集,展示了循环神经网络(RNN)在检测任务中相对于传统的逻辑回归和多层感知器(MLP)分类器的优越性。结合深度注意力机制,不仅提高了RNN在自动和半自动内容审核任务中的表现,还能够高效识别并突出可疑词汇。

Aroyehun 和 Gelbuck【35】通过参与社交媒体攻击性行为检测的共享任务,研究了自动识别社交媒体帖子中攻击性行为的挑战,并对不同复杂度的深度神经网络模型进行了比较分析。研究发现,当数据量充足时,深度模型表现优于其他模型,尤其是改进的CNN-LSTM模型在社交媒体子任务中表现出强大的竞争力。Wiedemann等人【36】在德语Twitter数据上使用BiLSTM-CNN神经网络模型,并通过三项迁移学习任务引入背景知识,提升了分类性能。Stammbach等人【37】使用不同的神经网络和特征进行实验,证明了CNN在任务中的优越性。Liu等人【38】使用迁移学习对预训练模型BERT进行了微调,并将其与LSTM网络结合,用于社交媒体攻击性语言的检测。Sigurbergsson 和 Derczynski【39】构建了首个丹麦语社交媒体攻击性语言数据集,并使用基于LSTM的方法进行检测,取得了显著的成果。Sadiq等人【40】通过实验使用了最先进的CNN-LSTM和CNN-BiLSTM组合来检测深度神经网络中的攻击性行为,且两者的表现都很好。Kumari等人【41】在双上下文中使用LSTM网络进行社交媒体数据的异常检测。Yasaswini等人【42】使用CNN-LSTM预测模型检测含有多种语言的评论文本。这项研究不仅提高了识别不当内容的准确性,还在多语言环境下提供了一种新颖的处理社交网络中语言多样性挑战的方法。这些模型能够自主识别复杂的语言结构,理解文本中的细微差别和上下文关联,从而显著提高攻击性语言的检测能力。

尽管上述研究在特定的攻击性言论检测任务上取得了显著成果,但针对中文语言环境的研究仍然相对较少。作为世界上使用最广泛的文字之一,研究中文攻击性言论检测方法具有重要的现实意义。此外,之前的研究主要集中在评论文本上,忽略了与文本相关的主题【43】。为了解决上述问题,本文引入了一种结合BERT与主题数据的并行双通道混合架构,用于中文攻击性语言识别,研究的主要贡献如下:

  1. 词向量和主题向量的生成与结合:本研究首先利用BERT预训练模型生成词向量,捕捉单词的上下文信息。同时,使用CTM(主题模型)【44】生成主题向量,揭示文本数据中的潜在主题。这两类向量通过连接操作相结合,以获得更丰富的文本表示。
  2. 并行模型处理:在结合BERT和CTM生成的向量后,这些向量并行输入到两种不同的深度学习模型——DPCNN(深度金字塔卷积神经网络)【45】和TextCNN(文本卷积神经网络)中(结合了Top-K最大池化和均值池化)。这一步旨在从不同角度提取文本的特征,增强模型的学习能力。
  3. 特征融合:通过torch.cat操作拼接DPCNN和TextCNN的输出特征,融合两个模型的特征,以捕捉更全面的文本特征。
  4. 多头注意力机制与分类:融合后的特征向量输入到多头注意力机制中,帮助模型在处理文本时关注不同的部分和层次。最后,这些经过注意力机制处理的特征被输入到分类层进行最终的分类决策。

3 相关技术与模型介绍

本节提供了对BERT、CTM、DPCNN、TextCNN及多种注意力机制的基础理论概述,并详细解释了BCOLD模型的架构和算法流程。

3.1 基于BERT语言模型的特征提取

在自然语言处理(NLP)中,Word2Vec和Glove等模型常用于表达文本的意义。然而,这些模型难以根据上下文解释具有多重含义的单词。为了解决这一问题,选择了BERT模型,因为它能够捕捉并表达多种语言中单词的语义细微差别。BERT在生成的词向量进行微调时表现出色,能够丰富词向量的表示。

image-20240912204442763

BERT由Devlin等人【46】于2018年提出,使用了Transformer编码器,这是一个广为认可的用于双向文本处理的模型。如图1所示,Wi表示输入变量,Trm代表Transformer编码器模块,Ti则为模型生成的文本解释。BERT对输入的处理方式与全连接网络类似,支持双向文本数据处理。

使用BERT进行语言特征提取时,首先初始化词嵌入。这些嵌入集成了三个元素:词元嵌入、段落嵌入和位置嵌入,从而增强了词向量的表达能力,如图2所示。[CLS]标记位于输入句子的第一个词之前,表示从Transformer模型开始输出。句子的分界由[SEP]标记表示,放置在每个句子之后。通过这些嵌入的多样性,模型能够区分不同的句子片段进行处理。

image-20240912230903448

在模型训练中,使用了掩码语言模型(MLM)和下一句预测(NSP)等策略。在这些实验中,随机遮盖15%的句子单词:80%被替换为[Mask]占位符,10%被替换为其他单词,剩下10%保持不变。NSP的作用是确定一句话是否是另一句话的后续句,这为模型的无监督学习机制提供了支持,并增强了编码文本数据的丰富性。

3.2 相关主题模型(CTM)

correlated topic model

虽然LDA主题模型在一定程度上解决了词语多义性的问题,但它在处理信息量少、特征稀疏的短文本时存在困难,因此需要尽可能多地提取有效信息。短文本通常包含跨多个主题的词汇,往往客观地反映文本的情感。这些主题之间的相互作用可能影响文本的整体情感评估。为了增强这种分析,研究人员引入了相关主题模型(CTM)。CTM使用协方差矩阵 Σ 结合正态分布来捕捉主题之间的相互关系,从而丰富文本特征提取过程。CTM的结构如图3所示。

image-20240912231735304

在CTM主题模型中,W_{d,n}表示第d 个文档中的第 n 个词,给定一个文档集 D,假设该文i档集包含M个文档,总共包含N个不同的词汇项。K代表主题的数量,\Sigma是一个K\times K的协方差矩阵用于表示主题之间的相关性,\mu表示均值向量,\beta_k表示主题。

在CTM模型中,主题分布通过参数\mu和对数正态分布生成,方程 (1)表示了该对数正态分布的概率密度函数:

f_x(x)=\frac1{x\sqrt{2\pi}}\exp\left(-\frac12\left(\frac{\ln x-\lambda}\xi\right)^2\right)\quad(0<x<\infty)

CTM模型使用变分EM算法求解 \mu\Sigma\beta_k 的最大似然估计。该算法的目标函数是将文档集 {W_1, W_2, \dots, W_D} 上的似然约束求和。其计算公式如方程(2)所示:

L(\mu,\Sigma,\beta_1,w_{1:D})\geq\sum_{d=1}^DE_{q_d}\left[\log P(\eta_d,z_d,w_d|\mu,\Sigma,\beta_{1:K})\right]+H(q_d)

EM算法通过对每个文档进行变量推断来最大化变分边界,从而计算其参数。其计算过程如方程(3)到(5)所示。

\beta_i\propto\sum_d\phi_{d,i}n_d\text{(3)}\\\mu=\frac1D\sum_d\lambda_d\text{(4)}\\\sum=\frac1D\sum_dI\nu_d^2+(\lambda_d-\mu)(\lambda_d-\mu)^T\text{(5)}

其中,n_d 表示文档 d 中相关词汇的数量向量。

其次,边界通过基于模型参数的梯度上升进行最大化,目标是使用足够的统计数据对 \mu\Sigma\beta_k 进行最大似然估计。然后,重复EM算法的过程,直到收敛或达到某个边界。上述过程描述了变分EM计算过程。因此,对于文本集中的给定文本 d 及其对应的隐藏参数 \mu\Sigma\beta_k 的模型,其隐藏参数的后验分布计算如方程(6)所示:

P(\eta,z|w,\beta_{1:k},\mu,\Sigma)=\frac{p(\eta|\mu,\Sigma)\prod_{n=1}^Np(z_n|\eta)p(w_n|z_n,\beta_{1:k})}{\int p(\eta|\mu,\Sigma)\prod_{n=1}^N\sum_KZ_np(z_n|\eta)p(w_n|z_n,\beta_{1:k})d\eta}

由于CTM主题模型的对数正态分布和多项式分布不是共轭分布,应该使用变分推断算法来进行CTM的后验推断。在进行变分推断时,使用Jensen不等式来约束文档的可调整下界,计算如方程(7)所示:

\log P(w_{1:N}|\mu,\Sigma,\beta)\geq E_q\left[\log p(\eta|\mu,\Sigma)\right]+\sum_{n=1}^NE_q\left[p(z_n|\eta)\right]+\sum_{n=1}^NE_q\left[\log p(w_n|z_n,\beta)\right]+H(q)

在该方程中,q 代表隐藏参数的变分分布,H(q) 表示该分布的熵。

变分分布的计算如方程(8)所示:

q(\eta_{1:K},z_{1:N}|\lambda_{1:K},v_{1:K}^2,\phi_{1:N})=\prod_{i=1}^Kq(\eta_i|\lambda_i,v_i^2)\prod_{n=1}^Nq(z_n|\phi_n)

在公式中, \varphi_{1:_N} 表示一个 K-维 多项分布的自由参数, Z_{1:_N} 表示离散的主题变量由 \varphi_{1:_N} 决定, \eta_{1:_K} 是连续变量。 这些变量的变分分布是一组K维独立的高斯分布 \{\lambda_i,V_i\}.

3.3 TextCNN

在自然语言处理 (NLP) 领域,卷积神经网络 (CNN),尤其是TextCNN模型,已经成为关键的分析工具。本研究中的TextCNN模型由三部分组成:卷积层、池化层和全连接层。卷积层通过双通道方法处理文本数据,其中一个通道用于固定的预训练词向量,另一个通道则用于在训练过程中更新的词向量。该层捕捉单词之间的局部特征和关系。池化层通过最大池化技术从卷积层选择最重要的特征,以减少数据维度,同时保留关键信息。全连接层则将池化层的特征映射到标签空间,完成分类任务。这个层整合了所有的特征信息,形成最终输出。该模型结构使TextCNN能够高效地处理不同长度的文本,并通过不同的卷积核捕捉多样化的语言特征,提升分类准确率。CNN的结构如图4所示。

image-20240912235002552

在处理中文文本数据时,输入以矩阵的形式表现,每个句子的维度为 V \in \mathbb{R}^{n \times d1}。输入机制被设计为双通道系统,包含一对大小为 n \times d1 的矩阵。第一个矩阵包含词的嵌入向量,这些词向量在整个训练过程中保持静态。相反,第二个矩阵同样初始化,但设计为可变的,随着训练的进行而调整。

在矩阵 V 上通过卷积核 W 执行卷积操作,卷积核从空间 R^{h \times d2} 迭代,以导出一系列特征映射 F,这些映射由元素 {f_0, f_1, \dots, f_{n-h+1}} 组成,处于 R^{n-h+1} 中。计算每个 f_i 的方法在方程(9)中展示:

f_i=f(W\otimes V_{i:i+h-1}+b)

其中,n 表示单词的数量,d1 表示每个单词的词向量维度,d2 是卷积核的长度,h 是卷积核的宽度。V_{i:i+h-1} 指代矩阵 V 的第 i 行到 (i+h-1) 行的部分,这是由第 i 个单词到第 (i+h-1) 个单词组成的词向量矩阵,b 是偏置矩阵,f(\cdot) 是激活函数。

在这个架构中,采用了ReLU激活函数。卷积过程中利用了不同尺寸的滤波器,来识别不同的单词关系,并收集垂直差异数据。预定数量的滤波器能够处理各种数据类型。这些滤波器生成了一系列的卷积输出。每次卷积操作提取一个特征向量,具有不同孔径的滤波器会生成构成卷积层输出的各种向量。卷积层输出一个特征集 F,随后被传递到池化层以保留关键特征。CNN利用各种滤波器尺寸来提取不同的特征。随后,最大池化过程压缩这些特征以移除多余数据。经过池化后的特征被整合并输入到全连接层,最终与分类标签空间对齐。最终,全连接层输出确定的分类结果。

3.4 深度金字塔卷积神经网络 (DPCNN)

在2017年ACL大会上,腾讯AI实验室推出了DPCNN。DPCNN模型的结构,如图5所示,代表了一种基于词级别的深度卷积神经网络。TextCNN在通过卷积捕捉文本的长距离依赖关系方面存在挑战,而DPCNN通过逐步加深网络层次,可以提取这些长距离的文本依赖关系。实验表明,增加网络深度可以在不显著增加计算成本的情况下,获得最佳的准确率。DPCNN是一个专门设计来处理复杂文本数据的深度学习模型。它通过多层卷积和池化操作逐步细化和提取文本特征,有效地增强了对复杂语言结构的理解。

image-20240912235602835

卷积层:

DPCNN的卷积层使用不同尺寸的卷积核来捕捉文本数据中的局部特征。每个卷积层的操作可以表示为方程(10):

C_i=f(W_i*X_i+b_i)

其中,C_i 表示第一层的卷积输出,f 是激活函数(通常为ReLU),W_ib_i 分别表示卷积层的权重和偏置,X_i 是输入特征图,* 表示卷积操作。DPCNN通过不同尺寸的卷积核在文本中捕捉多尺度特征,从而实现对不同上下文和结构的敏感性。

金字塔池化结构:

DPCNN采用级联池化策略,逐步减少特征图的空间维度,同时保留重要信息。每一层的池化操作可以表示为方程(11):

P_i=\max_k(X_{i,k:k+l})

其中,P_i 是第 i 层的池化输出,\max_k 表示在 kk+l 范围内进行最大池化操作。这种金字塔式的下采样方法帮助模型在更深的层次捕捉更广泛的上下文特征。

残差连接:

在深度神经网络中,为了避免信息衰减和梯度消失的问题,DPCNN引入了残差连接。每个残差块的操作可以通过方程(12)表示:

R_i=C_i+X_i

其中,R_i 是残差块的输出,它将卷积层的输出 C_i 与原始输入 X_i 相加,从而实现信息快速传递和长距离的信息转移。

全连接层与分类输出:

在经过多层卷积和池化操作后,模型将最终特征图传递给全连接层以进行最终分类。全连接层的功能在方程(13)中表示:

F=W_f\cdot R_n+b_f

其中,R_n 是最后一个残差块的输出,W_fb_f 分别是全连接层的权重和偏置。该层将所有提取的特征整合并映射到最终的分类空间。

DPCNN通过其深层结构和专门设计的池化策略,显著提高了捕捉文本中复杂语义结构的能力,从而在各种文本分类任务中表现出色。此外,残差连接的使用增强了信息在网络中的流动,允许更深的网络结构在不丢失信息的情况下进行训练,大大提高了模型的学习能力和性能。

3.5 多头注意力机制(MHA)

Multi-Head Attention Mechanism

多头注意力机制 (MHA) 是高级神经网络架构的基石之一,通过将注意力操作划分为多个子空间来处理序列数据,增强了模型的表达能力。Vaswani等人在Transformer模型中首次引入了MHA,自此它迅速在NLP任务中崭露头角。在其核心部分,如图6(左)所示,该机制采用了缩放点积注意力 (scaled dot-product attention),通过查询 (Q)、键 (K)、和值 (V) 的矩阵乘法来增强训练过程中的梯度稳定性,并进行缩放。一个可选的掩码功能可以屏蔽未来序列信息。接下来使用SoftMax函数生成一个概率分布,指导模型为每个值分配“注意力”。如图6(右)所示,MHA并行执行多个注意力头操作,捕捉不同表现子空间的多样化特征,从而加深上下文理解。通过随后线性层的处理和输出连接,显著增强了语言任务的表现。

image-20240913000225078

MHA的核心策略是将输入序列表示分布到多个独立的注意力“头”上。当处理包含查询 (Q)、键 (K) 和值 (V) 的输入序列时,MHA对每个头执行以下步骤:

首先,每个输入的线性投影通过独立的线性变换,生成每个头的特定 Q、K、V 表示,如方程 (14) 到 (16) 所示:

Q_{i}=XW_i^Q\\K_{i}=XW_i^K\\V_{i}=XW_i^V

其中,W_i^QW_i^KW_i^V 是每个头的可学习权重矩阵,i 表示头的索引。

在每个头中,通过计算 Q 和 K 的点积来生成注意力得分。这些得分然后缩放并通过SoftMax函数,来得出最终的注意力权重,如下方程 (17) 所示:

\text{Attention}(Q_i,K_i,V_i)=\text{softmax}\left(\frac{Q_iK_i^T}{\sqrt{d_k}}\right)V_i

其中,d_k 是键向量的维度,用于缩放点积以防止梯度问题。缩放的目的是调节点积的大小,从而缓解梯度消失的问题,该问题在SoftMax函数中可能出现。

最后,多头注意力机制的输出表示为:

\mathrm{MultiHead}(Q,K,V)=\mathrm{Concat}(\mathrm{head}_1,\ldots,\mathrm{head}_h)W^O

其中,\text{head}_i = \text{Attention}(Q_i, K_i, V_i) 是每个头的输出,W^O 是输出投影的权重矩阵。

多头注意力机制的每一步都经过精心设计,确保模型能够捕捉输入数据的复杂结构和细微差别。通过采用这种方法,模型能够从不同表示子空间中提取更多细微信息,从而在广泛的NLP挑战中有效提高模型的性能。

3.6 BCOLD模型结构

中文作为一种独特的语言,在表达方式、俚语使用和文化背景等方面与英语等西方语言有很大差异。目前,绝大多数攻击性语言检测的研究集中在外语上。检测中文中的攻击性语言不仅是一种技术需求,也是一种社会、文化和法律需求,对于维护健康的网络环境、促进社会和谐与技术发展具有重要意义。因此,本研究构建了一个BCOLD模型,用于检测中文中的攻击性语言。

BCOLD模型主要由BERT、CTM、TextCNN(改进的组合池化)、DPCNN和多头注意力机制组成。BCOLD模型的工作原理主要包括以下五个部分,如图7所示:

image-20240913002808966

3.6.1 输入层

输入层:接受来自中文攻击性语言数据集的数据作为模型的初始输入。

3.6.2 嵌入层

嵌入层:输入的文本数据由BERT编码为词向量。这确保模型能够理解文本中与上下文相关的信息。

3.6.3 主题建模

主题建模 (CTM):由BERT生成的词向量通过CTM模型处理,生成与文本相关的主题向量。这有助于模型理解文本的整体主题,使其不仅能够理解文本的深层语义,还能够捕捉其主题特征。嵌入融合方程如(19)~(22)所示:

\begin{gathered} E_{\mathrm{bert}}=\mathrm{BERT}_{\mathrm{Embed}}(X) \\ V_{\mathrm{bert}}=\mathrm{BERT}_{\mathrm{Embed}}(E_{\mathrm{bert}}) \\ V_{\mathrm{ctm}}=\mathrm{CTM}(V_{\mathrm{bert}}(\mathrm{cls})) \\ V_{\mathrm{combined}}=V_{\mathrm{bert}}\oplus V_{\mathrm{ctm}} \end{gathered}

其中,X 表示输入的文本序列,E_{\text{bert}} \in \mathbb{R}^{n \times d} 是BERT生成的词嵌入,n 是序列的长度,d 是嵌入维度,V_{\text{bert}} 表示经过编码的隐藏层表示,V_{\text{ctm}} 是主题分布向量。

3.6.4 特征提取层

特征提取层 (DPCNN和TextCNN):BERT和CTM的输出融合后,输入到DPCNN和TextCNN模型中进行并行处理。并行处理使模型能够同时学习不同的特征表示,DPCNN擅长处理长距离依赖关系并捕捉文本的深层语义结构,而TextCNN则擅长捕捉局部特征。该并行处理模式使模型能够综合这些特征,从而提高性能。为了防止过拟合,Dropout层被引入,并在全连接层中集成了L2正则化参数。使用的激活函数是ReLU。方程如下:

V_{\mathrm{dpcnn}}=\mathrm{DPCNN}(V_{\mathrm{combined}})\\V_{\mathrm{dpcnn}}=\mathrm{MaxPool}(\mathrm{RELU}(W_{\mathrm{dpcnn}}*V_{\mathrm{combined}}+b_{\mathrm{dpcnn}}))

其中,V_{\text{dpcnn}} \in \mathbb{R}^{d'} 表示由DPCNN提取的特征,W_{\text{dpcnn}}b_{\text{dpcnn}} 分别是DPCNN的权重和偏置。

TextCNN 特征提取(带组合池化)部分,通过最大池化可能会丢失一些信息。为了改善这一情况,本文改进了池化层,使用 K-Max 池化和平均池化的组合来代替最大池化。通过这两种池化策略的组合,模型能够从不同的角度提取文本数据的特征,增加了特征的多样性。Top-2 最大池化和平均池化的组合使得模型在处理不同数据分布和噪声时更加稳健,具有更好的适应性。这种混合方法提升了模型在文本分类等任务中的有效性,同时保持了计算效率。

V_{\mathrm{textcnn}}=\mathrm{TextCNN}(V_{\mathrm{combined}})

每个卷积核k的计算如下:

C_k=\mathrm{ReLU}(\mathrm{Conv}(V_{\mathrm{combined}},W_k,b_k))

然后,对每个特征图 C_k 进行组合池化,首先应用 Top-2 最大池化来获取两个最大的值,然后应用平均池化,最后对每个 k,将 Top-2 最大池化的输出和平均池化的输出组合以形成池化后的特征向量 P_k。公式如下所示:

\begin{gathered} P_{top2}^{k}=\text{Top}2\text{MaxPooling}(C_k) \\ P_{mean}^{k}=\text{MeanPooling}(C_k) \\ P_k=P_{top2}^{k}\oplus P_{mean}^k \end{gathered}

最终,所有 K 个卷积核的池化特征向量 P_k 被连接在一起,形成最终的特征表:

V_{\mathrm{textcnn}}=\bigoplus_{k=1}^KP_k

其中,W_kb_k 分别是第 k 个卷积核的权重和偏置,V_{\text{textcnn}} \in \mathbb{R}^{d''} 表示 TextCNN 提取的特征,\oplus 表示连接操作,K 是卷积核的数量。

3.6.5 特征融合

DPCNN 和 TextCNN 的输出特征通过拼接操作进行融合,以整合不同模型的优势:

V_{\mathrm{merged}}=\text{torch.cat}(V_{\mathrm{dpcnn}},V_{\mathrm{textcnn}})

其中,\text{torch.cat}() 是 Pytorch 中的拼接操作,V_{\text{merged}} \in \mathbb{R}^{d' + d''}

3.6.6 多头注意力机制

应用 MHA 进一步优化融合后的特征表示,并聚焦于关键信息:

V_{\mathrm{mha}}=\mathrm{MHA}(V_{\mathrm{merged}})\\V_{\mathrm{mha}}=\mathrm{Concat}(\mathrm{head}_1,\mathrm{head}_2,\ldots,\mathrm{head}_h)W^O

其中,每个 \text{head}*i = \text{Attention}(Q_i, K_i, V_i)W^O 是线性层的权重矩阵,V*{\text{mha}} \in \mathbb{R}^{d_{\text{mha}}} 表示已经通过多头注意力处理后的特征。

3.6.7 全连接层和输出层

通过特征融合和注意力机制优化后的属性被传递到全连接层,用于最终分类。输出层使用 Softmax 函数来计算分类概率:

Y=\mathrm{Softmax}(WV_\mathrm{mha}+b)

其中,W \in \mathbb{R}^{c \times d_{\text{mha}}}b \in \mathbb{R}^c 是分类层的权重和偏置,c 是类别数量,Y 表示分类结果。

4 实验

image-20240913002937217

image-20240913002947790

image-20240913003007126

image-20240913003027947

image-20240913003039291

image-20240913003052353

5 结论与未来工作

本研究提出了一种结合 BERT 和主题信息的双通道并行方法,用于中文攻击性语言的检测。通过将 BERT 模型生成的上下文敏感词向量与 CTM 生成的主题向量结合,BCOLD 模型显著提高了对复杂中文语境和细微语义差异的理解能力。并行结构的应用结合了 DPCNN 和 TextCNN 的优点,进一步增强了捕捉文本深层含义和局部特征的能力。实验结果表明,BCOLD 模型在检测中文攻击性语言,尤其是区分微妙的攻击性表达与普通话语方面,具有较高的准确性和效率。

尽管本研究取得了初步成果,以下几个方面仍值得进一步探索:

  1. 数据集的多样性与扩展:未来研究可以考虑引入更为多样化的数据集,包括来自不同领域和风格的文本,以测试和提升模型的泛化能力。
  2. 算法效率与优化:进一步提升算法的运行效率,优化内存使用和计算资源,使模型能够在配置较低的设备上运行,从而扩大应用范围。这对于实现医疗设备和机器视觉系统的实时监控和分析至关重要。
  3. 模型可解释性研究:增强模型的可解释性使用户能够更好地理解模型的决策过程,并提高其在实际应用中的信任度。这在医疗领域尤为重要,医生和患者需要清晰了解分析结果的依据,特别是在医生处方管理和智能康复指导方面。
  4. 跨语言和多模态适应性:探索模型在不同语言和多模态环境中的适用性,尤其是理解全球化背景下攻击性语言的普遍性和特异性。这将有助于检测技术在多语言环境及结合图像与文本等多模态信息的应用场景中的推广和应用。
  5. 实际应用场景的扩展:考虑将模型应用于更多的实际场景中,实现用户指导或指令文本的自动识别和处理,从而提高工作效率和准确性。
  6. 对抗样本与模型鲁棒性研究:研究模型应对各种恶意篡改或误导性样本的能力,提升模型在复杂网络环境中的稳定性和鲁棒性。这对于确保医疗信息和机器视觉系统的准确性与安全性至关重要。

通过深入研究这些方面,我们期待未来的工作不仅能进一步提升模型性能,还能够更好地服务社会,为维护网络空间的和谐与安全做出更大的贡献。