词嵌入是将词语转换为固定长度的向量,但不保留词语之间的语义关系。
TF-IDF是一种用于评估词语在一份给定文档中的重要性的统计方法,其中TF代表词频,IDF代表逆文档频率。
LSTM是长短期记忆网络,它是一种特殊的RNN,但并不能解决RNN的梯度消失问题。
深度学习中的过拟合现象指的是模型在训练集上表现良好,但在测试集上表现较差。
深度学习中的激活函数用于引入非线性因素,使得神经网络能够拟合复杂的非线性函数。
深度学习中的dropout技术是一种正则化方法,它通过随机丢弃部分神经元来防止模型过拟合。
词干提取(Stemming)和词形还原(Lemmatization)都是将词语的不同形态还原到其基本形式的过程,但二者在处理方式和效果上完全相同。
深度学习模型训练时,如果损失函数在某一时刻突然上升,这通常意味着模型出现了梯度消失或梯度爆炸问题。
GPT系列模型是OpenAI开发的预训练语言模型,它们都是基于Transformer架构的。
深度学习中的生成对抗网络(GAN)由生成器和判别器两部分组成,其中生成器负责生成假数据,判别器负责区分真假数据。
深度学习中的自编码器(Autoencoder)是一种无监督学习模型,主要用于数据降维或特征学习。
深度学习中的早停(Early Stopping)技术是一种正则化方法,它通过在验证集上监测模型性能来提前终止训练,以防止过拟合。
特征重用可以显著提高模型的效率和性能,因为它允许模型在相同层次上共享和传递知识。
Transformer的局部信息的获取能力强.能很好地表征位置信息。
在给到任何神经网络之前,Tokens都会被转换成数字。