NLP情绪分析-基本准则

2024-05-19 • 问答

我正在做我在NLP领域中的第一个项目，该项目是对带有约250个带标签的英语数据点/句子的数据集的情感分析。数据集是具有阳性，阴性或中性标签的药品评论。我已经在监督学习中使用数字数据工作了3年，但是NLP对我来说是未知的领域。因此，我想知道最好的预处理技术以及我需要做的最适合我的问题的步骤。 NLP专家的指导将不胜感激！

根据您对mohammad karami答案的评论，您所不了解的是段落或句子表示形式（您说的是“转换为数字才是真正的问题” ）。因此，在数字数据中，假设您有一张带有两列（特征）和标签的表，也许是“工作经验”，“年龄”和标签“薪水”之类的东西（根据年龄和工作经验来预测薪水））。在NLP中，功能通常不是大部分时间都位于字级（有时也可以是字符级或子字级）。这些功能称为令牌。现在，这些列将替换为这些标记。进行段落表示的最简单方法是使用单词袋。因此，在预处理之后，每个唯一的单词都将映射为列。因此，假设我们具有两行数据训练，如下所示：

“我帮助你，你应该帮助我”
“你和我”

唯一词将成为该列，因此表可能如下所示：

I | help | you | and | should | me

现在这两个样本的值如下：

[1、2、2、1、1、1]
[1、0、1、1、0、0]

请注意，数组的第一个元素为1，因为两个样本都具有单词I且发生一次，现在在第二行中看到第二个元素为2，{{ 1}}在第二行，因为单词help在第一行出现了两次，而在第二行却从未发生过。这样做的逻辑是：“如果单词A，单词B ...存在，而单词H，单词I ...不存在，则标签为正”。

大多数情况下，单词袋有效，但是它存在诸如维数问题（想象有40亿个唯一单词，特征太多）之类的问题，并且请注意，它并没有考虑单词的顺序，请注意，相似的词用相同的方式表示，并且还有更多。 NLP的最新技术称为BERT，请了解如果您想使用最佳。

首先，您必须指定要具有的功能，然后进行预处理。但是，您可以：1-删除HTML标签 2-删除多余的空格 3-将重音字符转换为ASCII字符 4-扩大收缩 5-删除特殊字符 5-小写所有文字 6-将数字单词转换为数字形式 7-删除号码 8-删除停用词 9-合法化做自己的数据。我建议查看NLP的NLTK软件包。 NLTK具有情感分析功能（maybe help your work）。然后使用tf-idf或任何其他特征提取或特征选择算法提取特征。然后缩放后给出机器学习算法。

NLP情绪分析-基本准则

vip58581658 回答：NLP情绪分析-基本准则

大家都在问