NLP情绪分析-基本准则

我正在做我在NLP领域中的第一个项目,该项目是对带有约250个带标签的英语数据点/句子的数据集的情感分析。数据集是具有阳性,阴性或中性标签的药品评论。我已经在监督学习中使用数字数据工作了3年,但是NLP对我来说是未知的领域。因此,我想知道最好的预处理技术以及我需要做的最适合我的问题的步骤。 NLP专家的指导将不胜感激!

vip58581658 回答:NLP情绪分析-基本准则

根据您对mohammad karami答案的评论,您所不了解的是段落句子表示形式(您说的是“转换为数字才是真正的问题” )。因此,在数字数据中,假设您有一张带有两列(特征)和标签的表,也许是“工作经验”,“年龄”和标签“薪水”之类的东西(根据年龄和工作经验来预测薪水) )。在NLP中,功能通常不是大部分时间都位于字级(有时也可以是字符级或子字级)。这些功能称为令牌。现在,这些列将替换为这些标记。进行段落表示的最简单方法是使用单词袋。因此,在预处理之后,每个唯一的单词都将映射为列。因此,假设我们具有两行数据训练,如下所示:

  • “我帮助你,你应该帮助我”
  • “你和我”

唯一词将成为该列,因此表可能如下所示:

I | help | you | and | should | me

现在这两个样本的值如下:

  • [1、2、2、1、1、1]
  • [1、0、1、1、0、0]

请注意,数组的第一个元素为1,因为两个样本都具有单词I且发生一次,现在在第二行中看到第二个元素为2,{{ 1}}在第二行,因为单词help在第一行出现了两次,而在第二行却从未发生过。这样做的逻辑是:“如果单词A,单词B ...存在,而单词H,单词I ...不存在,则标签为正”。

大多数情况下,单词袋有效,但是它存在诸如维数问题(想象有40亿个唯一单词,特征太多)之类的问题,并且请注意,它并没有考虑单词的顺序,请注意,相似的词用相同的方式表示,并且还有更多。 NLP的最新技术称为BERT,请了解如果您想使用 最佳

,

首先,您必须指定要具有的功能,然后进行预处理。但是,您可以:1-删除HTML标签 2-删除多余的空格 3-将重音字符转换为ASCII字符 4-扩大收缩 5-删除特殊字符 5-小写所有文字 6-将数字单词转换为数字形式 7-删除号码 8-删除停用词 9-合法化 做自己的数据。我建议查看NLP的NLTK软件包。 NLTK具有情感分析功能(maybe help your work)。 然后使用tf-idf或任何其他特征提取或特征选择算法提取特征。然后缩放后给出机器学习算法。

本文链接:https://www.f2er.com/2623602.html

大家都在问