工作描述句子的分类方法

2024-05-19 • 问答

我需要对n = 630个职位描述的job_experience部分中的各个句子进行分类/分类。我对提取工作经验和与能力相关的句子特别感兴趣，但是我需要使它们与它们所关联的job_title保持联系。

这些职位描述的当前状态：许多类似的说法（例如，“需要microsoft Office技能。”“使用microsoft Word，PowerPoint的经验。”“至少3年相关工作经验领域。”“至少三年的类似职位经验。”。

将来，我们将需要压缩这些职位描述语句，以便例如可以将同一条语句应用于多个职位，并且经理可以从下拉列表中选择工作经验说明。

因此，我想对这些单独的句子进行分类，以便我们可以将它们压缩并决定今后将使用哪些语句。

我一直在研究应该做的事情，对于哪种方法最有效的建议，我将不胜感激。我熟悉R，但是主要将其用于数据整理和可视化。 LDA，kmeans文本聚类，特征识别...这些是我在研究（scikit-learn.org）中发现的东西，并且大多数都在Python中使用。

Python最适合这种事情吗？我可以使用R吗？
哪种算法最适合初学者？
我知道这不是魔术，只是在寻找实现此任务的最佳方法。

我的数据如下：

df <- data.frame(job_title = c("Recruiter","Recruiter","File Clerk","Learning & Org. Development Specialist","CNA","CNA"),job_experience = c("Minimum 1 year experience in recruitment or related human resources function.","Proficient in microsoft Office Applications.","High school diploma required.","Bachelors Degree in Human Resources or related field preferred.","High School diploma preferred.","Ability to use relevant computer systems.","Bachelors Degree in related field (e.g.,Human Resources,Education,Organizational Development).","Minimum 2 years experience applying L&OD principles and practices in an organizational setting.","Previous work experience in Human Resources preferred.","Experience with a learning management system (LMS).","High school diploma or GED equivalent.","Certified Nursing Assistant,certified by the Virginia Board of Health Professions.","CPR certification required at date of hire."))

我的目标是拥有这样的数据集（新列= job_exp_category）：

job_title  job_experience                               job_exp_category
"Recruiter"  "Minimum 1 year experience in recruitment..."  "Work experience"
"Recruiter"  "Proficient in microsoft Office Applicati..."  "Skill/Ability"
"Recruiter"  "High school diploma required."                "Degree"
...          ...                                            ...   
"CNA"        "Certified Nursing Assistant,certificati..."  "Certification/License"
"CNA"        "CPR certification required at date of hire."  "Certification/License"

感谢您对SO社区的任何见识。

万一有人看到这篇文章并且有类似的需求，这就是我（OP）最终要做的事情：

在the content in this link之后，我使用了监督学习（随机森林）的组合，将工作描述陈述分为四类（学位，工作经验，认证/许可证和ksa）和无监督学习（kmeans聚类分析））来存储使用相似词语的工作经验陈述（例如，群集1 =引用Microsoft Office产品的陈述）。

一般过程包括：

阶段1（确定与工作经验相关的工作描述陈述）：

将职位描述语句的样本手动编码到适当的类别中
将我的数据集转换为一个tidytext数据框，以便为分析做准备
使用人工编码的职位描述陈述及其相关类别创建训练数据集，然后创建包含要分类的职位描述陈述的测试数据集
使用caret包[详情：method="ranger"，现成的重采样方法，树数= 200]估计随机森林模型（监督学习）。我的OOB预测误差为2.96％。
使用predict()来预测剩余数据（即测试数据集）上的职位描述类别

阶段2（将工作经验陈述分类为相关的存储段）：

由于我对这项任务的预测错误感到满意，因此我筛选出仅包含属于“工作经验”的工作描述陈述
在清理数据集以避免在不重要的单词（例如，首选）上聚类之后，我使用kmeans()聚类分析（k = 200）来积累工作经验根据使用的单词将语句分为几类。

在这一点上，我们仍将最终决定最终的工作经验描述/分类，但是随着裁切的进行，此过程现在变得更加高效，并且在如何正确分类方面也有了一些先发优势。

工作描述句子的分类方法

yxsyg 回答：工作描述句子的分类方法

大家都在问