使用深度学习识别文本序列中的子部分

首先,我对深度学习非常陌生,如果我没有提出不符合站点标准的问题,对不起。

我有一个arm assembly opcodes序列,分别对应于许多功能(您可以从here查看整个csv文件)。如果我给出一个特定的函数序列,则如下所示。

// This is the disassembly sequence of a function named bit()

// just assume four opcodes `b0 0a 46 01` belong to certain other library
83 b0 0a 46 01 90 02 a8 01 70 ff e7 01 98 01 68 01 22 52 05 91 43 01 60 02 a8 00 78 40 05 00 90 ff e7 01 98 01 68 00 9a 11 43 01 60 01 98 03 b0 70 47 

我已经建立了一个小型的深度学习模型(通过遵循NLP教程),以在通过上述字节序列时将功能分类为八类。但是,除了识别功能标签之外,我还需要识别属于特定库的字节序列。例如,在上述功能b0 0a 46 01中,您相信另一个库。因此,我想在传递整个功能序列时识别这些子序列。我相信这类似于图像中的对象检测,在图像中识别模型中的对象不仅仅是识别图像本身。

坦率地说,我不知道在深度学习中是否可能有这样的要求,如果可能的话,我想知道我可以查找和学习以实现目标的任何资源/教程。再次抱歉,我要问的是没有意义的事情。如有可能,请多多帮助。

tszgcs 回答:使用深度学习识别文本序列中的子部分

您的想法像对象检测问题之类的想法似乎很有意义。在这种用例https://pjreddie.com/darknet/yolo/中,Yolo模型应该是相当不错的。也许您可以用1D卷积代替2D卷积来适应您的用例。此外,尽管您可能已经实现了这一部分,但是创建嵌入作为第一步的操作码编码可能会有所帮助。我希望这会有所帮助。

本文链接:https://www.f2er.com/3122643.html

大家都在问