恶意软件训练集:FollowUP
专家marco ramilli通过添加脚本部分对其恶意软件分类活动进行了跟踪,该脚本部分将有助于实现多种目的。
2016年以来,我一直在努力寻找通过人工智能(机器学习)对恶意软件系列进行分类的方法。我遇到的第一个困难之一是找到一个分类测试集,以便运行新的算法和测试指定的功能。所以,我想出了这个博客文章和这个GitHub存储库,在这里我提出了一个基于行为分析的恶意软件指令集修改版本的新测试集,也称为MIST。从那天起,我收到了来自世界各地的学生,研究人员和从业者的数百封电子邮件,询问有关如何跟进该研究,以及如何为扩展培训集做出贡献。
数据集生成过程
我很高兴许多国际研究使用我的分类恶意软件数据集作为构建块来进行大量分析,并改善了恶意软件研究的现状和最新技术水平。其中一些列在这里,但许多其他论文,文章和研究已经发布(谷歌查询即可)。
- 大数据:深入学习检测恶意软件
- 网络安全Wiki的人工智能和机器学习
- 走向跨组织的协作防御
- 打造恶意软件驱动的蜜罐
- 数字业务中的信任,隐私和安全:第14届国际会议,TrustBUS
- 恶意软件检测方案的设计与实现
- 网络安全的机器学习
- ...
今天我终于有机会通过添加一个脚本部分进行跟进,这将有助于:(i)将生成MIST文件的修改版本(训练集 中的文件)和(ii)获得的结果转换为怀卡托大学的ARFF(属性关系文件格式)。第一个名为mist_json.py
的脚本是一个报告模块,可以集成到正在运行的CuckooSandBox环境中。它能够获取cuckoo报告并将其转换为MIST文件的修改版本。为此,将mist_json.py
放入CuckooSandbox V1(modules/reporting/
)的运行实例中,并将特定的配置部分添加到conf/report.conf
中。您可以通过直接编辑源代码来强制执行而无需配置,结果将是每个Cuckoo分析样本的MIST文件。MIST文件将生成的功能包装在此处的原始帖子中。通过使用第二个名为fromMongoToARFF.py
的脚本,您可以将JSON对象转换为ARFF,这对于导入WEKA以测试您喜欢的算法非常有用。
现在,如果您希望自己能够生成训练集并直接在WEKA中测试新算法。创建过程遵循以下步骤:
- 将样本上传到正在运行的CuckooSanbox中,并使用
mist_json.py
补丁 - 所
mist_json.py
为每个提交的样本生成一个MIST.json文件 - 使用简单的脚本将所需的MIST.json文件导入MongoDB。例如
for i in **/*.json; do; mongoimport --db test --collection test --file $i; done;
- 使用
fromMongoToARFF.py
生成ARFF - 将生成的ARFF导入Weka
- 开始实验课程
如果您想与社区共享您的新MIST分类文件,请随时直接在GitHub上进行pull请求。每个使用这套工具的人都会喜欢的。
本文由白帽汇整理并翻译,不代表白帽汇任何观点和立场
来源:
https://marcoramilli.com/2019/05/14/malware-training-sets-followup/
最新评论