当前位置:WooYun(白帽子技术社区) >> 安全测试 >> 数据分析挑战:精细化的fuzz规则

数据分析挑战:精细化的fuzz规则

猪猪侠 (每次有人骂我是猪我都说自己是猪猪侠) | 2015-07-28 10:09

我们在国内做安全测试过程中,发现中国姓名排行TOP500(数据统计来自国家人口数据库)的作用是简单而又高效。WooYun: 人类的怠惰之一安全管理执行力度不够导致唱吧安全边界被突破(进入内网)

然而根据数理统计来说,上面的命中率其实并不高,于是我思考出了几个新的点:
1、针对海量已有的姓名库,进行统计分析(这个库的来源是已泄露的 QQ群数据库)。
2、每个QQ都有备注自己的真实名字(取2-4个中文字的昵称),对QQ号去重(14.5亿个昵称);
3、针对姓-名进行二分,姓氏为一个字段,名字为一个字段;
4、统计最多的姓氏,统计使用得最多的名字;
5、针对TOP10、TOP50的姓氏+名字做排列组合,生成我们需要的fuzz向量。

* 来自海量社工库的{真实姓名}字段挖掘;
* 来自海量社工库的常用username字段挖掘;
* 来自海量社工库的常用email-name字段挖掘;

中国人口最多的前十大姓
1.李姓-占全中国汉族人口的 7.94%=95,300,000人。
2.王姓 -占全中国汉族人口的 7.41%=88,900,000人。
3.张姓 -占全中国汉族人口的 7.07%=84,800,000人。
4.刘姓 -占全中国汉族人口的 5.38%=64,600,000人。
5.陈姓 -占全中国汉族人口的 4.53%=54,400,000人。
6.杨姓 -占全中国汉族人口的 3.08%=37,000,000人。
7.赵姓 -占全中国汉族人口的 2.29%=27,500,000人。
8.黄姓 -占全中国汉族人口的 2.23%=26,800,000人。
9.周姓 -占全中国汉族人口的 2.12%=25,400,000人。
10.吴姓-占全中国汉族人口的 2.05%=24,600,000人。

中国人口最多的前100名姓氏:前十名总人口约为5.5亿人。
01李 02王 03张 04刘 05陈 06杨 07赵 08黄 09周 10吴
11徐 12孙 13胡 14朱 15高 16林 17何 18郭 19马 20罗
21梁 22宋 23郑 24谢 25韩 26唐 27冯 28于 29董 30萧
31程 32曹 33袁 34邓 35许 36傅 37沈 38曾 39彭 40吕
41苏 42卢 43蒋 44蔡 45贾 46丁 47魏 48薛 49叶 50阎


pre_name = {'李','王','张'};
name = {'伟','芳','勇'};
姓:李  名:伟
姓:李  名:芳
姓:李  名:勇
姓:王  名:伟
姓:王  名:芳
姓:王  名:勇
姓:张  名:伟
姓:张  名:芳
姓:张  名:勇


利用分布式架构实现:
10台机器分布式统计分析,而且你的程序应该能平滑扩展到更多的机器,支持更大的数据量。
将上面的结果私信我,你将能够参与到 tangscan 的研发。

EXAMPLE:
3.jpg

2.jpg

1.jpg

4.jpg

分享到:
  1. 1#
    回复此人 感谢
    随随意意 (RedFreever007pyphrb的徒弟) | 2015-07-28 10:10

    猪哥大字典

  2. 2#
    回复此人 感谢
    浮萍 | 2015-07-28 10:11

    取2-4个中文字的昵称

  3. 3#
    回复此人 感谢
    猪猪侠 (每次有人骂我是猪我都说自己是猪猪侠) | 2015-07-28 10:18

    然后面试问题来了:
    通过分布式的方式实现代码,处理QQ群数据,统计分析出结果。

  4. 4#
    回复此人 感谢
    小威 | 2015-07-28 10:22

    牛逼

  5. 5#
    回复此人 感谢
    JiuShao | 2015-07-28 10:31

    然后在利用这个http://zone.wooyun.org/content/21953来统计分析。

  6. 6#
    回复此人 感谢
    boooooom | 2015-07-28 10:34

    你将能够参与到 tangscan 的研发。

  7. 7#
    回复此人 感谢
    过客 | 2015-07-28 10:43

    @猪猪侠 偷懒的做法,搭一套 hadoop,平滑扩展不是问题,如果内存够用的话,写脚本用 Streaming 接口调 MapReduce 去跑是可以完成的。

  8. 8#
    回复此人 感谢
    Jn· (小学生一枚,不服你TM别打我.) | 2015-07-28 10:44

    qwe.png我只发发不说话

  9. 9#
    回复此人 感谢
    猪猪侠 (每次有人骂我是猪我都说自己是猪猪侠) | 2015-07-28 10:50

    @过客 恩,我用mysql的两条SQL就得到结果了

  10. 10#
    回复此人 感谢
    prolog (事了拂衣去,不收一分钱) | 2015-07-28 12:25

    猪哥大典

  11. 11#
    回复此人 感谢
    prolog (事了拂衣去,不收一分钱) | 2015-07-28 12:41

    我觉得拿下这个站的数据就行了。。
    http://www.resgain.net/

    毕竟起名一般比较讲究音韵,三才五行

  12. 12#
    回复此人 感谢
    scanf (www.scanfsec.com 网络尖刀) | 2015-07-28 12:43

    超级大字典啊

  13. 13#
    回复此人 感谢
    纷纭 (:-)) | 2015-07-28 16:41

    大字典。。。。

  14. 14#
    回复此人 感谢
    missdiog | 2015-07-28 22:54

    @过客 更偷懒的做法,下载一个免费版splunk,安装dbconnect app,将sql server导入splunk,执行查询 index=xx |stats count by pre_name name 结果就出来了。

  15. 15#
    回复此人 感谢
    过客 | 2015-07-29 10:15

    @missdiog 免费版的 splunk 有数据 500M 限制

  16. 16#
    回复此人 感谢
    missdiog | 2015-07-29 11:22

    @过客 一个月可以超过3次

  17. 17#
    回复此人 感谢
    Mr.R | 2015-07-29 13:49

    你将能够参加tangscan的开发。。 猪哥你在tangscan ??! @猪猪侠

  18. 18#
    回复此人 感谢
    XTT | 2015-08-20 11:14

    大数据时代的数据分析专家,赞!@猪猪侠

  19. 19#
    回复此人 感谢
    抽烟的2B青年 (听自己的歌,看别人的戏。) | 2015-08-20 22:39

    默默地看着大神们发威就好了。

  20. 20#
    回复此人 感谢
    黑暗游侠 | 2015-08-20 23:22

    @猪猪侠 然而一个验证码这些fuzz就没有用了

  21. 21#
    回复此人 感谢
    猪猪侠 (每次有人骂我是猪我都说自己是猪猪侠) | 2015-08-21 01:02

    @黑暗游侠 90%以上的验证码废物一般的存在。

  22. 22#
    回复此人 感谢
    枪花 | 2015-08-21 01:18

    思维空间不再一个维度啊 高强大

  23. 23#
    回复此人 感谢
    野驴~ (生活不是只有诗与远方,还有眼前与苟且。) | 2015-08-21 06:54

    @猪猪侠 期待知识库出paper。数据库分析字典数据。

添加新回复

登录 后才能参与评论.

WooYun(白帽子技术社区)

网络安全资讯、讨论,跨站师,渗透师,结界师聚集之地

登录