Heritrix 众坑英雄谱

发布在 Crawler

Heritrix是一个开源爬虫框架,1.x和现在的2.x、3.x有很大的不同。但网上搜到的教程好像都是针对1.x的,最近也在用它做爬虫,没有修改源代码直接用,发现…….神坑…..

运行还是非常简单的,下载tar.gz(注意不是src)后解压,配置一下conf里面的heritrix.properties添加一下用户名密码(admin:admin),也可以修改一下监听端口。

然后运行bin/heritrix就可以了,如果想要其他机器也能访问,加上”-b /“参数即可。

接下来就是各种坑……..

阅读全文
  • 第 1 页 共 1 页
作者的图片

BrieflyX

Stay calm & Keep faith


Security Researcher


Beijing, China