Heritrix是一个开源爬虫框架,1.x和现在的2.x、3.x有很大的不同。但网上搜到的教程好像都是针对1.x的,最近也在用它做爬虫,没有修改源代码直接用,发现…….神坑…..
运行还是非常简单的,下载tar.gz(注意不是src)后解压,配置一下conf里面的heritrix.properties添加一下用户名密码(admin:admin),也可以修改一下监听端口。
然后运行bin/heritrix就可以了,如果想要其他机器也能访问,加上”-b /“参数即可。
接下来就是各种坑……..
阅读全文