Heritrix是一个基于JAVA的开源爬虫工具,具有高度的可扩展性,并高度尊重robot.txt排除指令和Meta机器人标签,并以自适应速度收集数据,执行稳定性好。这是一个简单、快速的Web爬虫,旨在轻松、快速地发...
浏览 54 次 标签: 适合Python、Java、Go、JavaScript开发语言】【转载】 【GitHub项目推荐--21个最佳开源网络爬虫库