搜索
查看: 872|回复: 4

分享一个爬虫

[复制链接]

1839

主题

2255

帖子

1万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
11913
发表于 2013-12-6 19:49:40 来自手机 | 显示全部楼层 |阅读模式
基本实现了多线程,深度控制,关键词。
记录方面,没有连数据库,只是做了文本处理。

目前存在问题,大型网站深入后,效率变慢问题。(具体原因可能是爬到一半后,请求的url返回值并不是200,所以导致线程等待一个timeout)
这个问题目前没想好解决方案
游客,如果您要查看本帖隐藏内容请回复
专业回帖 该用户已被删除
发表于 2013-12-6 20:41:36 | 显示全部楼层
有竞争才有进步嘛
专业回帖 该用户已被删除
发表于 2013-12-6 21:07:14 | 显示全部楼层
不知该说些什么。。。。。。就是谢谢
x7hack 该用户已被删除
发表于 2013-12-7 16:04:02 | 显示全部楼层
干嘛用的啊
您需要登录后才可以回帖 登录 | Join BUC

本版积分规则

Powered by Discuz!

© 2012-2015 Baiker Union of China.

快速回复 返回顶部 返回列表