全球主机交流论坛

标题: 有精通爬虫和采集的吗? [打印本页]

作者: bluevm    时间: 2018-5-16 09:24
标题: 有精通爬虫和采集的吗?
我把百度经验的链接抓取到有近亿条记录,用服务器的话硬盘估计不够,准备用家用宽带100m本地电脑抓取,10线并发,平均2秒10篇,算了一下,采完要好几个月,还不算采集期间增加的,在最低成本的条件下,有何良策?
作者: yhqdq    时间: 2018-5-16 09:27
我也想问问.....  我才怕去了 几十万数据  觉得到上亿也有会存储不够
作者: 传奇1900    时间: 2018-5-16 09:27
提示: 作者被禁止或删除 内容自动屏蔽
作者: doruison    时间: 2018-5-16 09:27
传奇1900 发表于 2018-5-16 09:27
第一眼看到的是
精。。。。。。。。。。虫。。。。。。。。。。。



作者: ǿ    时间: 2018-5-16 09:33
提示: 作者被禁止或删除 内容自动屏蔽
作者: sora    时间: 2018-5-16 09:54
也采集了百度经验, 不过尴尬的是, 百度不怎么收录, 可能.cc域名的原因, 又或者百度经验的标题相似度太高.
作者: thymol    时间: 2018-5-16 09:55
提示: 作者被禁止或删除 内容自动屏蔽
作者: cw723    时间: 2018-5-16 09:58
百度经验百度的排重很厉害吧。

除非你是拼接文章。
作者: 王百万    时间: 2018-5-16 10:02
真是个大水笔
作者: king51    时间: 2018-5-16 10:06
做分布式吧
作者: bluevm    时间: 2018-5-16 10:17
sora 发表于 2018-5-16 09:54
也采集了百度经验, 不过尴尬的是, 百度不怎么收录, 可能.cc域名的原因, 又或者百度经验的标题相似度太高. ...

不做编辑不光不收,还K
作者: 左手写爱    时间: 2018-5-16 15:54
sora 发表于 2018-5-16 09:54
也采集了百度经验, 不过尴尬的是, 百度不怎么收录, 可能.cc域名的原因, 又或者百度经验的标题相似度太高. ...

采集港台的娱乐新闻换成简体中文收录好
作者: sora    时间: 2018-5-16 15:58
左手写爱 发表于 2018-5-16 15:54
采集港台的娱乐新闻换成简体中文收录好

感谢建议, 之后尝试尝试
作者: 忘江湖    时间: 2018-5-16 16:18
传奇1900 发表于 2018-5-16 09:27
第一眼看到的是
精。。。。。。。。。。虫。。。。。。。。。。。

咪兔
作者: a1438861827    时间: 2018-5-22 15:55
大佬,赞
作者: 仙无痕    时间: 2018-5-22 22:37
验证码识别模块 和代理api的




欢迎光临 全球主机交流论坛 (https://loc.1226.eu.org/) Powered by Discuz! X3.4