全球主机交流论坛

标题: 新人报道,发个91爬虫? [打印本页]

作者: ralaro    时间: 2018-2-3 19:36
标题: 新人报道,发个91爬虫?
本帖最后由 ralaro 于 2018-2-3 19:57 编辑

刚注册的,来和各位大佬学习的

送个自己花几分钟ctrl+c ctrl+v的爬虫
爬91视频的,
已经爬了300g 到第400页了

我是在Hostsolutions1T上爬的。没有开多线程,每次随机抓几页然后再下载
drive.google.com/open?id=1CUC9MrXj7YL-fqPhxY_cPNtKhve7_nIH
环境python3
需要下载的库bs4,requests,lxml 反正缺啥安装啥
作者: fengpioaxue    时间: 2018-2-3 19:38
谁的mjj都不能放假
作者: 倾城翻翻    时间: 2018-2-3 19:38
有没想过91站长的感受,人家拍摄的那么辛苦,你们直接爬?
作者: ogrish    时间: 2018-2-3 19:38
提示: 作者被禁止或删除 内容自动屏蔽
作者: yuqyu    时间: 2018-2-3 19:39
厉害了,坐等脚本。。吃灰小鸡终于有正当用处了!
作者: ralaro    时间: 2018-2-3 19:39
ogrish 发表于 2018-2-3 19:38
你要能爬没有水印的那才叫牛逼

啥叫没水印的
作者: youth    时间: 2018-2-3 19:41
微信搜索:大卫情圣



作者: fengshu    时间: 2018-2-3 19:42
又要买硬盘了,硬盘只剩100多g了
作者: imhaibo    时间: 2018-2-3 19:47
你直接把下载地址放出来应该会更受到欢迎
作者: ralaro    时间: 2018-2-3 19:55
imhaibo 发表于 2018-2-3 19:47
你直接把下载地址放出来应该会更受到欢迎

茶不好喝
作者: q952417961    时间: 2018-2-3 20:05
提示: 作者被禁止或删除 内容自动屏蔽
作者: 左手写爱    时间: 2018-2-3 21:28
求下载地址,可以私信pm我
作者: ralaro    时间: 2018-2-3 22:02
左手写爱 发表于 2018-2-3 21:28
求下载地址,可以私信pm我

已经发了啊
作者: pce0835    时间: 2018-2-3 22:18
之前有大佬出教程了,你还发
作者: 10000    时间: 2018-2-3 22:35
本帖最后由 10000 于 2018-2-3 22:37 编辑

本次还有280条未下载
下载失败
开始下载地址为http://XX/view_video.php?viewkey=1addf8a36b6058c123cd&page=7&viewtype=basic&category=mf
下载失败
开始下载地址为http://XX/view_video.php?viewkey=9134cb5129392adab019&page=7&viewtype=basic&category=mf
下载失败
开始下载地址为http://XX/view_video.php?viewkey=3011e6a686a3e49cad95&page=7&viewtype=basic&category=mf
下载失败
开始下载地址为http://XX/view_video.php?viewkey=faed07ce4520765ca0db&page=7&viewtype=basic&category=mf
下载失败
开始下载地址为http://XX/view_video.php?viewkey=994070284fb7966f77b7&page=7&viewtype=basic&category=mf
下载失败
开始下载地址为http://XX/view_video.php?viewkey=9130a12e17f35c404570&page=7&viewtype=basic&category=mf
下载失败
开始下载地址为http://XX/view_video.php?viewkey=d67432a6343a30363bbc&page=7&viewtype=basic&category=mf
下载失败
开始下载地址为http://XX/view_video.php?viewkey=eb8754a365b5bbc73581&page=7&viewtype=basic&category=mf




抓取成功了,为毛下载都是失败啊
作者: vultrlinode    时间: 2018-2-3 22:39
谢谢分享。VIRMACH 29刀HDD HDD大硬盘盘独服派上用场了
作者: xcy1020    时间: 2018-2-3 22:51
这个不错
作者: martin106s    时间: 2018-2-3 22:52
具体怎么操作啊。。。。。
作者: sora    时间: 2018-2-3 22:53
全球X站爬虫论坛.
作者: 10000    时间: 2018-2-3 22:54
xcy1020 发表于 2018-2-3 22:51
这个不错

为毛我抓成功,下载失败啊
作者: ralaro    时间: 2018-2-4 00:36
10000 发表于 2018-2-3 22:54
为毛我抓成功,下载失败啊

改个地方,看下错误 我都下载了500g了
作者: 10000    时间: 2018-2-4 00:38
本帖最后由 10000 于 2018-2-4 00:42 编辑
ralaro 发表于 2018-2-4 00:36
改个地方,看下错误 我都下载了500g了


改哪里啊~~
作者: 10000    时间: 2018-2-4 00:48
ralaro 发表于 2018-2-4 00:36
改个地方,看下错误 我都下载了500g了


开始抓取第21页,地址为http://XX/v.php?category=mf&viewtype=basic&page=21
Some characters could not be decoded, and were replaced with REPLACEMENT CHARACTER.
开始抓取第22页,地址为http://XX/v.php?category=mf&viewtype=basic&page=22
Some characters could not be decoded, and were replaced with REPLACEMENT CHARACTER.
开始抓取第23页,地址为http://XX/v.php?category=mf&viewtype=basic&page=23
Some characters could not be decoded, and were replaced with REPLACEMENT CHARACTER.
开始抓取第24页,地址为http://XX/v.php?category=mf&viewtype=basic&page=24
Some characters could not be decoded, and were replaced with REPLACEMENT CHARACTER.
本次还有662条未下载
开始下载地址为http://XX/view_video.php?viewkey=f2394902c854712f47cb&page=23&viewtype=basic&category=mf
下载失败
开始下载地址为http://XX/view_video.php?viewkey=e607a1a75f6fc439a465&page=24&viewtype=basic&category=mf
下载失败
开始下载地址为http://XX/view_video.php?viewkey=5df6a5c666c421157b76&page=25&viewtype=basic&category=mf
下载失败
开始下载地址为http://XX/view_video.php?viewkey=e0d3fbf0142859f653b9&page=25&viewtype=basic&category=mf
下载失败
开始下载地址为http://XX/view_video.php?viewkey=b3b63573ea3e64409055&page=25&viewtype=basic&category=mf
下载失败
开始下载地址为http://XX/view_video.php?viewkey=97added79518f0e85002&page=25&viewtype=basic&category=mf
作者: bigboss60    时间: 2018-2-4 12:31
也是要request库的?

作者: ralaro    时间: 2018-2-4 13:35
bigboss60 发表于 2018-2-4 12:31
也是要request库的?


作者: cw723    时间: 2018-2-4 14:15
ralaro 发表于 2018-2-4 13:35

Some characters could not be decoded, and were replaced with REPLACEMENT CHARACTER.
我也是这个错误

python3.6
作者: yidaomm    时间: 2018-2-4 14:18
为兄弟点赞~~
作者: vultrlinode    时间: 2018-2-4 14:28
快500g了。目前9420个视频文件。
作者: ralaro    时间: 2018-2-4 15:37
vultrlinode 发表于 2018-2-4 14:28
快500g了。目前9420个视频文件。

我都1t了。。没空间了。。
作者: ralaro    时间: 2018-2-4 15:38
cw723 发表于 2018-2-4 14:15
Some characters could not be decoded, and were replaced with REPLACEMENT CHARACTER.
我也是这个错误 ...

不管他它,能下就行
作者: vultrlinode    时间: 2018-2-5 07:56
ralaro 发表于 2018-2-4 15:37
我都1t了。。没空间了。。

经过一夜的奋战,赶上你了,还好服务器硬盘还有空间
作者: cw723    时间: 2018-2-5 11:10
ralaro 发表于 2018-2-4 15:38
不管他它,能下就行

你这个是用什么接口解析视频的呀。
作者: 花木兰    时间: 2018-2-5 11:15
新人厉害了
作者: info    时间: 2018-2-5 13:43
放到H5ai的目录下,不是更爽歪歪?
作者: jehovahzzz    时间: 2018-2-5 13:49
硬盘满了 目测全爬完至少4T
作者: ralaro    时间: 2018-2-5 13:56
cw723 发表于 2018-2-5 11:10
你这个是用什么接口解析视频的呀。

代码里就有
作者: vps理论研究家    时间: 2018-2-8 23:33
我就想取下经,楼主你的经
作者: mingtian    时间: 2018-2-13 17:09
来个豆瓣电影全站的吧。。
作者: vapaus    时间: 2018-3-25 20:18
第一用爬虫 试试
作者: lfu0327    时间: 2018-4-10 16:20
顺带再弄个web ui?美滋滋




欢迎光临 全球主机交流论坛 (https://loc.1226.eu.org/) Powered by Discuz! X3.4