全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
查看: 4129|回复: 21
打印 上一主题 下一主题

[翻译] (已解决)50元能否求到一个爬虫小程序?

[复制链接]
跳转到指定楼层
1#
发表于 2021-4-7 15:06:44 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 liumer 于 2021-4-7 16:18 编辑

目标:爬取淘宝试用报告的网址,淘宝试用的网址是:https://try.taobao.com,我想要获取的网址如下格式:
https://try.taobao.com/report/view.htm?&itemId=33658159&reportId=58922205
其中33658159是试用商品ID,58922205是报告的ID

由于试用网只能显示前500页,没办法直接用采集器采集到所有的报告(其实前期我已自己用采集器采集了可以采集的报告,大约14W,主要还是嫌不够,想请高手是否能从爬虫的思路爬取到所有报告链接)


由于数据庞大,我把要求强调一下:
1、尽量能获取所有报告链接(数量可能相当庞大,有可能上百万上千万数据),所以要考虑存贮链接的文件格式及分多个文件存贮的需要,另外要考虑程序中途意外退出后能再次从退出处开始爬的情况。

2、由于我对爬虫不懂,要求程序编绎成exe可运行格式。

3、由于我不知道编写此程序工作量大小,如果价格相差较多,可以跟贴说明。

我的联系方式:qq602894675


________________________________________________________________________________________________

看到下面兄弟们的回复,看来我想简单了,应该是求不到了。
我的思路想得比较简单,就是按试用商品地址:https://try.taobao.com/item.htm?id=30240157#tab-report
上面地址的商品ID从1开始往上循环,遇到有报告的情况就纪录下报告地址,没有报告就继续循环。
我想虽然数据量大,但逻辑好像并不复杂
可能是我想简单了。



----------------------------------------------------------------------------------------------------------------------------------------------------------------------

已搞定,大家的回复吓死我了。
一位哥们给我写了个火车头采集规则,完美解决。
推荐
发表于 2021-4-7 15:26:27 来自手机 | 只看该作者
50块淘宝买爬虫教程视频,自己学完做一个现实点
2#
发表于 2021-4-7 15:07:14 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
OXO 该用户已被删除
3#
发表于 2021-4-7 15:08:06 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
4#
发表于 2021-4-7 15:08:38 | 只看该作者
你知道一个程序员的工资是多少么?
你知道这个要几天时间么?
50。。笑死我了,你找人搬砖都不够。
5#
发表于 2021-4-7 15:10:09 | 只看该作者
找学生给你开发都不够
6#
发表于 2021-4-7 15:20:07 | 只看该作者
50块,这程序猿,有点廉价。
8#
发表于 2021-4-7 15:32:49 来自手机 | 只看该作者
加两个零也是不提供源码的
9#
发表于 2021-4-7 15:33:10 | 只看该作者
自己做吧
有兴趣50块帮你做的,都是非专业人士,只是想练下手。
专业人士,50块连电脑都不想开。
10#
发表于 2021-4-7 15:34:05 | 只看该作者
爬虫写的好  牢饭吃的早
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2026-1-12 19:49 , Processed in 0.065797 second(s), 12 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表