全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
查看: 4133|回复: 21
打印 上一主题 下一主题

[翻译] (已解决)50元能否求到一个爬虫小程序?

[复制链接]
跳转到指定楼层
1#
发表于 2021-4-7 15:06:44 | 只看该作者 回帖奖励 |正序浏览 |阅读模式
本帖最后由 liumer 于 2021-4-7 16:18 编辑

目标:爬取淘宝试用报告的网址,淘宝试用的网址是:https://try.taobao.com,我想要获取的网址如下格式:
https://try.taobao.com/report/view.htm?&itemId=33658159&reportId=58922205
其中33658159是试用商品ID,58922205是报告的ID

由于试用网只能显示前500页,没办法直接用采集器采集到所有的报告(其实前期我已自己用采集器采集了可以采集的报告,大约14W,主要还是嫌不够,想请高手是否能从爬虫的思路爬取到所有报告链接)


由于数据庞大,我把要求强调一下:
1、尽量能获取所有报告链接(数量可能相当庞大,有可能上百万上千万数据),所以要考虑存贮链接的文件格式及分多个文件存贮的需要,另外要考虑程序中途意外退出后能再次从退出处开始爬的情况。

2、由于我对爬虫不懂,要求程序编绎成exe可运行格式。

3、由于我不知道编写此程序工作量大小,如果价格相差较多,可以跟贴说明。

我的联系方式:qq602894675


________________________________________________________________________________________________

看到下面兄弟们的回复,看来我想简单了,应该是求不到了。
我的思路想得比较简单,就是按试用商品地址:https://try.taobao.com/item.htm?id=30240157#tab-report
上面地址的商品ID从1开始往上循环,遇到有报告的情况就纪录下报告地址,没有报告就继续循环。
我想虽然数据量大,但逻辑好像并不复杂
可能是我想简单了。



----------------------------------------------------------------------------------------------------------------------------------------------------------------------

已搞定,大家的回复吓死我了。
一位哥们给我写了个火车头采集规则,完美解决。
推荐
发表于 2021-4-7 15:26:27 来自手机 | 只看该作者
50块淘宝买爬虫教程视频,自己学完做一个现实点
22#
发表于 2021-4-7 16:28:12 | 只看该作者
拿这么多数据做什么用啊
21#
发表于 2021-4-7 16:12:57 | 只看该作者
哈,老兄,你在这里是求不到的,我帮你写个火车头采集规则即可。一包烟钱,30、50随便吧。
20#
发表于 2021-4-7 16:10:32 | 只看该作者
cherbim 发表于 2021-4-7 16:03
按你的需要你再加俩0都有点虚
PS:程序员带薪拉个屎都50

算了下,我带薪拉屎还正是50块。哈哈。
19#
发表于 2021-4-7 16:10:30 | 只看该作者
服气了,我去拉个屎
18#
发表于 2021-4-7 16:08:16 | 只看该作者


看字还是可以的,只要不动手码代码。
其实在这聊天打屁的时间,真要写,可能都写好了。但是,没兴趣写,我读书几十年写代码几十年,不想自降身价。就象割条盲肠,去除人力,手术成本真不超过50块,你给医生50块试试,不马上叫保安才怪。
cherbim 该用户已被删除
17#
发表于 2021-4-7 16:03:06 来自手机 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
16#
发表于 2021-4-7 16:01:56 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
15#
发表于 2021-4-7 15:54:39 | 只看该作者
sdqu 发表于 2021-4-7 15:33
自己做吧
有兴趣50块帮你做的,都是非专业人士,只是想练下手。
专业人士,50块连电脑都不想开。

我字都不想看
14#
发表于 2021-4-7 15:51:54 | 只看该作者
淘宝的早就不能用简单的爬虫了
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2026-1-14 16:41 , Processed in 0.066793 second(s), 13 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表