我又来了兄弟们,作业在线已经爬的差不多了吧,该爬爬其他的题库了~~~~~~
赏学吧地址:https://www.shangxueba.cn/,该网站隶属于某学吧,总题库量为270W+,普通用户查题需付费。
因为赏学吧的题目,是按照数字id来的,比如:https://www.shangxueba.cn/2683074.html 这个id就是2683074,也就是第2683074道题。
咦,我刚好有个朋友,他发现了赏学吧无需付费的官方答案接口,而且现在不会ban IP,不限制次数。盘它~~~~~~~~~~~~~~~~
官方的答案接口我也一起打包了,厉害的兄弟可以自己用这个接口爬~~
这次给兄弟们带来的2个版本:
第一个是:利用宝塔计划任务,按题目id自动爬取,题目,答案。选项,分类。然后保存到数据库。这个文件是
crawler.php和sxb_id.php这个就不放演示地址了。
第二个是:继续用工具人,让用户搜题,然后转存到自己数据库内~。这个文件是
演示地址:http://149.129.113.103/shangxueba.php?tm=题目名称
小服务器,很卡,仅供测试~~——————————————————————————————————————————————————————-下面是关于数据库的一些操作:第一步:在phpmyadmin内,新建数据表:
第二步:在源码文件里填好自己的数据库信息:
第三步:运行工具人源码即可~:
http://XXX.com/shangxueba.php?tm=题目名称 (如果只要用搜题转存的源码,到这一步就够了)
——————————————————————————————————————————–
下面的是关于利用宝塔的计划任务,自动爬题的操作
第一步:将源码解压到某一目录下:
第二步:新建2个文件,counter.dat和counter2.dat
counter.dat 这个文件是开始爬的id,比如我要从第一道题开始爬,里面就写1
counter2.dat 这个文件是最后爬的id,比如我只要爬到第20W道题,里面就写200000
要保持4个文件都在同一目录下哦~
第三步:打开crawler.php文件,填写好数据库信息
第四步:打开宝塔计划任务,选择访问URL,设置频率2分钟,将你的crawler.php文件的地址输入,然后添加任务即可
添加成功后,再点一下执行。
然后就可以坐等数据库里增加题目啦
兄弟们爬快点,把服务器都搞上,你爬不快,可能赏学吧就BAN 接口了
补充内容 (2020-5-2 15:35):
我的环境如下:
系统环境:Centos7.2
面板:宝塔面板
其他环境:PHP7.0,Nginx,mysql,phpmyadmin
先说一句环境都不会配置的,或者说啥访问不了文件的。这种纯属个人问题!
补充内容 (2020-5-2 15:44):
几乎于每行代码我都写了注释,这还看不懂,自己补补基础吧
crawler.php 文件需要自己去填好所有的相关信息。
数据库信息,你的赏学吧接口sxb_id.php,然后还要新建2个文件
补充内容 (2020-5-3 20:16):
有兄弟嫌宝塔爬题慢了…….指个路子,那是因为你只添加了一个计划任务。
1个crawler.php文件等于一个计划任务。那我添加10个爬虫文件,10个计划任务分id段体同时爬呢?
思路就在这里了,其实也可以用其他语言写爬虫,php效率确实不高
暂无评论内容