找回密码
 立即注册
相关推荐换一批
  1. YD/T 2957-2015 具有双栈内容交换功能的以太网交换机技术要求
  2. NB/T 42125-2017 电压监测仪技术要求
  3. SN/T 4643-2016 线虫标本采集分离保存规范
  4. YD/T 2876-2015 内容分发网络技术要求互连应用场景
  5. YD/T 2875-2015 IPTV 媒体交付系统技术要求内容接入
  6. GB/T 38735-2020 R类尿液样本采集与处理
  7. YD/T 2725-2014 IPTV 内容服务访问规则技术要求
  8. GB/T 38629-2020 信息安全技术 签名验签服务器技术规范
  9. SN/T 3886-2014 国境口岸生物危害因子样品采集、运输、保存方法
  10. HG/T 20588-2012 化工建筑、结构施工图内容、深度统一规定
  11. YD/T 2527-2013 数字蜂窝移动通信网 Web 网关设备测试方法
  12. NB/T 10110-2018 风力发电场技术监督导则
  13. GB/T 38829-2020 IPTV媒体交付系统技术要求内容接入
  14. SN/T 4165-2015 入境邮(客)轮卫生检疫查验规程
  15. T/CMA JY047-2021加油机在线监督管理规范
  16. SN/T 4271.4-2015 G际航行船舶携带输入性医学媒介生物采集方法第4部分:蜚蠊
  17. SN/T 4271.3-2015 G际航行船舶携带输入性医学媒介生物采集方法第3 部分:鼠类
  18. SN/T 4271.1-2015 G际航行船舶携带输入性医学媒介生物采集方法第1部分:蚊类
  19. SN/T 4271.2-2015 G际航行船舶携带输入性医学媒介生物采集方法第2部分:蝇类
  20. HG/T 4563-2013 不粘涂料
  21. GB/T 8184-2020 硫酸铑
  22. GB/T 8185-2020 二氯化钯
  23. GB 9706.211-2020 医用电气设备第2-11部分:r射束治疗设备的基本安全和基本性能专用?
  24. HG/T 4574-2014 聚氨酯原料发泡反应特性的测定方法
采集内容时间链接 | PHP编程 2024-03-01 193 0star收藏 版权: . 保留作者信息 . 禁止商业使用 . 禁止修改作品
1.前端纯HTML+JS+JSON(链接统计除外),后端python生成标准JSON

2.自带30余条常用网站采集规则

3.多线程爬取,5秒可采集30+网站

4.同一个网站放置在一个框架中,可以部分刷新和滚动

5.更新时间显示(根据采集页面内置更新时间或者按时间排序的首次时间,如果没有则为采集完成时间)

6. 内容链接受到保护,防止盗链。链接通过base64+字符倒序+大小写反转+base64进行加密(改变大小写转换顺序或者添加数字替换可以实现不同的密码加密)

7.内容链接点击统计

8. 鼠标悬停提示部分内容(如应用商店排名及更新内容、时间、版本号)

安装:
1.python3 caiji.py集合(请使用screen或nohup保持后台运行)

2.打开首页访问

笔记:
caiji.py是后端采集程序,其余都是前端,必须在同一目录下。

请查看源码中的注释进行相应的设置修改。

admin.php是第三方数据库管理程序,用于查看内容链接统计(默认密码是admin,请在文件中修改)

点击第一次访问内容链接时会生成统计数据库log.db。如果没有创建,请确保主目录可写。

为了安全起见,请将后端程序caiji.py和数据库查看程序admin.php修改为复杂文件名,或者移动到非web目录下(还需要将文件中生成的json保存目录修改为网站根目录,默认为当前目录)

默认情况下,使用多线程爬取。如果有任何问题,请改用单线程抓取。

请将今日头条收集的cookie替换为您自己的cookie。今日头条短时间内采集大量相同内容(目前每分钟采集一次,合并10次)。分段收集同一个cookie后几乎不会出现重复,但收集一段时间后推荐的都是杂七杂八的垃圾内容(请定期更换cookie或添加随机标题cookie生成规则)

采集站的大部分标志都修改为透明图层png,在非白色背景上可能很难看清。

23450187408[下载].rar

234501xqmfcu3aw3upqpdo.jpg


上一篇:随机美女视频源码分享,质量高
下一篇:MikuTools轻量级在线工具系统源码