[辅助下载] 人民日报pdf电子版下载器v1.0.0
作者:精品资源网 日期:2024-03-17 10:49:02 浏览:150 分类:软件
这个是人民日报的官方电子版地址,可以在网页中查看。本软件只是方便下载到本地查看,只默认下载当日的报纸。
使用python语言编写,pyinstaller打包为exe程序,无任何添加后台功能,提供浏览和其他处理,开源python初学者代码,以供学习测试。
蓝奏云:https://www.lanzoub.com/ir67w1r5rx6f 密码:e5fn
使用方法:打开软件,选择目录,点击下载,你选择的目录就是下载保存的路径。
杀毒检测:因为打包安装超过了腾讯哈勃上传30M的限制,无法检测,使用火绒杀毒未发现风险。
python开源,以供学习。
[Python]
import os import PyPDF2 import random import time from urllib.parse import urljoin import re import requests from lxml import etree import shutil url = "http://paper.people.com.cn/rmrb/paperindex.htm" headers = { "user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36 SE 2.X MetaSr 1.0" } resp_init = requests.get(url, headers=headers) resp_init.encoding = "UTF-8" resp_content = resp_init.text resp_init.close() skip_url = re.compile(r'HTTP-EQUIV="REFRESH".*?URL=(?P<skip_url>.*?)"></head>', re.S) obj_list = skip_url.finditer(resp_content) for element in obj_list: ul = element.group("skip_url") skip_url = urljoin(url, ul) print(skip_url) resp_index = requests.get(skip_url, headers=headers) resp_index.encoding = "UTF-8" tree = etree.HTML(resp_index.text) resp_index.close() pdf_name = tree.xpath("//*[@id='main']/div[2]/div[1]/p[1]/text()")[0].strip().replace("\r\n", "") pdf_name = re.sub(r'\s+', ' ', pdf_name) print(pdf_name) pdf_href = tree.xpath("//*[@id='main']/div[1]/div[2]/p[2]/a/@href")[0] download_pdf_href = urljoin(skip_url, pdf_href) print(download_pdf_href) hrefs = tree.xpath("//*[@id='main']/div[2]/div[2]/div/div/a/@href") def save_pdf(download_path, pdf_href, pdf_detail_name): resp_download_pdf = requests.get(pdf_href, headers=headers) resp_download_pdf.close() # 创建文件夹,不存在就创建 path = f"{download_path}/temp_file" if not os.path.exists(path): os.mkdir(rf"{download_path}/temp_file") with open(f"{download_path}/temp_file/{pdf_detail_name}", mode="wb") as f: f.write(resp_download_pdf.content) print(f"{pdf_detail_name} 下载完成") def init_download(download_path): for href in hrefs: detail_page = urljoin(skip_url, href) resp_detail = requests.get(detail_page, headers=headers) resp_detail.encoding = "UTF-8" tree = etree.HTML(resp_detail.text) resp_detail.close() pdf_href = tree.xpath("//*[@id='main']/div[1]/div[2]/p[2]/a/@href")[0] download_pdf_href = urljoin(skip_url, pdf_href) pdf_detail_name = pdf_href.split("/")[-1] num = random.randint(1, 5) print(f"{detail_page}, {pdf_detail_name}, 随机暂停时间:{num}秒") save_pdf(download_path, download_pdf_href, pdf_detail_name) time.sleep(num) def merge_pdfs(file_list, output): pdf_merger = PyPDF2.PdfMerger() for file in file_list: with open(file, 'rb') as f: pdf_merger.append(f) with open(output, 'wb') as f: pdf_merger.write(f) if __name__ == '__main__': dir_path = "C:/Users/it/Desktop/人民日报" init_download(dir_path) # 获取文件夹下pdf文件 pdf_lst = [f for f in os.listdir(f"{dir_path}/temp_file") if f.endswith('.pdf')] # 合成绝对路径 file_list = [os.path.join(f"{dir_path}/temp_file", filename) for filename in pdf_lst] print(file_list) output = f'{dir_path}/{pdf_name}.pdf' merge_pdfs(file_list, output) if os.path.exists(f"{dir_path}/temp_file"): shutil.rmtree(f"{dir_path}/temp_file") print(f"下载已完成:{output}")
猜你还喜欢
- 03-10 [安全防护] 沙盘SandBoxie Classic 5.68.2 / Plus 1.12.8
- 03-26 [电脑软件 / 苹果软件] 小白羊云盘(gaozhangmin) v3.12.6 阿里云盘客户端
- 03-25 [图像处理] ScreenToGif(Gif工具GIF录制软件) v2.41.0.0
- 03-11 [文本编辑] Markdown笔记本 QOwnNotes v24.3.0 绿色版
- 03-09 [电脑软件 / 苹果软件] TTime v0.9.8 免费开源输入、截图、划词翻译软件
- 03-26 [图像绘制] Drawio v24.1.0 开源跨平台绘图软件官方中文版
- 03-26 [下载工具] XDown v2.0.8.2 免费无广告多线程下载工具
- 03-14 [安卓软件] Android GKD 搞快点 v1.7.0-beta.3 自定义屏幕点击器
- 03-13 [系统辅助] ExplorerPatcher 22621.3007.63.4 恢复Win11高效设置
- 03-10 [资源编辑] 免费开源理想资源编辑器 | RisohEditor v5.8.1
- 02-04 [AI绘图] “比较详细”的免费绘制爱好图的教程,我所体验到的开源中最佳效果
- 03-21 [辅助下载] XHS-Downloader (小红书作品下载工具) v1.8.0
取消回复欢迎 你 发表评论:
- 精品推荐!
-
- 最新文章
- 热门文章
- 热评文章
[书籍] 【帛书版】合集
[老照片] 一万张珍贵历史老照片【jpg 40.4GB】
[素材] 2024新年春节烟花素材合集【PSD格式+PNG格式】
[美剧] 《生活大爆炸》S01-S12季合集 【1080P 蓝光原盘REMUX】 DTS-HD.MA.5.1 【外挂简英双语字幕】 742.8G
[电影] 茶馆(1982)蓝光原盘REMUX 内封简繁英.简中简繁四字幕【33.9G】本片根据老舍同名原著改编
[电视剧] 永夜星河(2024)【4K 2160P 杜比音效】国语中字【全32集完结】爱情,古装 又名 :黑莲花攻略手册
[影视合集] 《霍比特人》三部曲加长版合集 【4K 蓝光 HDR】 TrueHD.7.1 国语次世代+导评 【国配简繁英特效+导评中字五字幕】134G
[课程] 2024邓诚高三数学视频课【MP4 12.2GB】
[电视剧] 宿敌(2024)【完结】【4K / 臻彩视听 / 杜比音效】【廖凡/朱珠】【17.8G】
[影视合集] 【鹿鼎记 7个版本合集】【1984-2020】【4K、1080P、720P】【中文字幕】【278.5G】
[瓜] 青岛【路虎女】插队、逆行、追尾、打人未删减【完整版视频】
[写真福利] 森萝财团站点VIP全套BETA系列丝袜写真合集35套
[福利] 2024韩国 4K 60FPS【女团热舞+车展车模合集】(含饭拍)【321V+102G】
[剧集] 暴君.2024(全4集)中字,不是《魔女》续作或前传
[CG剧情] 《黑神话:悟空》158分钟CG完整剧情合集 4K120帧最高画质
[游戏] 《黑神话悟空》免安装学习版【全dlc整合完整版】+Steam游戏解锁+游戏修改工具!
[演唱会] 2024刀郎知交线上演唱会 2K [MP4]
[杂志] 电脑爱好者杂志14年 超全 [PDF]
[动画] 《银魂》全系列合集 (TV版367集、真人版、剧场版、漫画、OAD、精选集)
[书籍] 彭子益医书合集 [PDF/DOC]
[写真福利] 森萝财团站点VIP全套BETA系列丝袜写真合集35套
[Android] 开罗游戏 ▎像素风格的模拟经营的游戏厂商安卓游戏大合集
[福利] 2024韩国 4K 60FPS【女团热舞+车展车模合集】(含饭拍)【321V+102G】
[美女图集] 【高质量美女合集】【高清短视频第59辑】
[瓜] 青岛【路虎女】插队、逆行、追尾、打人未删减【完整版视频】
[杂志] 《电脑报2023年第1-50期全》大合集 一次看个够 科技新闻 数码产品 人工智能[pdf]
[书籍资料] 古籍专题资源【135GB】
[游戏周边] 《黑神话:悟空》专题合集
[喜剧] 憨豆先生全系列合集
[游戏合集] 要战便战 v0.9.107 免安装绿色中文版
- 最新评论
-
这里的资源很丰富tongqimxd 评论于:11-19 谢谢支持,若有失效,可反馈精品资源网 评论于:10-24 这里的资源很丰富qweasd111 评论于:10-21 这里的资源真多。qweasd111 评论于:10-21 这里的资源真的多,qweasd111 评论于:10-21 希望能看见更多更好的作品,谢谢qweasd111 评论于:10-21 这么经典的剧集,应该顶,谢谢!qweasd111 评论于:10-21 谢谢分享muzsoe@rit 评论于:09-17 谢谢支持!!精品资源网 评论于:08-22 终于有了,谢谢分享Bernery 评论于:08-20
- 热门tag