哈哈,请不要在意这个小广告似的简介。

但确实是这样,大概十几天前我早上起来去喝水时突然看到桌面上赫然摆着一个电子书。
差点把嘴里的水吐出来。

这可是两年前买的,一年前失踪在补习班里的电子书啊!我一直以为它早已被人顺走,毁尸灭迹了。
这一下可把我吓住了。我拿过来,发现居然有密码。

我顿时就纳闷了,我甚至都记不得自己设过密码了,更不用说知道密码是多少了。我一个一个试: 生日年份、生日日期、1234、1111、0000……

到了中午,还是没解开,我寻思着那时好像设的也不是这些密码啊。突然,我想到了以前的手机的密码,2580,在那种九宫格上呈中间的一条竖线。终于,解开了……

打开首先更新了一下系统,看到里面的书,我沉默了……
《西游记》, 杩欒タ娓歌鎴戠湡鐨勬湇浜� (你懂的)
《活着》,每篇文章中间有无数个错别字,要么是谐音字,要么是形近字。需要自己一点点理解,熟悉套路。
《球状闪电》,“本文通过*******下载,只供学习欣赏,法律责任需要个人负责……”这种东西随意的穿插到文中,每当你读到高潮时,这玩意总是要打断你思路,真是服了这个老六。

很好,看到这种现状,我决定重新整理一下里面的书。我打开电脑,把平常用的线连接上……
很好,没反应。

我上网一搜。发现是因为这种线只能充上电,不能传输文件,最后是在一个专门装废弃的线的盒子里找到一条能用的,果然姜还是老的辣,我就把这条线当宝贝一样供起来了。

随后我就上网找资源,发现很多站要么要钱、要么要登陆后再要钱,反正就是不让你下载。

我好不容易找到一两本,这本《湘行散记》就犯难了。
找遍互联网(有点夸张哈)都找不到一个资源,要不就是有乱码。
我只好自己写程序去爬下来了。

也是很不容易的找到一个在线阅读的站,开始用python的selenium写程序。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
from selenium import webdriver
from selenium.webdriver.common.by import By
from time import sleep

chrome = webdriver.Chrome()
chrome.get('https://www.ppzuowen.com/book/shenmidao/9251.html') #在线阅读的第一章的地址

for i in range(62): #里面的数字是章节数,自己数一数
sleep(2) #这个要根据加载速度选,单位秒
with open('神秘岛.txt','a+') as f: #输出文件名改一改
f.write(chrome.find_element(By.XPATH, '/html/body/div[6]/div[1]/h2').text) #这个是章节标题
f.write('\n\n')
f.write(chrome.find_element(By.XPATH, '/html/body/div[6]/div[1]/div[1]').text) #这是章节文章内容,一般在content里,当你看到标签里全是<p>的时候就是他了
f.write('\n\n')

chrome.find_element(By.XPATH, '/html/body/div[6]/div[1]/div[3]/span[2]/a').click() #下一页按钮,可以是button也可以是a标签

因为后面用同样的方式换了个站换了本书爬,所以名字和xpath位置不可通用,需要自己更改。(当然如果你也想爬《神秘岛》的话直接用就行)

这个程序算是selenium入门级别的,学过一点点都可以随便写。(如果不会python或者selenium的话,我考虑以后写个比较简易的ui出来(但也不是完美的))
可以使用油猴脚本下载小说,但是有时还是会有bug。