制作能爬取[爱下书小说站]任意小说的爬虫
遇到的问题:
1.下载的小说排版困难:
解决:
通过正则表达式判断段落,然后分别写入文件,再用css进行排版
2.将工件打包时无法运行jar包:
解决:
1.更换maven下载源,改为阿里镜像(加快下载速度),同时创建本地仓库存放依赖
2.调整环境变量将%JAVA_HOME%\bin置于最前.
因为电脑上有多个java,所以出现java和javac版本不同的问题,因为jdk中包含了java和javac,这样做可使得java和javac版本一致
3.在运行/调试配置中增加将带有"provided"范围的依赖项添加到类路径
仍存在的问题:
第三条不是很懂
学到的东西:
1.简单的正则表达式的使用
(1)特殊字符的含义
(2)Matcher类,Pattern类
2.maven的基本概念:maven是一个自动化的项目构建工具,可以自动下载依赖,简化并标准化了项目构建过程
3.jsoup.select()
方法
4.css选择器的使用