简单的小说网站爬虫
Maven项目的新建和JSON依赖的导入在培训时已经完成
但是此时发现新建项目缺少iml文件
这篇作业因为一些不可抗力因素和第三次作业一起交上去了。
在爬虫运行中的两个问题
- 爱下小说网的小说跳转的sublink与笔趣阁有所不同,如果正常通过网页url+href,会产生小说号码重复的错误
解决这个问题,我们可以固定一个新的url1即小说网首页的url,用它链接href来避免404try { chapter = Jsoup.connect(menuUrl1 + subLink).get(); } catch (IOException ewww) { ewww.printStackTrace(); }
- 两个网站的小说排版不同,我们所不需要的小说题目与多余的最新章节题目需要过滤。
在html文档中筛选各自的不同标签,以及利用计数器的计数可以完成这一筛选。int count = 1; for (Element a : as) { if (count <= 9) { count++; continue; }
关于正则表达式
正则表达式本身似乎是一种利用固定格式的字符串,来匹配目标字符串中是否含有类似的字串的表达式。
它以类似数学表达式的方法来组合成一个模板,分为普通字符,非打印字符,特殊字符,限定符以及定位符。
具体语法有些复杂,我还在记忆...