【后端二】王郡宸

HugoZzz
2022-10-23
0

简单的小说网站爬虫

Maven项目的新建和JSON依赖的导入在培训时已经完成
但是此时发现新建项目缺少iml文件

这篇作业因为一些不可抗力因素和第三次作业一起交上去了。

在爬虫运行中的两个问题

爱下小说网的小说跳转的sublink与笔趣阁有所不同，如果正常通过网页url＋href，会产生小说号码重复的错误
解决这个问题，我们可以固定一个新的url1即小说网首页的url，用它链接href来避免404
```
try {
    chapter = Jsoup.connect(menuUrl1 + subLink).get();
        } catch (IOException ewww) {
            ewww.printStackTrace();
        }
```
两个网站的小说排版不同，我们所不需要的小说题目与多余的最新章节题目需要过滤。
在html文档中筛选各自的不同标签，以及利用计数器的计数可以完成这一筛选。
```
int count = 1;
    for (Element a : as) {
        if (count <= 9) {
            count++;
            continue;
        }
```

关于正则表达式

正则表达式本身似乎是一种利用固定格式的字符串，来匹配目标字符串中是否含有类似的字串的表达式。
它以类似数学表达式的方法来组合成一个模板，分为普通字符，非打印字符，特殊字符，限定符以及定位符。
具体语法有些复杂，我还在记忆...