软件园学生在线

  • {{ item.name }}
  • 2023试用期

登录与注册

【后端二】 王郡宸

  • HugoZzz
  • 2022-10-23
  • 0

简单的小说网站爬虫

Maven项目的新建和JSON依赖的导入在培训时已经完成
但是此时发现新建项目缺少iml文件

这篇作业因为一些不可抗力因素和第三次作业一起交上去了。

在爬虫运行中的两个问题

  1. 爱下小说网的小说跳转的sublink与笔趣阁有所不同,如果正常通过网页url+href,会产生小说号码重复的错误
    解决这个问题,我们可以固定一个新的url1即小说网首页的url,用它链接href来避免404

    try {
        chapter = Jsoup.connect(menuUrl1 + subLink).get();
            } catch (IOException ewww) {
                ewww.printStackTrace();
            }
  2. 两个网站的小说排版不同,我们所不需要的小说题目与多余的最新章节题目需要过滤。
    在html文档中筛选各自的不同标签,以及利用计数器的计数可以完成这一筛选。

    int count = 1;
        for (Element a : as) {
            if (count <= 9) {
                count++;
                continue;
            }

关于正则表达式

正则表达式本身似乎是一种利用固定格式的字符串,来匹配目标字符串中是否含有类似的字串的表达式。
它以类似数学表达式的方法来组合成一个模板,分为普通字符,非打印字符,特殊字符,限定符以及定位符。
具体语法有些复杂,我还在记忆...

HugoZzz
HugoZzz
© 2025 软件园学生在线
Theme by Wing