软件园学生在线

  • {{ item.name }}
  • 2023试用期

登录与注册

【后端二】 周泽天

  • 周泽天
  • 2022-10-23
  • 0

1写爬虫框架时遇到的问题

zygg的教程视频中的地址栏中直接输入"https://www.xbiquge.so/book/10415/"就可以但是爱下书的如果直接输入"https://www.aixiaxsw.com/111/111972/"则在爬取时会报错因为进入的文章中也有"111/111972/"所以必须这样弄

 try {
            document = Jsoup.connect(menuUrl + "111/111972/").get();
        } catch (IOException var21) {
            var21.printStackTrace();
        }

2添加作者的时候的问题

就是按照录屏中的内容按照题目的写法再次输出一遍并且在网页中F12找到作者为p

String title = document.body().selectFirst("h1").text();
        String author = document.body().selectFirst("p").text();

这样就找到了作者再输出弄到md文档中就可以了

3输出目录并且加上超链接

找到网页F12就可以找到超链接的东西了然后加入就行zygg好像在课上说过超链接怎么表示

int count = 1;
        Iterator var12 = as.iterator();

        String subLink;
        while(var12.hasNext()) {
            Element a = (Element)var12.next();
            ++count;
            if (count > 10) {
                String chapterName = a.text();
                subLink = a.attr("href");
                fileOut.write(("\n[" + chapterName + "](" + menuUrl + subLink + ")").getBytes());
            }
        }

其中subLink = a.attr("href");可以加入超链接

4问题

我加入一些换行的东西的时候就会出现乱码,不知道怎么办

String baseContent = Jsoup.clean(chapterContent.toString(), "", Safelist.none(), new Document.OutputSettings().prettyPrint(false));
                        String newText = baseContent.replaceAll("\\s{2,}", "\n");
                        String trueContent = newText.replaceFirst("\n", "").trim();

输出的时候在文档中会出现乱码,真的搞不明白,只好放弃

5jar包

我自己在网上找的教程打包
然后遇到了java.lang.NoClassDefFoundError错误的问题
之后就把jar包放到了libs同级的文件后就可以在终端运行了

6一些感想

真的真的要用好搜索引擎而且学长讲的内容要好好学习多听几遍
虽然会出现bug,但是要敢于尝试

周泽天
周泽天
© 2025 软件园学生在线
Theme by Wing