1写爬虫框架时遇到的问题
zygg的教程视频中的地址栏中直接输入"https://www.xbiquge.so/book/10415/"就可以但是爱下书的如果直接输入"https://www.aixiaxsw.com/111/111972/"则在爬取时会报错因为进入的文章中也有"111/111972/"所以必须这样弄
try {
document = Jsoup.connect(menuUrl + "111/111972/").get();
} catch (IOException var21) {
var21.printStackTrace();
}
2添加作者的时候的问题
就是按照录屏中的内容按照题目的写法再次输出一遍并且在网页中F12找到作者为p
String title = document.body().selectFirst("h1").text();
String author = document.body().selectFirst("p").text();
这样就找到了作者再输出弄到md文档中就可以了
3输出目录并且加上超链接
找到网页F12就可以找到超链接的东西了然后加入就行zygg好像在课上说过超链接怎么表示
int count = 1;
Iterator var12 = as.iterator();
String subLink;
while(var12.hasNext()) {
Element a = (Element)var12.next();
++count;
if (count > 10) {
String chapterName = a.text();
subLink = a.attr("href");
fileOut.write(("\n[" + chapterName + "](" + menuUrl + subLink + ")").getBytes());
}
}
其中subLink = a.attr("href");可以加入超链接
4问题
我加入一些换行的东西的时候就会出现乱码,不知道怎么办
String baseContent = Jsoup.clean(chapterContent.toString(), "", Safelist.none(), new Document.OutputSettings().prettyPrint(false));
String newText = baseContent.replaceAll("\\s{2,}", "\n");
String trueContent = newText.replaceFirst("\n", "").trim();
输出的时候在文档中会出现乱码,真的搞不明白,只好放弃
5jar包
我自己在网上找的教程打包
然后遇到了java.lang.NoClassDefFoundError错误的问题
之后就把jar包放到了libs同级的文件后就可以在终端运行了
6一些感想
真的真的要用好搜索引擎而且学长讲的内容要好好学习多听几遍
虽然会出现bug,但是要敢于尝试