原创

2020-10-26 21:15:12
浏览 (22819)
评论 (0)

webmagic入门

1、引入pom

<dependency>
    <groupId>us.codecraft</groupId>
    <artifactId>webmagic-core</artifactId>
    <version>0.7.3</version>
    <exclusions>
        <exclusion>
            <groupId>org.slf4j</groupId>
            <artifactId>slf4j-log4j12</artifactId>
        </exclusion>
    </exclusions>
</dependency>
<dependency>
    <groupId>us.codecraft</groupId>
    <artifactId>webmagic-extension</artifactId>
    <version>0.7.3</version>
</dependency>

2、编写接收的bean

package tech.chenxing.webmagic;

import lombok.Data;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.model.ConsolePageModelPipeline;
import us.codecraft.webmagic.model.OOSpider;
import us.codecraft.webmagic.model.annotation.ExtractBy;
import us.codecraft.webmagic.model.annotation.TargetUrl;

//@TargetUrl("https://www.gzcx.net/sitemap.html")
@ExtractBy(value = "//*[@id=\"myTable\"]/li/div[1]/a", multi = true)
@Data
public class RgBlogUrlBean {
    @ExtractBy("//a/@href")
    private String url;

    @ExtractBy("//a/@title")
    private String title;
}

类上的注解ExtractBy的属性 multi 说明返回的结果是一个列表
属性上的ExtractBy的内容是可以利用chrome浏览器的右键复制xpath可以获取到
多级属性用/分割，属性值获取采用 @属性值的方式获取，比如 @href

3、编写处理结果器

    public class RgPageModelPipeline implements PageModelPipeline<RgBlogUrlBean> {

    @Override
    public void process(RgBlogUrlBean rgBlogUrlBean, Task task) {
        System.out.println(rgBlogUrlBean.getUrl());
//        log.info("{}",rgBlogUrlBean.getUrl());
    }
}

泛型值传入你想反序列化的bean,实现的接口内部编写你的处理逻辑，可以打印日志，保存到数据库，基于结果调用三方接口

4、编写启动的函数

public static void main(String[] args) {
    OOSpider.create(Site.me(), new RgPageModelPipeline(), RgBlogUrlBean.class)
    .addUrl("https://www.gzcx.net/sitemap.html")
    .thread(1)
    .run();
}

可以说是非常的简便，可以用来抓取一些自己想要的数据。

正文到此结束

所属分类：编程开发

本文标签： java
版权声明： 本站原创文章，于2020年10月26日由Mars发布，转载请注明出处

热门推荐

《程序员健康指南》读书笔记

浏览(423358) 评论(1)
新手到站长的必经之路(五)

浏览(162906) 评论(27)
对象映射框架MapStruct对比orika

浏览(142348) 评论(0)
NoSuchMethodError: kotlin.collections.ArraysKt.copyInto([B[BIII)[B

浏览(135299) 评论(0)
EnterPrise Architect（EA）使用教程（四）架构设计

浏览(108376) 评论(0)
如何解决http请求返回结果中文乱码

浏览(107578) 评论(0)
用Process Monitor 监测注册表解决win10代理服务器关不掉自动被勾选的问题

浏览(84151) 评论(0)
还在纠结什么语言是最好的开发语言吗

浏览(83163) 评论(10)
Itext对pdf模板进行电子签名

浏览(80408) 评论(0)
我的人生我负责

浏览(77995) 评论(1)

相关文章

Loading...