Java 爬虫多线程
家电修理 2023-07-16 19:17www.caominkang.com电器维修
多线程爬取京东商城数据 pom文件
yaml 文件4.0.0 spring-boot-starter-parent .springframeork.boot 2.0.1.RELEASE .example mySpider1.0-SNAPSHOT .springframeork.boot spring-boot-starter-eb2.4.2 .alibaba druid-spring-boot-starter1.2.4 .springframeork.boot spring-boot-starter-test2.4.2 test mysql mysql-connector-java8.0.22 .alibaba fastjson1.2.73 .google.guava guava22.0 .jsoup jsoup1.14.2 .apache.mons mons-lang33.9 .baomidou mybatis-plus-boot-starter3.4.1 .baomidou mybatis-plus-generator3.4.1 .freemarker freemarker2.3.28 .projectlombok lombok1.18.8 .apache.httpponents httpclient4.5.4 .springframeork.boot spring-boot-starter-data-redisjunit junit4.12 test
spring: datasource: url: jdbc:mysql://localhost:3306/spider?useUnicode=true&characterEncoding=utf8&serverTimezone=UTC driver-class-name: .mysql.cj.jdbc.Driver username: root passord: root dbcp2: min-idle: 5 initial-size: 5 max-total: 5 max-ait-millis: 100 redis: database: 0 host: 127.0.0.1 port: 6379 passord: 123456mysql表
SET NAMES utf8mb4; SET FOREIGN_KEY_CHECKS = 0; -- ---------------------------- -- Table structure for goods_info -- ---------------------------- DROP TABLE IF EXISTS `goods_info`; CREATE TABLE `goods_info` ( `id` int(11) NOT NULL AUTO_INCREMENT, `goods_id` varchar(255) CHARACTER SET utf8 COLLATE utf8_bin NOT NULL, `goods_name` varchar(255) CHARACTER SET utf8 COLLATE utf8_bin NULL DEFAULT NULL, `goods_price` varchar(255) CHARACTER SET utf8 COLLATE utf8_bin NULL DEFAULT NULL, `img_url` varchar(255) CHARACTER SET utf8 COLLATE utf8_bin NULL DEFAULT NULL, PRIMARY KEY (`id`) USING BTREE ) ENGINE = InnoDB AUTO_INCREMENT = 1 CHARACTER SET = utf8 COLLATE = utf8_bin ROW_FORMAT = Dynamic; SET FOREIGN_KEY_CHECKS = 1;代码结构 技术点
1.SpringBoot
2.SpringMVC
3.HttpCli
4.Jsoup
5.多线程(线程池)
6.redis
7.mysql(mybatis-plus)
1.启动类进行启动,开启 @PostConstruct,调用spiderHandle
2.spiderHandle
在spiderHandle中,使用线程池处理任务,线程池工厂和拒绝策略由自己确定;引入countDonLatch进行线程同步,使主线程等待线程池的所有任务结束,便于计时。
3.SpiderService处理爬取数据,进行解析,批量插入到数据库中.注意因为是多线程成爬取,如果爬取的数据需要存入集合,需要采用并发安全的List,这里使用了synchronized锁
4.GoodsInfoMapper
是使用mybatis-plus生成得到
5.Redis队列
因为在爬取的时候可能因为网络等原因,爬取的那一条数据会失败。,将爬取的页码放入到redis中。
redisTemplate.opsForList().leftPush("page",parms.get("page"));
我在后台重新启动一个线程,自旋的形式将Redis的队列中的数据阻塞式取出。然后再一次爬取。
for (int i = 1; i < 201; i += 2) {
Map params = ne HashMap<>();
params.put("keyord", "零食");
params.put("enc", "utf-8");
params.put("c", "零食");
params.put("page", i + "");
threadPoolExecutor.execute(() -> {
goodsInfoService.spiderData(SysConstant.BASE_URL, params);
countDonLatch.countDon();
});
}
爬虫思路
源代码地址
源代码在本人github上多线程爬虫
空调维修
- 我的世界电脑版运行身份怎么弄出来(我的世界
- 空调抽湿是什么意思,设置抽湿的温度有什么意
- 方太燃气灶有一个打不着火 怎么修复与排查方法
- 夏季免费清洗汽车空调的宣传口号
- 清洗完空调后出现漏水现象
- iphone6能玩什么游戏(iphone6游戏)
- 如何设置电脑密码锁屏(如何设置电脑密码锁屏
- win10删除开机密码提示不符合密码策略要求
- 电脑w7显示不是正版(w7不是正版怎么解决)
- 万家乐z8热水器显示e7解决 怎么修复与排查方法
- 1匹空调多少瓦数(1匹空调多少瓦)
- 安卓手机连接电脑用什么软件好(关于安卓手机
- 电脑网页看视频卡是什么原因(爱拍看视频卡)
- 华帝燃气灶点火器一直响然后熄火怎么办:问题
- 电脑壁纸怎么换(关于电脑壁纸怎么换的介绍)
- 冬天空调的出风口应该朝什么方向(冬天空调风