扒新闻
来源:互联网 发布:淘宝网禁止黄赌毒 编辑:程序博客网 时间:2024/06/11 19:57
/**
* 从网页扒新闻,并保存
*/
public void saveNews(){
PageData pd = new PageData();
Page page = new Page();
page.setPd(pd);
//execute()方法用来手动加载NewsService对象,因为在下面的定时器 中无法自动加载
newsService = execute();
List<PageData> List = newsService.findAllNewsListPage(page);
for (PageData pageData : List) {
String dbTitle = pageData.getString("news_title");
String title = pageData.getString("news_title");
if(!dbTitle.equals(title)){
newsService.saveNews(pd);
}
}
}
} catch (Exception e) {
e.printStackTrace();
}
}
* 从网页扒新闻,并保存
*/
public void saveNews(){
PageData pd = new PageData();
Page page = new Page();
page.setPd(pd);
try {
//通过Jsoup获得整个页面,并通过dom进行解析
Document doc = Jsoup.connect("http://news.baidu.com/").get();
//通过页面的标签id,class,a标签获得想要的内容
Elements es=doc.select("#pane-news .focuslistnews .bold-item a");
//遍历得到的内容
for (Element e : es) {pd.put("news_id", this.get32UUID());
//存储标签内容
pd.put("news_url",e.attr("href"));
//存储标签标题
pd.put("news_title", e.text());//execute()方法用来手动加载NewsService对象,因为在下面的定时器 中无法自动加载
newsService = execute();
List<PageData> List = newsService.findAllNewsListPage(page);
for (PageData pageData : List) {
String dbTitle = pageData.getString("news_title");
String title = pageData.getString("news_title");
if(!dbTitle.equals(title)){
newsService.saveNews(pd);
}
}
}
} catch (Exception e) {
e.printStackTrace();
}
}
阅读全文
0 0
- 扒新闻
- 利用jsoup扒新闻
- 从网站中“扒”新闻
- 已知某个网址http://www.***.com,扒出所有的新闻
- 扒网页~~~
- 扒照片
- 扒扒我的微信朋友圈
- 新闻
- 新闻
- 新闻
- 新闻
- 新闻
- 新闻
- 新闻
- 新闻
- 新闻
- 新闻
- [C#]网络扒虫
- 求利息与本金的和
- HashMap 数据结构 实现原理
- java基础(集合List-ArrayList、LinkedList、Vector的区别)
- Linux命令行六大技巧
- 三周第三次课 2017.11.01 su命令、sudo命令、限制root远程登录
- 扒新闻
- 适合Python初学者的笔记总结【干货】
- 堆排序合并几个已经排序好的链表
- BZOJ 1486: [HNOI2009]最小圈(01分数规划:最优比例环)
- 用SPI2驱动ILI9341 TFT屏 能写,但读不对?向各位请教一下。
- angular4的对象
- CS 300 Diesel Train 连续型期望(积分)
- redhat下软件安装
- java c c++ .net 程序员的未来 迷茫的时候看一看 别彷徨