扒新闻

来源:互联网 发布:淘宝网禁止黄赌毒 编辑:程序博客网 时间:2024/06/11 19:57
/**
* 从网页扒新闻,并保存
*/
public void saveNews(){
PageData pd = new PageData();
Page page = new Page();
page.setPd(pd);

try {

//通过Jsoup获得整个页面,并通过dom进行解析

Document doc = Jsoup.connect("http://news.baidu.com/").get();

//通过页面的标签id,class,a标签获得想要的内容

Elements es=doc.select("#pane-news .focuslistnews .bold-item a");

//遍历得到的内容

for (Element e : es) {

pd.put("news_id", this.get32UUID());

//存储标签内容

pd.put("news_url",e.attr("href"));

//存储标签标题

pd.put("news_title", e.text());
//execute()方法用来手动加载NewsService对象,因为在下面的定时器 中无法自动加载
newsService = execute();
List<PageData> List = newsService.findAllNewsListPage(page);
for (PageData pageData : List) {
String dbTitle = pageData.getString("news_title");
String title = pageData.getString("news_title");
if(!dbTitle.equals(title)){
newsService.saveNews(pd);
}
}
}
} catch (Exception e) {
e.printStackTrace();
}
}
原创粉丝点击