通过分析html格式确定网页主体内容的想法
来源:互联网 发布:linux测试工程师 编辑:程序博客网 时间:2024/06/03 02:09
通过分析html格式确定网页主体内容的想法
做Web编程有时候需要了解html文件的大小,组成等信息,为以后的各种处理做准备。比如通过crawler抓取网页对网页内容自动分类的时候,最好能提取网页中的主要信息,过滤掉页头,页角的非主体信息;还有比较2个网页内容相关性的时候也需要类似的技术。最简单的还有:分析一个网页中使用IFrame的个数,内外链接个数比例等都需要对Html文件格式做分析。
要想知道网页的那个部分是主要部分,应该有很多判断标准。我们先从最简单的表格说起。现在大部分的网页组成都是由表格做框架。那么通过分析html页面中的表格的占位(height,weight)大小就可以来确定表格的主次关系了。
技术上问题不大,但是对于分析sina,sohu这样的主页效果可能不好,因为里面全是表格。
所以想从分析一些新闻页开始,不知道大家有没有什么好的注意!!
这里是一个小程序可以提取页面中所有的iframe。
- 通过分析html格式确定网页主体内容的想法
- 启发式提取一个网页的主体内容
- 网页主体与内容标记
- html设置表主体格式
- HTML与CSS教学-第4章 HTML网页主体与内容标记
- HTML的主体结构
- HTML学习-网页主体标记body(一)
- HTML学习-网页主体标记body(二)
- HTML学习-网页主体标记body(三)
- 获取html网页的内容
- ArXiv 网页的HTML内容
- 不太确定的想法
- 通过指定的URL抓取网页内容
- 如何管理HTML网页的内容
- html 获取黏贴的网页内容
- HTML制作网页的基本格式
- HTML页面左侧菜单栏切换实现右侧主体内容改变
- HTML语言基本结构主体标记格式超级链接和列表
- 操作系统名录
- 中国BBS社区前10名
- [公告]涕淌居的bug:点击“《XXX》的全部存档”无法展开全部列表
- 使用C#打造代码生成器
- C语言书写规范
- 通过分析html格式确定网页主体内容的想法
- SqlServer数据库长文本和二进制字段操作总结(54powerman原创)
- New Direction...
- 我的WTK+UE的J2ME开发环境
- 我用C++改写的在桌面上飘雪特效程序(现在放在这儿!明年再来改^_^#我没有时间改了今晚上才搞明天就要回家了)
- XML Schema教程
- 1月
- 对.net的初步了解
- 一些乱七八糟的字