手机

来源:互联网 发布:初学吉他 知乎 编辑:程序博客网 时间:2024/06/02 21:53

对于新闻、通知、公告之类的信息,对手机设备用户来说,最关心的是文字内容,因此我们的主要工作就是按照一定的格式(比如该换行分段的地方要换行分段)来从原来的 HTML 页面里提取出纯文本信息,并将其转化为 WML。下面的代码演示了如何来实现这个步骤:

<?php
       
    
/**
    * @author 马秉尧
    * @copyright 2005 CoolCode.CN
    */
       
    
function text2wml($content) {
        
// 将 WML 变量前缀"$"转义
       
$content = str_replace('$', '$$', $content);
       
// 转换特殊字符,并将 Windows/DOS 换行符(/r/n)转化为 Unix 换行符(/n)
       
$content = str_replace("/r/n", "/n", htmlspecialchars($content));
       
// 通过换行符来将各行分开进行处理(过滤空行)
       
$content = explode("/n", $content);
       for (
$i = 0; $i < count($content); $i++) {
           
// 过滤首尾空格
           
$content[$i] = trim($content[$i]);
           
// 如果去掉全角空格为空行,则设为空行,否则不对全角空格过滤。
           
if (str_replace(" ", "", $content[$i]) == "") $content[$i] = "";
       }
       
//合并各行,转化为 WML,并过滤掉空行
       
$content = str_replace("<p><br /></p>/n", "", "<p>".implode("<br /></p>/n<p>", $content)."<br /></p>/n");
       return
$content;
   }
      
   function
html2wml($content) {
       
// 过滤掉样式表和脚本
       
$content = preg_replace("/<style .*?<//style>/is", "", $content);
       
$content = preg_replace("/<script .*?<//script>/is", "", $content);
       
// 首先将各种可以引起换行的标签(如<br />、<p> 之类)替换成换行符"/n"
       
$content = preg_replace("/<br /s*//?//>/i", "/n", $content);
       
$content = preg_replace("/<//?p>/i", "/n", $content);
       
$content = preg_replace("/<//?td>/i", "/n", $content);
       
$content = preg_replace("/<//?div>/i", "/n", $content);
       
$content = preg_replace("/<//?blockquote>/i", "/n", $content);
       
$content = preg_replace("/<//?li>/i", "/n", $content);
       
// 将"&nbsp;"替换为空格
       
$content = preg_replace("//&nbsp/;/i", " ", $content);
       
// 某些不规范的网页中可能有"&nbsp",在普通网页中显示会按照"&nbsp;"显示,不会引起错误,但是在 WAP 中会原样显示,因此也要替换成空格。
       
$content = preg_replace("//&nbsp/i", " ", $content);
       
// 过滤掉剩下的 HTML 标签
       
$content = strip_tags($content);
       
// 将 HTML 中的实体(entity)转化为它所对应的字符(WML 仅支持很有现的几个 entity),这里我转化的是中文网页,因此我指定了"GB2312"编码。
       
$content = html_entity_decode($content, ENT_QUOTES, "GB2312");
       
// 过滤掉不能转化的实体(entity)
       
$content = preg_replace("//&/#.*?/;/i", "", $content);
      
       
// 上面是将 HTML 网页内容转化为带换行的纯文本,下面是将这些纯文本转化为 WML。
       
return text2wml($content);
   }
   
?> 
 
原创粉丝点击