PHP 中转换 SGML 类语言为真实中文字符

来源：互联网发布：win7数据库安装失败编辑：程序博客网时间：2024/06/10 02:52

昨天在用 PHP 在做一个数据采集项目的时候遇到了一个特殊的问题，就是中文被特殊的字符转化，用PHP采集过来还是保持原来的字符，但在浏览器会被编译成正常的中文字符显示在页面上，但你打开源代码查看时还是会保持原来的字符。

‘Ubuntu | 全球领先的用于个人电脑、平板及手机的操作系统’

上面是这个特殊的原形，经过网络的查找，说这一串字符是 HTML、XML 等 SGML 类语言的转义序列（escape sequence）。它们不是「编码」。

&#dddd;
&#xhhhh;
&#name;

以 HTML 为例，这三种转义序列都称作 character reference：

前两种是 numeric character reference（NCR），数字取值为目标字符的 Unicode code point；以「&#」开头的后接十进制数字，以「&#x」开头的后接十六进制数字。
后一种是 character entity reference，后接预先定义的 entity 名称，而 entity 声明了自身指代的字符。

从 HTML 4 开始，NCR 以 Unicode 为准，与文档编码无关。

通过以上资料的提示，我开始查找 PHP 有关 Unicode 方面的信息，所以昨天就找到这篇我收藏的《PHP实现Unicode和Utf-8编码的互相转换》可无奈的是依然无法解决我想直接在 PHP 中就将这字符直接转换成将中文输出的问题，于是今天上午我又换了一种思路去开始查找，最后终于让我找到了解决方法。

原来 PHP 自带就有两个函数来解决这个问题，这两个函数分别是 html_entity_decode 和 mb_convert_encoding。

至于这两个函数的用法，大家可以看 PHP 官方的手册就明白，这个不多说了，下面是两个函数解决这个问题的写法。

 $string = 'Ubuntu | &#20840;&#29699;&#39046;&#20808;&#30340;&#29992;&#20110;&#20010;&#20154;&#30005;&#33041;&#12289;&#24179;&#26495;&#21450;&#25163;&#26426;&#30340;&#25805;&#20316;&#31995;&#32479;';
$str1 = html_entity_decode($string);
$str2 = mb_convert_encoding($string, 'utf-8', 'HTML-ENTITIES');

转载请注明：PKCMS博客 » PHP 中转换 SGML 类语言为真实中文字符

0 0