编写一个PHP中文截取无乱码的函数

19-02-26 14:09 字数 984 阅读 1446 已编辑

PHP截取字符串的函数是substr,但是此函数在截取包含中文字符串时,有可能发生乱码情况,因为utf-8下一个中文占3个字节,所以你可能截取了一个中文字符的一部分。

为了避免这种情况,我们需要自定义一个函数。字符串编码按utf-8对待。

/**
 * 中文截取无乱码
 * @param $str
 * @param $start
 * @param $length
 * @return string|null
 */
function mbSubStr($str, $start, $length)
{
    // 最终返回的字符串
    $resultStr = null;
    // 字符串的长度
    $len = strlen($str);
    // 要截取的位置和对应位置长度的数组
    $l2pMap = [];
    // 字符的下标[中文按一个字符对待]
    $index = 0;
    for ($i = 0; $i < $len; $i++) {
        $l2pMap[$index] = $i;
        $index++;
        if (ord(substr($str, $i, 1)) >= 0xa0) {
            $i += 2;
        }
    }
    // 真正要开始截取的位置
    $realStartPosition = isset($l2pMap[$start]) ? $l2pMap[$start] : false;
    if (false === $realStartPosition) return $resultStr;
    // 截取拼接字符串
    $realLength = $l2pMap[$start + $length];
    for ($i = $realStartPosition; $i < $realLength; $i++) {
        if (ord(substr($str, $i, 1)) >= 0xa0) {
            $resultStr .= substr($str, $i, 3);
            $i += 2;
        } else {
            $resultStr .= substr($str, $i, 1);
        }

    }
    return $resultStr;
}

$str = "你好啊哈哈china";

$r1 = mbSubStr($str, 0, 6);
$r2 = mb_substr($str, 0, 6);
var_dump($r1, $r2);

// string '你好啊哈哈c' (length=16)
// string '你好啊哈哈c' (length=16)

其实打开php_mbstring扩展后,可以使用mb_substr函数截取中文字符串,并且不会有乱码情况,上面的代码只是实现了和mb_substr函数一样的效果。

0人点赞>
关注 收藏 改进 举报
0 条评论
排序方式 时间 投票
快来抢占一楼吧
请登录后发表评论
站长 @ 十七度
文章
380
粉丝
23
喜欢
191
收藏
31
排名 : 1
访问 : 128.53万
私信