如何截断PHP中最接近一定数量字符的单词的字符串?

时间:2020-03-05 18:57:55  来源:igfitidea点击:

我有一个用PHP编写的代码片段,可从数据库中提取文本块并将其发送到网页上的小部件。原始文本块可以是一篇冗长的文章或者一两个简短的句子;但是对于此小部件,我最多只能显示200个字符。我可以使用substr()以200个字符的形式截断文本,但是结果是在单词中间截断-我真正想要的是在200个字符之前的最后一个词的末尾截断文本。

解决方案

回答

通过使用自动换行功能。它将文本分成多行,以使最大宽度是我们指定的宽度,并在单词边界处断开。拆分后,我们只需走第一行:

substr($string, 0, strpos(wordwrap($string, $your_desired_width), "\n"));

文本本身短于所需宽度时,oneliner无法处理的一件事。要处理这种情况,应执行以下操作:

if (strlen($string) > $your_desired_width) 
{
    $string = wordwrap($string, $your_desired_width);
    $string = substr($string, 0, strpos($string, "\n"));
}

如果文本在实际剪切点之前包含换行符,则上述解决方案存在过早剪切文本的问题。这里是解决此问题的版本:

function tokenTruncate($string, $your_desired_width) {
  $parts = preg_split('/([\s\n\r]+)/', $string, null, PREG_SPLIT_DELIM_CAPTURE);
  $parts_count = count($parts);

  $length = 0;
  $last_part = 0;
  for (; $last_part < $parts_count; ++$last_part) {
    $length += strlen($parts[$last_part]);
    if ($length > $your_desired_width) { break; }
  }

  return implode(array_slice($parts, 0, $last_part));
}

另外,这是用于测试实现的PHPUnit测试类:

class TokenTruncateTest extends PHPUnit_Framework_TestCase {
  public function testBasic() {
    $this->assertEquals("1 3 5 7 9 ",
      tokenTruncate("1 3 5 7 9 11 14", 10));
  }

  public function testEmptyString() {
    $this->assertEquals("",
      tokenTruncate("", 10));
  }

  public function testShortString() {
    $this->assertEquals("1 3",
      tokenTruncate("1 3", 10));
  }

  public function testStringTooLong() {
    $this->assertEquals("",
      tokenTruncate("toooooooooooolooooong", 10));
  }

  public function testContainingNewline() {
    $this->assertEquals("1 3\n5 7 9 ",
      tokenTruncate("1 3\n5 7 9 11 14", 10));
  }
}

不处理特殊的UTF8字符,例如""。在REGEX的末尾添加'u'来处理它:

$ parts = preg_split('/([\ s \ n \ r] +)/ u',$ string,null,PREG_SPLIT_DELIM_CAPTURE);

回答

使用strpos和substr:

<?php

$longString = "I have a code snippet written in PHP that pulls a block of text.";
$truncated = substr($longString,0,strpos($longString,' ',30));

echo $truncated;

这将为我们提供一个字符串,该字符串在30个字符后的第一个空格处被截断。

回答

干得好:

function neat_trim($str, $n, $delim='…') {
   $len = strlen($str);
   if ($len > $n) {
       preg_match('/(.{' . $n . '}.*?)\b/', $str, $matches);
       return rtrim($matches[1]) . $delim;
   }
   else {
       return $str;
   }
}

回答

我将使用preg_match函数来执行此操作,因为我们想要的是一个非常简单的表达式。

$matches = array();
$result = preg_match("/^(.{1,199})[\s]/i", $text, $matches);

该表达式的意思是"匹配从长度1-200的开头以空格结尾的任何子字符串。"结果为$ result,匹配项为$ matches。这将解决原始问题,该问题特别在任何空间结束。如果要使其以换行符结尾,请将正则表达式更改为:

$result = preg_match("/^(.{1,199})[\n]/i", $text, $matches);

回答

这将返回单词的前200个字符:

preg_replace('/\s+?(\S+)?$/', '', substr($string, 0, 201));

回答

当我们在某些语言(例如中文和日语)不使用空格字符来拆分单词的任何地方通过"单词"拆分时,请记住。此外,恶意用户可能只输入文本而没有任何空格,或者使用与标准空格字符相似的Unicode字符,在这种情况下,我们使用的任何解决方案都可能最终仍然显示整个文本。解决此问题的一种方法可能是检查字符串长度,然后按正常方式在空格上进行分割,然后,如果字符串仍超出异常限制,则在这种情况下,可能会继续输入225个字符,然后在该限制下进行双倍分割。

对于非ASCII字符,还要再做一个类似的说明。 PHP的标准strlen()可能会将包含它们的字符串解释为比实际长度更长,因为单个字符可能占用两个或者更多字节,而不是一个字节。如果仅使用strlen()/ substr()函数拆分字符串,则可以在字符中间拆分字符串!如有疑问,mb_strlen()/ mb_substr()更加安全。

回答

这是我基于@ Cd-MaN方法的函数。

function shorten($string, $width) {
  if(strlen($string) > $width) {
    $string = wordwrap($string, $width);
    $string = substr($string, 0, strpos($string, "\n"));
  }

  return $string;
}

回答

基于@Justin Poliey的正则表达式:

// Trim very long text to 120 characters. Add an ellipsis if the text is trimmed.
if(strlen($very_long_text) > 120) {
  $matches = array();
  preg_match("/^(.{1,120})[\s]/i", $very_long_text, $matches);
  $trimmed_text = $matches[0]. '...';
}