正则表达式匹配DNS主机名或者IP地址?

时间:2020-03-06 14:28:08  来源:igfitidea点击:

是否有人方便使用与任何合法DNS主机名或者IP地址匹配的正则表达式?

编写一个可以在95%的时间内正常工作的代码很容易,但是我希望得到经过充分测试的东西,以完全匹配最新的DNS主机名RFC规范。

解决方案

我们可以单独使用以下正则表达式,也可以将它们组合在联合OR表达式中。

ValidIpAddressRegex = "^(([0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])\.){3}([0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])$";

ValidHostnameRegex = "^(([a-zA-Z0-9]|[a-zA-Z0-9][a-zA-Z0-9\-]*[a-zA-Z0-9])\.)*([A-Za-z0-9]|[A-Za-z0-9][A-Za-z0-9\-]*[A-Za-z0-9])$";

ValidIpAddressRegex匹配有效的IP地址和ValidHostnameRegex的有效主机名。根据使用的语言,\可能必须使用\进行转义。

ValidHostnameRegex根据RFC 1123有效。最初,RFC 952指定主机名段不能以数字开头。

http://en.wikipedia.org/wiki/主机名

The original specification of
  hostnames in RFC
  952,
  mandated that labels could not start
  with a digit or with a hyphen, and
  must not end with a hyphen. However, a
  subsequent specification (RFC
  1123)
  permitted hostname labels to start
  with digits.
Valid952HostnameRegex = "^(([a-zA-Z]|[a-zA-Z][a-zA-Z0-9\-]*[a-zA-Z0-9])\.)*([A-Za-z]|[A-Za-z][A-Za-z0-9\-]*[A-Za-z0-9])$";

这是我在Ant中使用的正则表达式,用于从ANT_OPTS中获取代理主机IP或者主机名。这用于获取代理IP,以便在为派生的JVM配置代理之前,我可以运行Ant"可访问"测试。

^.*-Dhttp\.proxyHost=(\w{1,}\.\w{1,}\.\w{1,}\.*\w{0,})\s.*$

我似乎无法编辑顶部帖子,因此我将在此处添加答案。

对于主机名的简单答案,在此处的egrep示例中-http://www.linuxinsight.com/how_to_grep_for_ip_addresses_using_the_gnu_egrep_utility.html

egrep '([[:digit:]]{1,3}\.){3}[[:digit:]]{1,3}'

尽管这种情况并未考虑到第一个八位字节中的0值和大于254(ip addres)或者255(netmask)的值。也许添加的if语句会有所帮助。

至于合法的dns主机名,假设我们仅检查Internet主机名(而不是Intranet),则我写下了以下内容,混合了shell / php,但它可以作为任何正则表达式使用。

首先访问ietf网站,下载并解析1级合法域名的列表:

tld=$(curl -s http://data.iana.org/TLD/tlds-alpha-by-domain.txt |  sed 1d  | cut -f1 -d'-' | tr '\n' '|' | sed 's/\(.*\).//')
echo "($tld)"

那应该给我们一个不错的重新编码,以检查顶级域名的合法性,例如.com .org或者.ca

然后根据在此处找到的准则添加表达式的第一部分-http://www.domainit.com/support/faq.mhtml?category=Domain_FAQ&question=9(任何字母数字组合和'-'符号,短划线都不应位于一个八位位组的开始或者结束。

(([a-z0-9]+|([a-z0-9]+[-]+[a-z0-9]+))[.])+

然后将它们放在一起(PHP preg_match示例):

$pattern = '/^(([a-z0-9]+|([a-z0-9]+[-]+[a-z0-9]+))[.])+(AC|AD|AE|AERO|AF|AG|AI|AL|AM|AN|AO|AQ|AR|ARPA|AS|ASIA|AT|AU|AW|AX|AZ|BA|BB|BD|BE|BF|BG|BH|BI|BIZ|BJ|BM|BN|BO|BR|BS|BT|BV|BW|BY|BZ|CA|CAT|CC|CD|CF|CG|CH|CI|CK|CL|CM|CN|CO|COM|COOP|CR|CU|CV|CX|CY|CZ|DE|DJ|DK|DM|DO|DZ|EC|EDU|EE|EG|ER|ES|ET|EU|FI|FJ|FK|FM|FO|FR|GA|GB|GD|GE|GF|GG|GH|GI|GL|GM|GN|GOV|GP|GQ|GR|GS|GT|GU|GW|GY|HK|HM|HN|HR|HT|HU|ID|IE|IL|IM|IN|INFO|INT|IO|IQ|IR|IS|IT|JE|JM|JO|JOBS|JP|KE|KG|KH|KI|KM|KN|KP|KR|KW|KY|KZ|LA|LB|LC|LI|LK|LR|LS|LT|LU|LV|LY|MA|MC|MD|ME|MG|MH|MIL|MK|ML|MM|MN|MO|MOBI|MP|MQ|MR|MS|MT|MU|MUSEUM|MV|MW|MX|MY|MZ|NA|NAME|NC|NE|NET|NF|NG|NI|NL|NO|NP|NR|NU|NZ|OM|ORG|PA|PE|PF|PG|PH|PK|PL|PM|PN|PR|PRO|PS|PT|PW|PY|QA|RE|RO|RS|RU|RW|SA|SB|SC|SD|SE|SG|SH|SI|SJ|SK|SL|SM|SN|SO|SR|ST|SU|SV|SY|SZ|TC|TD|TEL|TF|TG|TH|TJ|TK|TL|TM|TN|TO|TP|TR|TRAVEL|TT|TV|TW|TZ|UA|UG|UK|US|UY|UZ|VA|VC|VE|VG|VI|VN|VU|WF|WS|XN|XN|XN|XN|XN|XN|XN|XN|XN|XN|XN|YE|YT|YU|ZA|ZM|ZW)[.]?$/i';

    if (preg_match, $pattern, $matching_string){
    ... do stuff
    }

我们可能还想添加一个if语句来检查所检查的字符串是否短于256个字符-http://www.ops.ietf.org/lists/namedroppers/namedroppers.2003/msg00964.html

smink的主机名正则表达式未遵守主机名中各个标签长度的限制。有效主机名中的每个标签的长度不得超过63个八位位组。

ValidHostnameRegex="^([a-zA-Z0-9]|[a-zA-Z0-9][a-zA-Z0-9\-]{0,61}[a-zA-Z0-9])\
(\.([a-zA-Z0-9]|[a-zA-Z0-9][a-zA-Z0-9\-]{0,61}[a-zA-Z0-9]))*$"

请注意,第一行(上方)末尾的反斜杠是用于分隔长行的Unix shell语法。它不是正则表达式本身的一部分。

这仅是一行中的正则表达式:

^([a-zA-Z0-9]|[a-zA-Z0-9][a-zA-Z0-9\-]{0,61}[a-zA-Z0-9])(\.([a-zA-Z0-9]|[a-zA-Z0-9][a-zA-Z0-9\-]{0,61}[a-zA-Z0-9]))*$

我们还应该单独检查主机名的总长度不能超过255个字符。有关更多信息,请查阅RFC-952和RFC-1123.