LeetCode高频算法面试题 - 010 - 正则表达式匹配

5/16/2022

# 题目描述

给你一个字符串 s 和一个字符规律 p,请你来实现一个支持 '.' 和 '*' 的正则表达式匹配。

  • '.' 匹配任意单个字符
  • '*' 匹配零个或多个前面的那一个元素
  • 所谓匹配,是要涵盖 整个 字符串 s的,而不是部分字符串。

题目难度: ★★★★, 困难

示例 1:

输入:s = "aa", p = "a"
输出:false
解释:"a" 无法匹配 "aa" 整个字符串。

示例 2:

输入:s = "aa", p = "a*"
输出:true
解释:因为 '*' 代表可以匹配零个或多个前面的那一个元素, 在这里前面的元素就是 'a'。因此,字符串 "aa" 可被视为 'a' 重复了一次。

示例 3:

输入:s = "ab", p = ".*"
输出:true
解释:".*" 表示可匹配零个或多个('*')任意字符('.')。

示例 4:

输入:s = "ab", p = ".*c"
输出:false

提示:

  • 1 <= s.length <= 20
  • 1 <= p.length <= 30
  • s 只包含从 a-z 的小写字母。
  • p 只包含从 a-z 的小写字母,以及字符 . 和 *。
  • 保证每次出现字符 * 时,前面都匹配到有效的字符

# 代码实现

解题思路: 「动态规划」(DP) 是解决此类字符串匹配问题的通用方法。

1、状态定义

首先定义dp二维数组, 定义 dp[i][j] 表示 s 的前 i 个字符和 p 的前 j 个字符能否匹配。

2、如果p[j] 不是 *, . 这两个特殊字符, 数学公式如下, 这种情况还是比较简单的。

if p[j] != "*" and p[j] != '.'{
  if s[i] == p[j]{
    dp[i][j] = dp[i-1][j-1]
  }else{
    dp[i][j] = false
  }  
}

3、如果p[j] = ., p[j] 一定会和s[i] 匹配成功

dp[i][j] = dp[i-1][j-1]

4、如果p[j] = *, 这个时候就需要分情况讨论.

我们可以假设s、p 和 i,j 如下值:

                i-1  i
s: d            a    a a 
p: d  a         a    * a c
      j -2     j-1   j

4.1)、如果* 匹配0次, 表示p[j-1]p[j] 都不等于s[i], dp[i][j]只能在p[0..j-2]判断是否是否包含s[0..i]字符串了

dp[i][j] = dp[i][j-2]

4.2)、如果* 匹配1次, p[j]p[j-1]组成a, p[j]不参与匹配, 因为匹配成功, 那么s[i]=p[j-1], dp[i][j]可以转变成如下公式:

dp[i][j] = dp[i-1][j-2]  && s[i] == p[j-1]

4.3)、如果* 匹配2次, p[j]p[j-1]组成aa, 因为匹配成功, 那么s[i-1..i]=p[j-1], dp[i][j]可以转变成如下公式:

dp[i][j] = dp[i-2][j-2]  && s[i-1..i] == p[j-1]

4.4)、如果* 匹配3次, p[j]p[j-1]组成aaa, 因为匹配成功, 那么s[i-2..i]=p[j-1], dp[i][j]可以转变成如下公式:

dp[i][j] = dp[i-3][j-2]  && s[i-2..i] == p[j-1]

4.5)、依次类推如果匹配n次

dp[i][j] = dp[i-n][j-2]  && s[i-n+1..i] == p[j-1]

总的来看,当 p[j]= * 时,对于匹配 0~n 次,公式就如下:

dp[i][j] = 匹配0次公式 or 匹配1次公式 or 匹配2次公式 or .. 匹配n次公式

dp[i][j] =  dp[i][j-2] or  // 标记0
            (dp[i-1][j-2]  && s[i] == p[j-1]) or  // 标记1
            (dp[i-2][j-2]  && s[i-1..i] == p[j-1]) || or // 标记2
            (dp[i-3][j-2]  && s[i-2..i] == p[j-1]) or// 标记3
            ...
            (dp[i-n][j-2]  && s[i-n+1..i] == p[j-1])// 标记n

同理可以推出


dp[i-1][j] = dp[i-1][j-2] or (dp[i-2][j-2]  && s[i-1] == p[j-1]) or 
            (dp[i-3][j-2]  && s[i-2..i] == p[j-1]) || or 
            (dp[i-4][j-2]  && s[i-3..i] == p[j-1]) or
            ...
            (dp[i-n-1[j-2]  && s[i-n..i] == p[j-1])

仔细观察dp[i][j]dp[i-1][j]的区别, 将dp[i-1][j]的等式两边都加上判断条件: s[i] == p[j-1]

dp[i-1][j] && s[i] == p[j-1] //
             p[j-1]) = (dp[i-1][j-2]  && s[i] == p[j-1]) or 
            (dp[i-2][j-2]  && s[i-1..i] == p[j-1]) || or 
            (dp[i-3][j-2]  && s[i-2..i] == p[j-1]) or
            ...
            (dp[i-n][j-2]  && s[i-n+1..i] == p[j-1])

可以看到 dp[i-1][j] && s[i] == p[j-1]的右边公式 正好是公式dp[i][j]的右边公式的 标记1~标记n 部分

所以可以替换, 并重新推导dp[i][j]最终推导公式如下:

dp[i][j] =  dp[i][j-2] or 
            dp[i-1][j] && s[i] == p[j-1]

5、然后就是dp初始化了

dp[0][0]=true;//两个空字串
for(int j=1;j<len(p);j++)//找出s为空 但p因为* 为空的情况
{
    if(p[j]=='*')
    {
        dp[0][j+1]=dp[0][j-1];
    }
}

tips: 以下代码是使用Go代码实现的不同解法, 文章最后可以看C++、C、Java、Python实现

具体代码如下:

func isMatch(s string, p string) bool {
  sLength := len(s)
  pLength := len(p)

  dp := make([][]bool, sLength + 1)
  for i := 0; i < sLength + 1; i++{
    dp[i] = make([]bool, pLength + 1)
  }
  dp[0][0] = true
  for j := 1; j < pLength + 1; j++ {
    if (p[j-1] == '*') {
      dp[0][j] = dp[0][j-2]
    }
  }

  for i := 1; i <= sLength; i++ {
    for j := 1; j <= pLength; j++ {

      if s[i-1] == p[j-1] || p[j-1] == '.' {
        dp[i][j] = dp[i-1][j-1]
      }else if p[j-1] == '*'{
        if s[i-1] != p[j-2] && p[j-2] != '.'{
          dp[i][j] = dp[i][j-2]
        } else{
          dp[i][j] = dp[i][j-2] || dp[i-1][j]
        }
      }
    }
  }

  return dp[sLength][pLength]
}

# 其他语言版本如下:

1、Python3

class Solution:
    def isMatch(self, s: str, p: str) -> bool:

        m, n = len(s), len(p)
        dp = [[False] * (n+1) for _ in range(m+1)]
        
        # 初始化
        dp[0][0] = True
        for j in range(1, n+1):
            if p[j-1] == '*':
                dp[0][j] = dp[0][j-2]

        # 状态更新
        for i in range(1, m+1):
            for j in range(1, n+1):
                if s[i-1] == p[j-1] or p[j-1] == '.':
                    dp[i][j] = dp[i-1][j-1]
                elif p[j-1] == '*':     # 【题目保证'*'号不会是第一个字符,所以此处有j>=2】
                    if s[i-1] != p[j-2] and p[j-2] != '.':
                        dp[i][j] = dp[i][j-2]
                    else:
                        dp[i][j] = dp[i][j-2] | dp[i-1][j]
        
        return dp[m][n]

2、Javascript

const isMatch = (s, p) => {
  if (s == null || p == null) return false;

  const sLen = s.length, pLen = p.length;

  const dp = new Array(sLen + 1);
  for (let i = 0; i < dp.length; i++) {
    dp[i] = new Array(pLen + 1).fill(false); // 将项默认为false
  }
  // base case
  dp[0][0] = true;
  for (let j = 1; j < pLen + 1; j++) {
    // 思考1: 这里为什么要初始化
    // 这是因为p[j - 1] 为*, dp[0][j - 2]匹配的话, dp[0][j]则匹配, 反之亦然
    // 
    // 思考2: dp[0][j - 2]会出现数组越界的情况吗
    // dp[0][j-2]越界的话 则为undefined
    if (p[j - 1] == "*") dp[0][j] = dp[0][j - 2];
  }
  // 迭代
  for (let i = 1; i < sLen + 1; i++) {
    for (let j = 1; j < pLen + 1; j++) {

      // 思考s[i - 1] == p[j - 1]时, dp[i][j] = dp[i - 1][j - 1]?
      // 
      if (s[i - 1] == p[j - 1] || p[j - 1] == ".") {
        dp[i][j] = dp[i - 1][j - 1];
      } else if (p[j - 1] == "*") {
        if (s[i - 1] == p[j - 2] || p[j - 2] == ".") {
          dp[i][j] = dp[i][j - 2] || dp[i - 1][j - 2] || dp[i - 1][j];
        } else {
          dp[i][j] = dp[i][j - 2];
        }
      }
    }
  }
  return dp[sLen][pLen]; // 长sLen的s串 是否匹配 长pLen的p串
};

3、C++

class Solution {
public:
    bool isMatch(string s, string p) {
        int m = s.size();
        int n= p.size();
        vector<vector<bool>> dp(m+1, vector<bool>(n+1, false));
        dp[0][0] = true;
        for(int j=1; j<=n; j++)
        {
            if(p[j-1]=='*') dp[0][j] = dp[0][j-2];//按题意p第一个元素不可能为'*'所以不必担心j越界
        }
        for(int i=1; i<=m; i++)
        {
            for(int j=1; j<=n; j++)
            {
                if(s[i-1]==p[j-1] || p[j-1]=='.') dp[i][j] = dp[i-1][j-1];
                else if(p[j-1]=='*')
                {
                    if(s[i-1]!=p[j-2] && p[j-2]!='.')
                    {
                        dp[i][j] = dp[i][j-2];
                    }
                    else
                    {
                        dp[i][j] = dp[i][j-2] | dp[i-1][j];
                    }
                }
            }
        }
        return dp[m][n];
    }
};

# 几种语言运行效果对比

也欢迎关注我的公众号: 漫步coding。 一起交流, 在coding的世界里漫步。