字符串专题
字符串理论基础
字符串用的比较多,在这里就先不展开了
专题题目
344.反转字符串
题目
编写一个函数,其作用是将输入的字符串反转过来。输入字符串以字符数组 char[] 的形式给出。
不要给另外的数组分配额外的空间,你必须原地修改输入数组、使用 O(1) 的额外空间解决这一问题。
你可以假设数组中的所有字符都是 ASCII 码表中的可打印字符。
示例 1: 输入:["h","e","l","l","o"] 输出:["o","l","l","e","h"]
示例 2: 输入:["H","a","n","n","a","h"] 输出:["h","a","n","n","a","H"]
思路
这道题太过于简单。没有技术含量
但还是要注意面试要点:
如果在现场面试中,我们什么时候使用库函数,什么时候不要用库函数呢?
如果题目关键的部分直接用库函数就可以解决,建议不要使用库函数。
毕竟面试官一定不是考察你对库函数的熟悉程度, 如果使用python和java 的同学更需要注意这一点,因为python、java提供的库函数十分丰富。
如果库函数仅仅是 解题过程中的一小部分,并且你已经很清楚这个库函数的内部实现原理的话,可以考虑使用库函数。
建议大家平时在leetcode上练习算法的时候本着这样的原则去练习,这样才有助于我们对算法的理解。
我的代码
javaclass Solution { public void reverseString(char[] s) { int left = 0, right = s.length - 1; while(left <= right){ char temp = s[left]; s[left] = s[right]; s[right] = temp; left++; right--; } } }
官方推荐
异或操作!!!
javaclass Solution { public void reverseString(char[] s) { int l = 0; int r = s.length - 1; while (l < r) { s[l] ^= s[r]; //构造 a ^ b 的结果,并放在 a 中 s[r] ^= s[l]; //将 a ^ b 这一结果再 ^ b ,存入b中,此时 b = a, a = a ^ b s[l] ^= s[r]; //a ^ b 的结果再 ^ a ,存入 a 中,此时 b = a, a = b 完成交换 l++; r--; } } }
541.反转字符串II
题目
给定一个字符串 s 和一个整数 k,从字符串开头算起, 每计数至 2k 个字符,就反转这 2k 个字符中的前 k 个字符。
如果剩余字符少于 k 个,则将剩余字符全部反转。
如果剩余字符小于 2k 但大于或等于 k 个,则反转前 k 个字符,其余字符保持原样。
示例:
输入: s = "abcdefg", k = 2 输出: "bacdfeg"
其中:
1 <= s.length <= 104
s
仅由小写英文组成1 <= k <= 104
思路
模拟就好,关键在于字符串移动位数,不要被吓到,而且要善于抓住本质,
题目实际就是让你找要逆转的字符串的开头的位置,以及相应的结束位置
我的代码
javaclass Solution { public String reverseStr(String s, int k) { char[] ch = s.toCharArray(); for (int i = 0; i < ch.length; i += 2 * k) { // 每次i都在要逆转的开序列的开头 int start = i; int end = Math.min(start + k - 1, ch.length - 1); while (start < end) { char temp = ch[start]; ch[start] = ch[end]; ch[end] = temp; start++; end--; } } return new String(ch); } }
官方推荐
javaclass Solution { public String reverseStr(String s, int k) { char[] ch = s.toCharArray(); for(int i = 0; i < ch.length; i += 2 * k){ int start = i; //这里是判断尾数够不够k个来取决end指针的位置 int end = Math.min(ch.length - 1, start + k - 1); //用异或运算反转 while(start < end){ ch[start] ^= ch[end]; ch[end] ^= ch[start]; ch[start] ^= ch[end]; start++; end--; } } return new String(ch); } }
卡码-替换数字
题目
给定一个字符串 s,它包含小写字母和数字字符,请编写一个函数,将字符串中的字母字符保持不变,而将每个数字字符替换为number。
例如,对于输入字符串 "a1b2c3",函数应该将其转换为 "anumberbnumbercnumber"。
对于输入21· 字符串 "a5b",函数应该将其转换为 "anumberb"
输入:一个字符串 s,s 仅包含小写字母和数字字符。
输出:打印一个新的字符串,其中每个数字字符都被替换为了number
样例输入:a1b2c3
样例输出:anumberbnumbercnumber
数据范围:1 <= s.length < 10000。
思路
想要让内存空间消耗发挥到极致的话,就要设法构造一个最后正确结果长度的字符数组,所以只要遍历这个数组找到非字母字符的个数,计算出最终数组应该多大并创建它,接着就按照下标在数字字符的位置作为开头将number
这个字符替换就好了。
我的代码
javapublic static void main(String[] args){ Scanner sc = new Scanner(System.in); String s = sc.nextLine(); char[] sin = s.toCharArray(); int count = 0; for (int i = 0; i < sin.length; i++){ if (sin[i] >= '0' && sin[i] <= '9'){ count++; } } int size = sin.length + count * 5; char[] res = new char[size]; for(int i = size - 1, j = sin.length - 1; i >= 0; i--, j--){ if (sin[j] > '9' || sin[j] < '0'){ res[i] = sin[j]; } else{ res[i] = 'r'; res[--i] = 'e'; res[--i] = 'b'; res[--i] = 'm'; res[--i] = 'u'; res[--i] = 'n'; } } String ans = new String(res); System.out.println(ans); }
官方推荐
151.翻转字符串里的单词【中等】
题目
单词 是由非空格字符组成的字符串。
s
中使用至少一个空格将字符串中的 单词 分隔开。返回 单词 顺序颠倒且 单词 之间用单个空格连接的结果字符串。
**注意:**输入字符串
s
中可能会存在前导空格、尾随空格或者单词间的多个空格。返回的结果字符串中,单词间应当仅用单个空格分隔,且不包含任何额外的空格。给定一个字符串,逐个翻转字符串中的每个单词。
示例 1: 输入: "the sky is blue" 输出: "blue is sky the"
示例 2: 输入: " hello world! " 输出: "world! hello" 解释: 输入字符串可以在前面或者后面包含多余的空格,但是反转后的字符不能包括。
示例 3: 输入: "a good example" 输出: "example good a" 解释: 如果两个单词间有多余的空格,将反转后单词间的空格减少到只含一个。
提示:
1 <= s.length <= 104
s
包含英文大小写字母、数字和空格' '
s
中 至少存在一个 单词
思路
我的思路是先对原字符串做trim()操作,去除前缀和后缀的空格,然后从数组末尾开始遍历,当碰到空格时,就把从当前位置到这一次开始遍历的位置的字符(也就是一个单词)用StringBuffer追加,并追加一个空格,这样保证了逆序和空格,重要的是碰到空格的时候还要检查其前面是否仍然是空格,否则继续前移,保证单词间的空格是一个,直到遍历到数组最开头,将这第一个单词也输出即可,其实想了一下好像不必要trim()。
我的代码
javaclass Solution { public String reverseWords(String s) { s = s.trim(); if (s.length() == 1 && !s.equals(" ")) { return s; } // 已经去除了前面和后面的空格的字符串,将其处理,取出每一个字符串 char[] sToChar = s.toCharArray(); StringBuffer newStr = new StringBuffer(); int count = 0; for (int i = sToChar.length - 1; i >= 0; i--) { if (sToChar[i] == ' ') { newStr.append(String.valueOf(sToChar, i + 1, count)); newStr.append(" "); // 找到一次重置 count = 0; // 找到' '要确保其前面不是空格 while (sToChar[i - 1] == ' ') { i--; } } else { count++; } } // 停在最开始的位置,这是第一个单词,也要输出 newStr.append(String.valueOf(sToChar, 0, count)); return new String(newStr); } }
官方推荐
方法一,调用API
javaclass Solution { public String reverseWords(String s) { // 除去开头和末尾的空白字符 s = s.trim(); // 正则匹配连续的空白字符作为分隔符分割 List<String> wordList = Arrays.asList(s.split("\\s+")); Collections.reverse(wordList); return String.join(" ", wordList); } } 作者:力扣官方题解 链接:https://leetcode.cn/problems/reverse-words-in-a-string/solutions/194450/fan-zhuan-zi-fu-chuan-li-de-dan-ci-by-leetcode-sol/ 来源:力扣(LeetCode) 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
卡码-右旋字符串
题目
字符串的右旋转操作是把字符串尾部的若干个字符转移到字符串的前面。给定一个字符串 s 和一个正整数 k,请编写一个函数,将字符串中的后面 k 个字符移到字符串的前面,实现字符串的右旋转操作。
例如,对于输入字符串 "abcdefg" 和整数 2,函数应该将其转换为 "fgabcde"。
输入:输入共包含两行,第一行为一个正整数 k,代表右旋转的位数。第二行为字符串 s,代表需要旋转的字符串。
输出:输出共一行,为进行了右旋转操作后的字符串。
样例输入:
text2 abcdefg
1 2
样例输出:
textfgabcde
1
数据范围:1 <= k < 10000, 1 <= s.length < 10000
思路
为了让本题更有意义,提升一下本题难度:不能申请额外空间,只能在本串上操作。 (Java不能在字符串上修改,所以使用java一定要开辟新空间)
不能使用额外空间的话,模拟在本串操作要实现右旋转字符串的功能还是有点困难的。
那么我们可以想一下上一题目字符串:花式反转还不够! (opens new window)中讲过,使用整体反转+局部反转就可以实现反转单词顺序的目的。
本题中,我们需要将字符串右移n位,字符串相当于分成了两个部分,如果n为2,符串相当于分成了两个部分,如图: (length为字符串长度)
右移n位, 就是将第二段放在前面,第一段放在后面,先不考虑里面字符的顺序,是不是整体倒叙不就行了。如图:
此时第一段和第二段的顺序是我们想要的,但里面的字符位置被我们倒叙,那么此时我们在把 第一段和第二段里面的字符再倒叙一把,这样字符顺序不就正确了。 如果:
其实,思路就是 通过 整体倒叙,把两段子串顺序颠倒,两个段子串里的的字符在倒叙一把,负负得正,这样就不影响子串里面字符的顺序了。
我的代码
我只能说,卡码网的写法需要我们完整的把所有东西都写出来,包括类,包括输入的参数,完全一致才行,
力扣上只需要我们去实现目标方法即可
javaimport java.util.*; public class Main { public static void main(String[] args) { Scanner scanner = new Scanner(System.in); int k = scanner.nextInt(); String s = scanner.next(); System.out.println(convertStr(s, k)); } public static String convertStr(String s, int k) { // 对给定的字符串s和正整数k,k就是字符串的倒数第k个字符 // 将倒数k个字符组成的串移动到最前面就是 char[] sToChar = s.toCharArray(); reverse(sToChar, 0, sToChar.length - 1); reverse(sToChar, 0, k - 1); reverse(sToChar, k, sToChar.length - 1); return new String(sToChar); } public static void reverse(char[] str, int start, int end) { while (start <= end) { char temp = str[start]; str[start] = str[end]; str[end] = temp; start++; end--; } } }
官方推荐
无
28.实现strStr()
题目
实现 strStr() 函数。
给定一个 haystack 字符串和一个 needle 字符串,在 haystack 字符串中找出 needle 字符串出现的第一个位置 (从0开始)。如果不存在,则返回 -1。
示例 1: 输入: haystack = "hello", needle = "ll" 输出: 2
示例 2: 输入: haystack = "aaaaa", needle = "bba" 输出: -1
说明: 当 needle 是空字符串时,我们应当返回什么值呢?这是一个在面试中很好的问题。 对于本题而言,当 needle 是空字符串时我们应当返回 0 。这与C语言的 strstr() 以及 Java的 indexOf() 定义相符。
思路
本题是KMP算法的经典题目,正好复习一下,我在下面的总结中有写关于KMP算法的学习
我的代码
我用的就是j从0开始的,i也从0开始的,当模式串在 j处 遇到不匹配的时候,应该去找紧前一个即next[j-1]的值
javapackage org.example.initializr; import org.junit.Test; import java.util.Arrays; public class CommonTest { @Test public void test() { int index = isMath("aabaaabaaf", "aabaaf"); System.out.println(index); } /** * KMP算法获取next数组 * * @param s,模式串 * @return 模式串返回的next数组 */ public int[] getNext(String s) { int[] next = new int[s.length()]; /** * j表示KMP算法中前缀的结尾,同时也表示最长前缀的长度, * i表示KMP算法中后缀的结尾 * 为什么要在结尾? * 每次都在结尾比较,也就是将这前后缀的长度从最长的长度递减地比较以得到最长相等前后缀 * 为什么i和j起初错了一位,其实是由i和j所表示的特殊含义决定的 * i表示是后缀的结尾,j表示的是前缀的结尾 * 比较的时候只要从前缀和后缀的结尾字符即可,也就是i和j所对应的字符啦 */ char[] sToChar = s.toCharArray(); int j = 0; for (int i = 1; i < sToChar.length; i++) { // 我们是从最长的前后缀长度开始比较的, // 这是因为这样可以从最后一个位置时候相同来决定这次长度是不是我们需要的最长相等前后缀 // 不相同那自然就不是,所以就得一直去往下一个位置,但是下一个位置不是无限的, // 如果到开头仍不相等那就停下来 while (j > 0 && sToChar[i] != sToChar[j]) { j = next[j - 1]; } // 这时我们确定最终的最长相等前后缀,还需要考虑这个时候支付是否相等 // 因为这个时候的j可能是因为到了模式串开头处,不得不停下来 // 如果相等的话,那么最长前后缀是1,经过这个判断最后的结果才确认下来 if (sToChar[i] == sToChar[j]) j++; next[i] = j; } return next; } public int isMath(String s, String match) { if (match.length() == 0) return 0; int[] next = getNext(match); char[] mathCharArray = match.toCharArray(); char[] sCharArray = s.toCharArray(); int j = 0; for (int i = 0; i < s.length(); i++) { while (j - 1>= 0 && sCharArray[i] != mathCharArray[j]) { j = next[j - 1]; } if (sCharArray[i] == mathCharArray[j]) { // 总体在i的循环里,所以不用再加i j++; } if (j == match.length()) { return (i - match.length() + 1); } } return -1; } }
官方推荐
javaclass Solution { //前缀表(不减一)Java实现 public int strStr(String haystack, String needle) { if (needle.length() == 0) return 0; int[] next = new int[needle.length()]; getNext(next, needle); int j = 0; for (int i = 0; i < haystack.length(); i++) { while (j > 0 && needle.charAt(j) != haystack.charAt(i)) j = next[j - 1]; if (needle.charAt(j) == haystack.charAt(i)) j++; if (j == needle.length()) return i - needle.length() + 1; } return -1; } private void getNext(int[] next, String s) { int j = 0; next[0] = 0; for (int i = 1; i < s.length(); i++) { while (j > 0 && s.charAt(j) != s.charAt(i)) j = next[j - 1]; if (s.charAt(j) == s.charAt(i)) j++; next[i] = j; } } }
j初始化-1的方法
java// 方法一 class Solution { public void getNext(int[] next, String s){ int j = -1; next[0] = j; for (int i = 1; i < s.length(); i++){ while(j >= 0 && s.charAt(i) != s.charAt(j+1)){ j=next[j]; } if(s.charAt(i) == s.charAt(j+1)){ j++; } next[i] = j; } } public int strStr(String haystack, String needle) { if(needle.length()==0){ return 0; } int[] next = new int[needle.length()]; getNext(next, needle); int j = -1; for(int i = 0; i < haystack.length(); i++){ while(j>=0 && haystack.charAt(i) != needle.charAt(j+1)){ j = next[j]; } if(haystack.charAt(i) == needle.charAt(j+1)){ j++; } if(j == needle.length()-1){ return (i-needle.length()+1); } } return -1; } }
459.重复的子字符串
通过这道题,我觉得一个最深的感觉就是理解最长相等前后缀,也就是next数组是怎么得到的,next数组取之于模式串,所谓的最长相等前后缀也来自于模式串,不管前缀和后缀都是模式串对应位置上的子串
只要最长相等前后缀的值next.length
大于零,模式串长度减去其后能被模式串长度整除的话,就代表该模式串是可以被其子串重复构成的
这个关系是可以推算得到的,推算在下面
题目
给定一个非空的字符串,判断它是否可以由它的一个子串重复多次构成。给定的字符串只含有小写英文字母,并且长度不超过10000。
示例 1:
- 输入: "abab"
- 输出: True
- 解释: 可由子字符串 "ab" 重复两次构成。
示例 2:
- 输入: "aba"
- 输出: False
示例 3:
- 输入: "abcabcabcabc"
- 输出: True
- 解释: 可由子字符串 "abc" 重复四次构成。 (或者子字符串 "abcabc" 重复两次构成。)
思路
两种解法:
移动匹配
当一个字符串s:abcabc,内部由重复的子串组成,那么这个字符串的结构一定是这样的:
也就是由前后相同的子串组成。
那么既然前面有相同的子串,后面有相同的子串,用 s + s,这样组成的字符串中,后面的子串做前串,前面的子串做后串,就一定还能组成一个s,如图:
==所以判断字符串s是否由重复子串组成,只要两个s拼接在一起,里面还出现一个s的话,就说明是由重复子串组成==。
当然,我们在判断 s + s 拼接的字符串里是否出现一个s的的时候,要刨除 s + s 的首字符和尾字符,这样避免在s+s中搜索出原来的s,我们要搜索的是中间拼接出来的s。
不过这种解法还有一个问题,就是 我们最终还是要判断 一个字符串(s + s)是否出现过 s 的过程,大家可能直接用contains,find 之类的库函数。 却忽略了实现这些函数的时间复杂度(暴力解法是m * n,一般库函数实现为 O(m + n))。
如果我们做过 28.实现strStr (opens new window)题目的话,其实就知道,实现一个 高效的算法来判断 一个字符串中是否出现另一个字符串是很复杂的,这里就涉及到了KMP算法
KMP
在一个串中查找是否出现过另一个串,这是KMP的看家本领。那么寻找重复子串怎么也涉及到KMP算法了呢?
KMP算法中next数组为什么遇到字符不匹配的时候可以找到上一个匹配过的位置继续匹配,靠的是有计算好的前缀表。 前缀表里,统计了各个位置为终点字符串的最长相同前后缀的长度。
那么 最长相同前后缀和重复子串的关系又有什么关系呢。
可能很多录友又忘了 前缀和后缀的定义,再回顾一下:
- 前缀是指不包含最后一个字符的所有以第一个字符开头的连续子串;
- 后缀是指不包含第一个字符的所有以最后一个字符结尾的连续子串
在由重复子串组成的字符串中,最长相等前后缀不包含的子串就是最小重复子串,这里拿字符串s:abababab 来举例,ab就是最小重复单位,如图所示:
#如何找到最小重复子串
这里有同学就问了,为啥一定是开头的ab呢。 其实最关键还是要理解 最长相等前后缀,如图:
步骤一:因为 这是相等的前缀和后缀,t[0] 与 k[0]相同, t[1] 与 k[1]相同,所以 s[0] 一定和 s[2]相同,s[1] 一定和 s[3]相同,即:,s[0]s[1]与s[2]s[3]相同 。
步骤二: 因为在同一个字符串位置,所以 t[2] 与 k[0]相同,t[3] 与 k[1]相同。
步骤三: 因为 这是相等的前缀和后缀,t[2] 与 k[2]相同 ,t[3]与k[3] 相同,所以,s[2]一定和s[4]相同,s[3]一定和s[5]相同,即:s[2]s[3] 与 s[4]s[5]相同。
步骤四:循环往复。
所以字符串s,s[0]s[1]与s[2]s[3]相同, s[2]s[3] 与 s[4]s[5]相同,s[4]s[5] 与 s[6]s[7] 相同。
正是因为 最长相等前后缀的规则,当一个字符串由重复子串组成的,最长相等前后缀不包含的子串就是最小重复子串。
简单推理
这里再给出一个数学推导,就容易理解很多。
假设字符串s使用多个重复子串构成(这个子串是最小重复单位),重复出现的子字符串长度是x,所以s是由n * x组成。
因为字符串s的最长相同前后缀的长度一定是不包含s本身,所以 最长相同前后缀长度必然是m * x,而且 n - m = 1,(这里如果不懂,看上面的推理)
所以如果 nx % (n - m)x = 0,就可以判定有重复出现的子字符串。
next 数组记录的就是最长相同前后缀 字符串:KMP算法精讲 (opens new window)这里介绍了什么是前缀,什么是后缀,什么又是最长相同前后缀), 如果 next[len - 1] != -1,则说明字符串有最长相同的前后缀(就是字符串里的前缀子串和后缀子串相同的最长长度)。
最长相等前后缀的长度为:next[len - 1] + 1。(这里的next数组是以统一减一的方式计算的,因此需要+1,两种计算next数组的具体区别看这里:字符串:KMP算法精讲 (opens new window))
数组长度为:len。
如果len % (len - (next[len - 1] + 1)) == 0 ,则说明数组的长度正好可以被 (数组长度-最长相等前后缀的长度) 整除 ,说明该字符串有重复的子字符串。
数组长度减去最长相同前后缀的长度相当于是第一个周期的长度,也就是一个周期的长度,如果这个周期可以被整除,就说明整个数组就是这个周期的循环。
强烈建议大家把next数组打印出来,看看next数组里的规律,有助于理解KMP算法
如图:
next[len - 1] = 7,next[len - 1] + 1 = 8,8就是此时字符串asdfasdfasdf的最长相同前后缀的长度。
(len - (next[len - 1] + 1)) 也就是: 12(字符串的长度) - 8(最长公共前后缀的长度) = 4, 4正好可以被 12(字符串的长度) 整除,所以说明有重复的子字符串(asdf)。
我的代码
javaclass Solution { public boolean repeatedSubstringPattern(String s) { int[] next = getNext(s); if(next[s.length()-1] > 0 && (s.length() % (s.length() - next[s.length()-1]) == 0)){ return true; } return false; } public int[] getNext(String s){ int[] next = new int[s.length()]; int j = 0; for(int i = 1; i < s.length(); i++){ // 不匹配的情况 while(j > 0 && s.charAt(j) != s.charAt(i)){ j = next[j - 1]; } if(s.charAt(j) == s.charAt(i)){ j++; } next[i] = j; } return next; } }
字符串总结
KMP算法学习(核心)
我自己写的KMP算法得到next
数组的函数
import org.junit.Test;
import java.util.Arrays;
public class CommonTest {
@Test
public void test() {
int[] next = getNext("aaabaaaf");
System.out.println(Arrays.toString(next));
}
/**
* KMP算法获取next数组
*
* @param s,模式串
* @return 模式串返回的next数组
*/
public int[] getNext(String s) {
int[] next = new int[s.length()];
/**
* j表示KMP算法中前缀的结尾,同时也表示最长前缀的长度,
* i表示KMP算法中后缀的结尾
* 为什么要在结尾?
* 每次都在结尾比较,也就是将这前后缀的长度从最长的长度递减地比较以得到最长相等前后缀
* 为什么i和j起初错了一位,其实是由i和j所表示的特殊含义决定的
* i表示是后缀的结尾,j表示的是前缀的结尾
* 比较的时候只要从前缀和后缀的结尾字符即可,也就是i和j所对应的字符啦
*/
char[] sToChar = s.toCharArray();
int j = 0;
for (int i = 1; i < sToChar.length; i++) {
// 我们是从最长的前后缀长度开始比较的,
// 这是因为这样可以从最后一个位置时候相同来决定这次长度是不是我们需要的最长相等前后缀
// 不相同那自然就不是,所以就得一直去往下一个位置,但是下一个位置不是无限的,
// 如果到开头仍不相等那就停下来
while (j > 0 && sToChar[i] != sToChar[j]) {
j = next[j - 1];
}
// 这时我们确定最终的最长相等前后缀,还需要考虑这个时候支付是否相等
// 因为这个时候的j可能是因为到了模式串开头处,不得不停下来
// 如果相等的话,那么最长前后缀是1,经过这个判断最后的结果才确认下来
if (sToChar[i] == sToChar[j]) j++;
next[i] = j;
}
return next;
}
}
这里简述一下我的感受:
当我们去拿模式串和文本串匹配的时候,用j表示文本串的遍历,用i表示模式串的遍历,很明显i和j都是一起在变化的,
假设模式串与文本串匹配的时候,在模式串下标为i+1处的位置发生了不匹配,这就表明本次匹配时模式串从头到下标为i处都是匹配的,那我们下次该从模式串的第几个位置开始遍历?很明显如果让文本串从这次匹配的首字符的下一个字符开始,而且模式串也是从第一个位置开始,免不了很多次无意义的匹配,因此不匹配时下次模式串该从什么位置匹配就是KMP算法的核心作用了
我们的next数组里记录了模式串在不匹配的前一个位置(即从起始到下标i处)的最长相等前后缀的值
根据最长相等前后缀的含义,也就是说,从头到不匹配的前一个位置对应的模式串子串,它的最长相等前后缀的值是next[i]
也就是模式串下标为*next[i]*的位置对应的字符,才是本次匹配出错的文本串字符下一次应该去比较和匹配的(正因为数组的起始位置是0所以才有这样的结果)
举个例子
文本串是aabaabaafa
模式串是aabaaf
下标i = 5的位置匹配出错了,因为 b != f
说明这次比较的时候,模式串中子串aabaa
是匹配的,
根据最后一个a的next值,也就是next[i]
我们就知道aabaa
这个子串的最长相等前后缀的值是2,
其实说白了就是,这次匹配不成功是因为当前这个位置不匹配,这个位置即是模式串子串的后缀紧随的一个位置,那如果我们找到最长相等前后缀,也就是找到了前缀和后缀最长匹配的串,那么就相当于是一种替换了!我们让这些 最长相等前缀 挪动到 最长相等后缀 的位置,那不就相当于下一次匹配时直接跳过了这些已经匹配的前缀,直接锁定到了上次出错的位置和这次最新一次比较的位置
关于KMP算法的理论,可以参考卡尔的视频
下面是关于KMP算法的理论学习:
KMP的经典思想就是:当出现字符串不匹配时,可以记录一部分之前已经匹配的文本内容,利用这些信息避免从头再去做匹配。
本篇将以如下顺序来讲解KMP,
- 什么是KMP
- KMP有什么用
- 什么是前缀表
- 为什么一定要用前缀表
- 如何计算前缀表
- 前缀表与next数组
- 使用next数组来匹配
- 时间复杂度分析
- 构造next数组
- 使用next数组来做匹配
- 前缀表统一减一 C++代码实现
- 前缀表(不减一)C++实现
- 总结
读完本篇可以顺便把leetcode上28.实现strStr()题目做了。
什么是KMP,KMP有什么用
因为是由这三位学者发明的:Knuth,Morris和Pratt,所以取了三位学者名字的首字母。所以叫做KMP
KMP主要应用在字符串匹配上。
KMP的主要思想是当出现字符串不匹配时,可以知道一部分之前已经匹配的文本内容,可以利用这些信息避免从头再去做匹配了。
所以如何记录已经匹配的文本内容,是KMP的重点,也是==next数组肩负的重任==。
什么是前缀表
next数组就是一个前缀表(prefix table)。前缀表有什么作用呢?
前缀表是用来回退的,它记录了模式串与主串(文本串)不匹配的时候,模式串应该从哪里开始重新匹配。
为了清楚地了解前缀表的来历,我们来举一个例子:
要在文本串:aabaabaafa 中查找是否出现过一个模式串:aabaaf。
==请记住文本串和模式串的作用==,对于理解下文很重要,要不然容易看懵。
如动画所示:
动画特意把子串aa
标记上了,这是有原因的,后面还会说到。
可以看出,文本串中第六个字符b 和 模式串的第六个字符f,不匹配了。如果暴力匹配,发现不匹配,此时就要从头匹配了。但如果使用前缀表,就不会从头匹配,而是从上次已经匹配的内容开始匹配,找到了模式串中第三个字符b继续开始匹配。
此时就要问了前缀表是如何记录的呢?
首先要知道*前缀表的任务是当前位置匹配失败,找到之前已经匹配上的位置,再重新匹配*,此也意味着在某个字符失配时,前缀表会告诉你下一步匹配中,模式串应该跳到哪个位置。
那么什么是前缀表:记录下标i之前(包括i)的字符串中,有多大长度的相同前缀后缀。
最长公共前后缀? ❌ 最长相等前后缀! ✔️
文章中字符串的前缀是指*不包含最后一个字符的所有以第一个字符开头的连续子串*。
后缀是指不包含第一个字符的所有以最后一个字符结尾的连续子串**。
**==!!!误区!!!==**我一直以为后缀就颠倒顺序了,后缀并不是颠倒顺序的,举个例子:
- 字符串:aabaa
- 前缀:a、aa、aab、aaba
- 后缀:a、aa、baa、abaa
所以该字符串的最长相等前后缀是2才对
正确理解什么是前缀什么是后缀很重要!
那么网上清一色都说 “kmp 最长公共前后缀” 又是什么回事呢?其实是用“==最长相等前后缀==” 更准确一些。
因为前缀表要求的就是相同前后缀的长度。
所以字符串a的最长相等前后缀为0。 字符串aa的最长相等前后缀为1。 字符串aaa的最长相等前后缀为2。 等等.....。
为什么一定要用前缀表
这就是前缀表,那为啥就能告诉我们 上次匹配的位置,并跳过去呢?
回顾一下,刚刚匹配的过程在下标5的地方遇到不匹配,模式串是指向f,如图:
然后就找到了下标2,指向b,继续匹配:如图:
以下这句话,对于理解为什么使用前缀表可以告诉我们匹配失败之后跳到哪里重新匹配 非常重要!
下标5之前这部分的字符串(也就是字符串aabaa)的最长相等的前缀 和 后缀字符串是 子字符串aa ,因为找到了最长相等的前缀和后缀,匹配失败的位置是后缀子串的后面,那么我们找到与其相同的前缀的后面重新匹配就可以了。**
所以前缀表具有告诉我们当前位置匹配失败,跳到之前已经匹配过的地方的能力。
很多介绍KMP的文章或者视频并没有把为什么要用前缀表?这个问题说清楚,而是直接默认使用前缀表
如何计算前缀表
接下来就要说一说怎么计算前缀表。
如图:
长度为1个字符的子串a
,最长相同前后缀的长度为0。(注意字符串的前缀是指不包含最后一个字符的所有以第一个字符开头的连续子串;后缀是指不包含第一个字符的所有以最后一个字符结尾的连续子串。)
长度为前2个字符的子串aa
,最长相同前后缀的长度为1。
长度为前3个字符的子串aab
,最长相同前后缀的长度为0。
以此类推: 长度为前4个字符的子串aaba
,最长相同前后缀的长度为1。 长度为前5个字符的子串aabaa
,最长相同前后缀的长度为2。 长度为前6个字符的子串aabaaf
,最长相同前后缀的长度为0。
那么把求得的最长相同前后缀的长度就是对应前缀表的元素,如图:
可以看出模式串与前缀表对应位置的数字表示的就是:下标i之前(包括i)的字符串中,有多大长度的相同前缀后缀。
再来看一下如何利用 前缀表找到 当字符不匹配的时候应该指针应该移动的位置。如动画所示:
找到的不匹配的位置, 那么此时我们要看它的前一个字符的前缀表的数值是多少。
为什么要前一个字符的前缀表的数值呢,因为**要找前面字符串的最长相同的前缀和后缀。**所以要看前一位的前缀表的数值。
前一个字符的前缀表的数值是2, 所以把下标移动到下标2的位置继续比配。最后就在文本串中找到了和模式串匹配的子串了。
前缀表与next数组
很多KMP算法的实现都是使用next数组来做回退操作,那么next数组与前缀表有什么关系呢?
next数组就可以是前缀表,==但是很多实现都是把前缀表统一减一(右移一位,初始位置为-1)之后作为next数组==。
为什么这么做呢?
其实这并不涉及到KMP的原理,而是具体实现,next数组既可以就是前缀表,也可以是前缀表统一减一(右移一位,初始位置为-1)。
使用next数组来匹配
以下我们以前缀表统一减一之后的next数组来做演示。
有了next数组,就可以根据next数组来匹配文本串s和模式串t了。注意next数组是新前缀表,匹配过程动画如下:
时间复杂度分析
其中n为文本串长度,m为模式串长度,因为在匹配的过程中,根据前缀表不断调整匹配的位置,可以看出匹配的过程是O(n),之前还要单独生成next数组,时间复杂度是O(m)。所以整个KMP算法的时间复杂度是O(n+m)的。
暴力的解法显而易见是O(n × m),所以KMP在字符串匹配中极大地提高了搜索的效率。
为了和力扣题目28.实现strStr保持一致,方便大家理解,以下文章统称haystack为文本串, needle为模式串。
都知道使用KMP算法,一定要构造next数组。
构造next数组
我们定义一个函数getNext来构建next数组,函数参数为指向next数组的指针,和一个字符串。 代码如下:
void getNext(int* next, const string& s)
构造next数组其实就是根据模式串s计算前缀表的过程。 主要有如下三步:
初始化
处理前后缀不相同的情况
处理前后缀相同的情况。
接下来我们详解一下:
初始化
定义两个指针i和j,j指向前缀末尾位置,i指向后缀末尾位置。
然后还要对next数组进行初始化赋值,如下:
int j = -1; next[0] = j;
j为什么要初始化为-1呢,因为之前说过前缀表要统一减一的操作仅仅是其中的一种实现,我们这里选择j初始化为-1,下文还会给出j不初始化为-1的实现代码。
next[i] 表示 i(包括i)之前最长相等的前后缀长度(其实就是j)
所以初始化next[0] = j 。
处理前后缀不相同的情况
因为j初始化为-1,那么i就从1开始,进行s[i] 与 s[j+1]的比较。
所以遍历模式串s的循环下标i 要从 1开始,代码如下:
cppfor (int i = 1; i < s.size(); i++) {
如果 s[i] 与 s[j+1]不相同,也就是遇到 前后缀末尾不相同的情况,就要向前回退。
怎么回退呢?
next[j]就是记录着j(包括j)之前的子串的相同前后缀的长度。
那么 s[i] 与 s[j+1] 不相同,就要找 j+1前一个元素在next数组里的值(就是next[j])。
所以,处理前后缀不相同的情况代码如下:
cppwhile (j >= 0 && s[i] != s[j + 1]) { // 前后缀不相同了 j = next[j]; // 向前回退 }
处理前后缀相同的情况
如果 s[i] 与 s[j + 1] 相同,那么就同时向后移动i 和j 说明找到了相同的前后缀,同时还要将j(前缀的长度)赋给next[i], 因为next[i]要记录相同前后缀的长度。
代码如下:
cppif (s[i] == s[j + 1]) { // 找到相同的前后缀 j++; } next[i] = j;
最后整体构建next数组的函数代码如下:
cppvoid getNext(int* next, const string& s){ int j = -1; next[0] = j; for(int i = 1; i < s.size(); i++) { // 注意i从1开始 while (j >= 0 && s[i] != s[j + 1]) { // 前后缀不相同了 j = next[j]; // 向前回退 } if (s[i] == s[j + 1]) { // 找到相同的前后缀 j++; } next[i] = j; // 将j(前缀的长度)赋给next[i] } }
代码构造next数组的逻辑流程动画如下:
得到了next数组之后,就要用这个来做匹配了。
使用next数组来做匹配
在文本串s里找是否出现过模式串t。
定义两个下标 j指向模式串起始位置,i指向文本串起始位置。
那么j初始值依然为-1,为什么呢? 依然因为next数组里记录的起始位置为-1。
i就从0开始,遍历文本串,代码如下:
for (int i = 0; i < s.size(); i++)
接下来就是 s[i] 与 t[j + 1] (因为j从-1开始的) 进行比较。
如果 s[i] 与 t[j + 1] 不相同,j就要从next数组里寻找下一个匹配的位置。
代码如下:
while(j >= 0 && s[i] != t[j + 1]) {
j = next[j];
}
如果 s[i] 与 t[j + 1] 相同,那么i 和 j 同时向后移动, 代码如下:
if (s[i] == t[j + 1]) {
j++; // i的增加在for循环里
}
如何判断在文本串s里出现了模式串t呢,如果j指向了模式串t的末尾,那么就说明模式串t完全匹配文本串s里的某个子串了。
本题要在文本串字符串中找出模式串出现的第一个位置 (从0开始),所以返回当前在文本串匹配模式串的位置i 减去 模式串的长度,就是文本串字符串中出现模式串的第一个位置。
代码如下:
if (j == (t.size() - 1) ) {
return (i - t.size() + 1);
}
那么使用next数组,用模式串匹配文本串的整体代码如下:
int j = -1; // 因为next数组里记录的起始位置为-1
for (int i = 0; i < s.size(); i++) { // 注意i就从0开始
while(j >= 0 && s[i] != t[j + 1]) { // 不匹配
j = next[j]; // j 寻找之前匹配的位置
}
if (s[i] == t[j + 1]) { // 匹配,j和i同时向后移动
j++; // i的增加在for循环里
}
if (j == (t.size() - 1) ) { // 文本串s里出现了模式串t
return (i - t.size() + 1);
}
}
前缀表(不减一)C++实现
那么前缀表就不减一了,也不右移的,到底行不行呢?
行!
我之前说过,这仅仅是KMP算法实现上的问题,如果就直接使用前缀表可以换一种回退方式,找j=next[j-1] 来进行回退。
主要就是j=next[x]这一步最为关键!
我给出的getNext的实现为:(前缀表统一减一)
void getNext(int* next, const string& s) {
int j = -1;
next[0] = j;
for(int i = 1; i < s.size(); i++) { // 注意i从1开始
while (j >= 0 && s[i] != s[j + 1]) { // 前后缀不相同了
j = next[j]; // 向前回退
}
if (s[i] == s[j + 1]) { // 找到相同的前后缀
j++;
}
next[i] = j; // 将j(前缀的长度)赋给next[i]
}
}
此时如果输入的模式串为aabaaf,对应的next为-1 0 -1 0 1 -1。
这里j和next[0]初始化为-1,整个next数组是以 前缀表减一之后的效果来构建的。
那么前缀表不减一来构建next数组,代码如下:
void getNext(int* next, const string& s) {
int j = 0;
next[0] = 0;
for(int i = 1; i < s.size(); i++) {
while (j > 0 && s[i] != s[j]) { // j要保证大于0,因为下面有取j-1作为数组下标的操作
j = next[j - 1]; // 注意这里,是要找前一位的对应的回退位置了
}
if (s[i] == s[j]) {
j++;
}
next[i] = j;
}
}
此时如果输入的模式串为aabaaf,对应的next为 0 1 0 1 2 0,(其实这就是前缀表的数值了)。
字符串:总结篇
建议如果题目关键的部分直接用库函数就可以解决,建议不要使用库函数。
如果库函数仅仅是 解题过程中的一小部分,并且你已经很清楚这个库函数的内部实现原理的话,可以考虑使用库函数。
双指针法在数组,链表和字符串中很常用。
其实很多数组填充类的问题,都可以先预先给数组扩容带填充后的大小,然后在从后向前进行操作。
其实当需要固定规律一段一段去处理字符串的时候,要想想在在for循环的表达式上做做文章。
KMP的主要思想是当出现字符串不匹配时,可以知道一部分之前已经匹配的文本内容,可以利用这些信息避免从头再去做匹配了。