字符串搜索

摘要

本文档描述了 Web 上的字符串搜索操作，以实现更好的互操作性。字符串搜索是指自然语言字符串匹配，例如 Web 浏览器中的“查找”命令。本文档基于万维网字符模型 1.0：基础[CHARMOD] 和万维网字符模型 1.0：字符串匹配 [CHARMOD-NORM] 中的概念，为规范作者、软件开发者和内容开发者提供描述和实现适合全球受众的搜索功能所需的信息。

Web 用户经常希望在一个文档或一组文档中搜索特定文本，而不必逐行阅读。规范有时会试图通过在 Web 平台中暴露文本搜索来支持这种需求。

文档搜索有不同类型。一种类型称为全文搜索，是搜索引擎等应用中最常见的搜索类型。这种搜索很复杂，可能会消耗大量资源，并且通常依赖于给定搜索请求范围之外的过程。

一种更受限制的文本搜索形式（也是本文档的主题）是子字符串匹配。一种熟悉的子字符串匹配形式是浏览器和其他类型用户代理的查找功能。对于带有物理键盘的用户代理，此功能通常通过 Cmd+F 或 Ctrl+F 等按键组合访问。这样的功能可能通过 API window.find 暴露到 Web，该 API 目前尚未完全标准化；也可能通过所提议的 [SCROLL-TO-TEXT-FRAGMENT] 等能力暴露。

注

查找操作可以提供可选机制，用于改进或定制匹配行为。例如，添加（或移除）大小写敏感性的能力，该功能是否支持正则表达式语言的不同方面（例如通配符），或者是否将匹配限制为完整词。

子字符串匹配通常不同于全文搜索的一种方式是，虽然它可能使用各种算法来尝试抑制或忽略文本变体，但它通常不会产生包含额外或未指定字符序列、词或短语的匹配，例如由词干提取或其他NLP过程产生的结果。

在尝试标准化子字符串匹配时，规范作者经常会遇到计算机系统中自然语言编码所固有的复杂性，包括 [Unicode] 标准中用于编码字符的不同机制。

很多时候，用户输入并不由与正在搜索的文档中所使用的完全相同的码位序列组成，但用户仍然期望发生匹配。这可能出于多种原因。有时是因为被搜索的文本以用户无法预见的方式发生变化。在其他情况下，这是因为用户的键盘或输入法无法方便地输入所需的文本变体。甚至可能是因为用户懒得准确输入文本。

在本节中，我们考察我们所知的各种常见情况，规范作者在指定子字符串匹配 API 或机制时需要将这些情况纳入考虑。

用户对于其搜索词是否匹配文档或语料中给定部分的期望，有时取决于用户的语言、文档的语言，或二者兼有。它还可能涉及其他因素，例如给定设备上可用的键盘或输入法。这可能是因为搜索中的各种操作（例如大小写折叠）会受到区域设置影响；也可能是因为，鉴于人类语言和文化的复杂性，对于匹配以及各种字符序列的使用和解释的期望有所不同，即使在给定文字系统内部也是如此。类似地，重音符号、替代文字系统或字符编码（例如字素簇形成方式的变体）的处理，与相关文本的具体语言相关。

需要强调的是，我们在这里指的是语言，而不是文字系统。许多共享同一文字系统的不同语言会应用不同的处理方式，或暗示不同的期望。

“查找”功能的实现通常必须仅根据用户输入，或根据运行时环境中的各种“提示”来猜测用户所意图的语言，例如操作环境区域设置、用户代理的本地化，或当前活动键盘的语言。这些提示至多只是用户意图的代理，尤其是在用户搜索的文档与这些提示都不匹配，或被搜索文档包含多种语言时。

示例 1：用户语言与用户期望的交互

不同语言以不同方式处理字母组合 a、ae 和 ä。英语使用者期望 ae 与 a 和 ä 不同。由于 ä 是外来字母，他们通常期望它匹配无标记的 a。德语使用者期望 ae 和 ä 等价（并且不同于 a）。芬兰语使用者期望三者全部分开。

现在假设你有一个芬兰语句子： Haen Han Solon. Hän on salakuljettaja.

（如果你好奇，这句话翻译为：I’ll go get Han Solo. He is a smuggler.）

上面的句子被标记为芬兰语（lang="fi"）。请注意，附加在 Han Solo 名字末尾的字母 "n"（Han Solon）是芬兰语语法的一部分。

以下是英语、德语和芬兰语使用者在对该文本执行“查找”操作时可能输入的一些拼写变体。（提示：在查看本页面时，请尝试在浏览器的“查找”命令中输入它们。）

Han
Hän
Haen
han
hän
haen

芬兰语使用者期望上述每个示例都是不同的词。他们可能期望 Hän 和 hän 之间的大小写变体可以被忽略。德语使用者可能期望 Hän 和 Haen 等价。英语使用者可能期望 Han 匹配 Hän（但反过来或许不匹配，因为 ä 并非英语本土字母）。然而，文档的语言标记似乎不会影响大多数查找操作。通常也没有办法让用户影响将哪种语言应用于搜索词。

下面是一个我们认为在土耳其语中表示温暖的骨髓的短语：ılık ilik。

以下是英语和土耳其语使用者可能输入的一些拼写变体：

搜索词	码位
ILIK	U+0049 U+004C U+0049 U+004B
İLİK	U+0130 U+004C U+0130 U+004B
ilik	U+0069 U+006C U+0069 U+006B
ılık	U+0131 U+006C U+0131 U+006B

取决于你的浏览器和运行时区域设置，使用这些词可能会得到异常匹配。在一些浏览器中，上面前三个词会一致匹配 ilik（带 ASCII dotted-i），但不会匹配带有 ıU+0131 LATIN SMALL LETTER DOTLESS I 的词 ılık。

这并不是土耳其语用户所期望的，因为他们期望 "I"/"ı" 和 "İ"/"i" 是无大小写差异的配对。其副作用是，搜索词 "ılık" 只匹配其小写等价形式——而大写变体不会匹配该词，即使它们会匹配带 dotted letter i 的小写版本（"ilik"）。这种变体意味着英语和土耳其语用户都会注意到搜索漏掉了词。

用户可能期望以小写输入的词匹配其大写等价形式（也许反之亦然）。子字符串匹配功能，例如浏览器的“查找”命令，通常提供一个可由用户选择的选项，用于匹配（或不匹配）输入与文本的大小写。

关于大小写折叠的综述，请参阅 [CHARMOD-NORM] 中这里的讨论。

Unicode 定义了字符之间的规范关系和兼容关系，这些关系可能影响用户对字符串搜索的感知。关于 Unicode 规范化形式的详细讨论，请参阅 [CHARMOD-NORM] 第 2.2 节，以及 Unicode 规范化形式 [UAX15] 中的定义。

示例 2

例如，考虑字母 "K"。具有包括 U+004B LATIN CAPITAL LETTER K 的规范化形式的字符包括以下字符，其中许多可能被用户期望在子字符串搜索请求中匹配字母 "K"，因为它们看起来包含一个逻辑上的“字母 K”：

Ķ U+0136 LATIN CAPITAL LETTER K WITH CEDILLA
Ǩ U+01E8 LATIN CAPITAL LETTER K WITH CARON
ᴷ U+1D37 MODIFIER LETTER CAPITAL K
Ḱ U+1E30 LATIN CAPITAL LETTER K WITH ACUTE
Ḳ U+1E32 LATIN CAPITAL LETTER K WITH DOT BELOW
Ḵ U+1E34 LATIN CAPITAL LETTER K WITH LINE BELOW
K U+212A KELVIN SIGN
Ⓚ U+24C0 CIRCLED LATIN CAPITAL LETTER K
㎅ U+3385 SQUARE KB
㏍ U+33CD SQUARE KK
㏎ U+33CE SQUARE KM CAPITAL
Ｋ U+FF2B FULLWIDTH LATIN CAPITAL LETTER K
𝐊 U+1D40A MATHEMATICAL BOLD CAPITAL K
𝐾 U+1D43E MATHEMATICAL ITALIC CAPITAL K
𝑲 U+1D472 MATHEMATICAL BOLD ITALIC CAPITAL K
𝒦 U+1D4A6 MATHEMATICAL SCRIPT CAPITAL K
𝓚 U+1D4DA MATHEMATICAL BOLD SCRIPT CAPITAL K
𝔎 U+1D50E MATHEMATICAL FRAKTUR CAPITAL K
𝕂 U+1D542 MATHEMATICAL DOUBLE-STRUCK CAPITAL K
𝕶 U+1D576 MATHEMATICAL BOLD FRAKTUR CAPITAL K
𝖪 U+1D5AA MATHEMATICAL SANS-SERIF CAPITAL K
𝗞 U+1D5DE MATHEMATICAL SANS-SERIF BOLD CAPITAL K
𝘒 U+1D612 MATHEMATICAL SANS-SERIF ITALIC CAPITAL K
𝙆 U+1D646 MATHEMATICAL SANS-SERIF BOLD ITALIC CAPITAL K
𝙺 U+1D67A MATHEMATICAL MONOSPACE CAPITAL K
🄚 U+1F11A PARENTHESIZED LATIN CAPITAL LETTER K
🄺 U+1F13A SQUARED LATIN CAPITAL LETTER K

在许多复杂文字系统中，字母或元音符号可以用不止一种方式编码，但这些替代形式在规范上等价。

一些语言使用不止一种文字系统书写。用户搜索文档时，可能输入一种文字系统的文本，但希望找到两种文字系统中的等价文本。

示例 3

日语使用两种音节文字系统：hiragana 和 katakana。这些文字系统编码相同的音素；因此，用户可能期望输入以 hiragana 表示的搜索词时，能够找到以 katakana 拼写出的完全相同的词。

在此处所示示例中，词 nihongo（日语中的 "Japanese"）以平假名和片假名两种形式显示。请注意，该词通常由 kanji（汉字）字符表示：日本語。

描述	示例
平假名	にほんご
平假名	U+306B U+307B U+3093 U+3054
片假名	ニホンゴ
片假名	U+30CB U+30DB U+30F3 U+30B4

一些兼容字符被编码到 Unicode 中，是为了处理旧式字符编码中的单字节或多字节表示，或为了与东亚语言中的某些排版行为兼容。

示例 4：东亚宽度变体示例

描述	示例
全角片假名	ニホンゴ
全角片假名	U+30CB U+30DB U+30F3 U+30B4
半角片假名这些是兼容字符	ﾆﾎﾝｺﾞ
半角片假名这些是兼容字符	U+FF86 U+FF83 U+FF9D U+FF7A U+FF9E
半角拉丁字母这些是 ASCII 字母！	abcXYZ
半角拉丁字母这些是 ASCII 字母！	U+0061 U+0062 U+0063 U+0058 U+0059 U+005A
全角拉丁字母这些是兼容字符。	ａｂｃＸＹＺ
全角拉丁字母这些是兼容字符。	U+FF41 U+FF42 U+FF43 U+FF38 U+FF39 U+FF3A

许多文字系统都有自己表示 0 到 9 的数字字符。在一些 Web 应用中，熟悉的 ASCII 数字会为了显示目的被替换成本地数字形状。在其他情况下，文本实际上可能包含本地数字的 Unicode 字符。试图搜索文档的用户可能期望输入一种数字形式时，能够找到等价的数字。

示例 5：四种文字系统中的数字形状示例

下面是四种文字系统中从零到九的不同数字形状的一些精选示例。许多文字系统都有形状不同但等价的数字集合。

文字系统	数字
文字系统	0	1	2	3	4	5	6	7	8	9
拉丁	0	1	2	3	4	5	6	7	8	9
古吉拉特文	૦	૧	૨	૩	૪	૫	૬	૭	૮	૯
泰文	๐	๑	๒	๓	๔	๕	๖	๗	๘	๙
阿拉伯文	٠	١	٢	٣	٤	٥	٦	٧	٨	٩

一些语言有不同的正字法传统，这些传统会因地区或方言而异，或允许同一个词有不同拼写。搜索和拼写检查可能需要了解这些变体。

印度系文字语言中有许多此类问题的实例。有时这些是拼写错误，但在其他情况下，多种拼写都是可接受的。

例如，孟加拉语（语言标签 bn）以允许大量拼写变体而闻名：近 80% 的孟加拉语词至少有两种拼写。许多词有 3、4 种或更多变体—— 其中至少有一个词有 16 种不同的有效拼写。

示例 7

一个例子是音译为拉丁文字 rani 的词，但用户可能用不同的字母和元音符号来拼写它。在现代孟加拉语中，ণ [U+09A3 BENGALI LETTER NNA] 和 ন [U+09A8 BENGALI LETTER NA] 都发 /n/，而 ি [U+09BF BENGALI VOWEL SIGN I ] 和 ী [U+09C0 BENGALI VOWEL SIGN II ] 都发 /i/。因此，不同用户可能会为同一个词选择以下任一替代码位序列：

	U+09A8 BENGALI LETTER NA	U+09A3 BENGALI LETTER NNA
U+09BF BENGALI VOWEL SIGN I	রানি	রাণি
U+09BF BENGALI VOWEL SIGN I	U+09B0 U+09BE U+09A8 U+09BF	U+09B0 U+09BE U+09A3 U+09BF
U+09C0 BENGALI VOWEL SIGN II	রানী	রাণী
U+09C0 BENGALI VOWEL SIGN II	U+09B0 U+09BE U+09A8 U+09C0	U+09B0 U+09BE U+09A3 U+09C0

其他印度系文字为表示特定声音提供了替代机制，并且在大多数情况下任一表示都被认为同样有效。最常见的实例涉及音节末尾鼻音的表示。

例如，印地语中表示蛇的词中的 /n/ 音可以使用 ँ [U+0901 DEVANAGARI SIGN CANDRABINDU] 或 ं [U+0902 DEVANAGARI SIGN ANUSVARA] 来书写。以下两种都是可能的有效拼写：

示例 8

描述	示例
带有 ँ [U+0901 DEVANAGARI SIGN CANDRABINDU]	साँप
带有 ँ [U+0901 DEVANAGARI SIGN CANDRABINDU]	U+0938 U+093E U+0901 U+092A
带有 ं [U+0902 DEVANAGARI SIGN ANUSVARA]	सांप
带有 ं [U+0902 DEVANAGARI SIGN ANUSVARA]	U+0938 U+093E U+0902 U+092A

这个故事还有一个额外的转折：这里可以使用两个具有不同码位的变音符号。在前一个示例中，我们使用 ं [U+0902 DEVANAGARI SIGN ANUSVARA ] 来表示鼻音，因为伴随的元音符号升到了悬挂基线之上。如果元音符号没有升到悬挂基线之上，我们通常会改用 ँ [U+0901 DEVANAGARI SIGN CANDRABINDU ]。这两个变音符号的功能相同，但它们的码位不同。

对音节末尾鼻音使用字母或变音符号这两种替代方式，常见于其他若干印度语言。除了用于书写印地语（语言标签 hi）或马拉地语（语言标签 mr）等语言的天城文之外，马拉雅拉姆文、古吉拉特文、奥里亚文等文字系统也提供类似的拼写选项。

示例 9：另一个印度系文字拼写变体示例

下面是一个来自马拉雅拉姆语（ml）的示例，展示同一个词的替代拼写。

描述	示例
带有 U+0D03 MALAYALAM SIGN VISARGA	ദുഃഖം
带有 U+0D03 MALAYALAM SIGN VISARGA	U+0D26 U+0D41 U+0D03 U+0D16 U+0D02
不带 U+0D03 MALAYALAM SIGN VISARGA	ദുഖം
不带 U+0D03 MALAYALAM SIGN VISARGA	U+0D26 U+0D41 U+0D16 U+0D02

一些语言使用空白来分隔词、句子或段落，而另一些语言则不使用。执行子字符串匹配时，必须规范化 [Unicode] 中的不同空白形式，以便匹配成功。

当用户在使用各种变音符号的文字系统（例如拉丁文字）中输入搜索词时，在处理包含重音或变音符号的字母时，有时会改变其输入，即使他们正在搜索的文本包含这些附加符号。这在移动键盘上尤其如此，因为输入这些字符可能需要额外努力。在这些情况下，用户通常期望搜索操作更加“宽松”，以弥补他们未能付出所需额外努力的问题。

示例 11

德语使用若干带有 umlaut 重音的字母，例如 ö [U+00F6 LATIN SMALL LETTER O WITH DIERISIS] 或 ü [U+00FC LATIN SMALL LETTER U WITH DIERISIS]。用户搜索时有时会输入这些重音，但有时会用字母 e 替代变音符号。例如，他们可能输入 Duerst，而不是输入 Dürst。两种拼写都可识别，并具有相同含义。带变音符号的拼写可能比 e 拼写“更好”，但德语使用者不会因这种差异而困惑。

注

其他语言使用这些相同字符的目的与德语不同。Unicode 中“umlaut”变音符号的正式名称是 diaeresis，其大致含义是“断开”或“停顿”。法语、西班牙语和英语等语言有时会使用分音符来表示需要发出某个特定字母的音，例如西班牙语中的 "ambigüedad"，或英语中的名字 "Zoë"。

这种效果也可能取决于上下文而有所不同。例如，使用物理键盘的人可能能够直接输入带重音的字母，而虚拟键盘或屏幕键盘可能需要额外操作才能访问并选择相同的字母。

在某些正字法中，有必要匹配字符数量不同的字符串。

一个典型例子涉及辅音音素文字中的元音变音符号。例如，一些使用阿拉伯文字和希伯来文字的语言不要求（但可选择允许）用户输入短元音。（对于这些文字系统中的其他一些语言，包含短元音并不是可选的。）输入或搜索的文本中元音的存在与否，可能会在用户没有输入或不知道需要输入它们时阻碍匹配。

在某些情况下，视觉上相似或相同的字形图案可以由不同的码位序列构成。有时这是有意的，并且可以通过 Unicode 规范化移除这些变体。但也有其他情况，即外观相似的字素不会通过规范化变得相同，而且它们在语义上并不等价。

示例 13

例如，下面列出了一些在马拉雅拉姆文字中产生相同或相似文本外观的字符序列。应避免使用不恰当的序列，因为它们会导致文本含义改变：搜索、匹配以及文本的其他方面将无法被应用或字体正确理解。在某些情况下，字体会通过强制显示虚线圆圈或以其他方式无法正确呈现文本来表明存在问题，但情况并不总是如此。

使用	不要使用
ൈ	െെ
[U+0D48 MALAYALAM VOWEL SIGN AI]	[U+0D46 MALAYALAM VOWEL SIGN E + U+0D46 VOWEL SIGN E]
ഈ	ഇൗ
[U+0D08 MALAYALAM LETTER II]	[U+0D07 MALAYALAM LETTER I + U+0D57 AU LENGTH MARK]
ഊ	ഉൗ
[U+0D0A MALAYALAM LETTER UU]	[U+0D09 MALAYALAM LETTER U + U+0D57 AU LENGTH MARK]
ഓ	ഒാ
[U+0D13 MALAYALAM LETTER OO]	[U+0D12 MALAYALAM LETTER O + U+0D3E VOWEL SIGN AA]
ഐ	എെ
[U+0D10 MALAYALAM LETTER AI]	[U+0D0E MALAYALAM LETTER E + U+0D46 VOWEL SIGN E]
ഔ	ഒൗ
[U+0D14 MALAYALAM LETTER AU]	[U+0D12 MALAYALAM LETTER O + U+0D57 MALAYALAM AU LENGTH MARK]

一些使用阿拉伯文字的语言也有可以用不止一种方式编码的字素。在某些情况下，这些变体由 Unicode 规范化处理，但在其他情况下，即使它们在视觉上看起来相同， Unicode 也不认为它们等价。有时这些变体被认为是有效的拼写变体。在其他情况下，它们是用户错误感知的结果。

示例 14

许多语言使用阿拉伯文字书写，但与阿拉伯语无关。因此，其中一些语言需要字符序列来表示阿拉伯语中不存在的声音。对其中一些语言来说，一个重要问题是，这些特殊编码的字符序列可能与为其他用途编码的字符序列在视觉上相似（或相同），用户在输入搜索词时可能难以输入正确序列，或不知道如何输入正确序列。

克什米尔语（语言标签 ks）就是这样一种语言。下面是人们可能在克什米尔语中遇到的一些精选示例：

描述	示例
规范等价的替代形式（由 Unicode 规范化解决的差异）	إ	`U+0625 ARABIC LETTER ALEF WITH HAMZA BELOW`	إ	`U+0627 ARABIC LETTER ALEF` + `U+0655 ARABIC HAMZA BELOW`
不规范等价（Unicode 规范化之后仍然保留的差异）其中许多与用户对元音是基字母的一部分（ijam）还是可分离的（tashkil）的感知有关	ێ	`U+06CE ARABIC LETTER YEH WITH SMALL V`	یٚ	`U+06CC ARABIC LETTER FARSI YEH` + `U+065A ARABIC VOWEL SIGN SMALL V ABOVE`
易混淆字符或拼写错误由于键盘支持缺口或外观相似，这些情况在某些类型的文本中可能很常见	ئ	`U+0626 ARABIC LETTER YEH WITH HAMZA ABOVE`	یٔ	`U+06CC ARABIC LETTER FARSI YEH` + `U+0654 ARABIC HAMZA ABOVE`

（更多信息请参阅 Richard Ishida 的文档此处。）

一些语言（例如英语或阿拉伯语）在词之间使用空格。其他语言（例如中文、日语或泰语）则不使用。一些语言使用空格来分隔其他文本单元，例如短语。在那些不在词之间使用空格的语言中，计算“完整词”匹配通常取决于在边界本身未编码到文本中时确定词边界的能力。

用户输入	匹配的字符串
e（小写 'e'）	"re-resume"、"RE-RESUME"、"re-résumé" 和 "RE-RÉSUMÉ"
E（大写 'E'）	"RE-RESUME" 和 "RE-RÉSUMÉ"
é（带锐音符的小写 'e'）	"re-résumé" 和 "RE-RÉSUMÉ"
É（带锐音符的大写 'E'）	"RE-RÉSUMÉ"

字符串搜索

摘要

本文档状态

1. 引言

1.1 目标和范围

1.2 文档约定

1.3 术语

2. 在自然语言内容中搜索文本

2.1 确定等价性的问题

2.1.1 由语言导致的匹配变体

2.1.2 大小写折叠

2.1.3 Unicode 规范化和字符等价性

2.1.4 文字系统等价性

2.1.5 东亚宽度

2.1.6 数字字形转换

2.1.7 正字法或方言变体

2.1.7.1 南亚（印度系文字）语言

2.1.8 空白规范化

2.1.9 重音和变音符号

2.1.10 可选字符

2.1.11 视觉上相同但不规范等价的文本

2.2 词边界和 “完整词”匹配

3. 搜索时的考虑事项

3.1 搜索选项的类型

4. 致谢

A. 参考文献

A.1 资料性参考文献

字符串搜索

摘要

本文档状态

1. 引言

1.1 目标和范围

1.2 文档约定

1.3 术语

2. 在自然 语言内容中搜索文本

2.1 确定等价性的 问题

2.1.1 由语言导致的 匹配变体

2.1.2 大小写折叠

2.1.3 Unicode 规范化和字符等价性

2.1.4 文字系统等价性

2.1.5 东亚宽度

2.1.6 数字字形转换

2.1.7 正字法或 方言变体

2.1.7.1 南亚 （印度系文字）语言

2.1.8 空白规范化

2.1.9 重音和变音 符号

2.1.10 可选字符

2.1.11 视觉上相同但不规范等价的文本

2.2 词边界和 “完整词”匹配

3. 搜索时的考虑事项

3.1 搜索选项的类型

4. 致谢

A. 参考文献

A.1 资料性参考文献

2. 在自然语言内容中搜索文本

2.1 确定等价性的问题

2.1.1 由语言导致的匹配变体

2.1.7 正字法或方言变体

2.1.7.1 南亚（印度系文字）语言

2.1.9 重音和变音符号