public final class Normalizer extends Object
normalize
将Unicode文本为一个组合或分解等价形式,允许更容易的排序和搜索文本。的
normalize
方法支持标准化的形式描述
Unicode Standard Annex #15 — Unicode Normalization Forms。
口音或其他装饰品的字符可以在几个不同的方式在Unicode编码。例如,以人物a-acute。在Unicode,这可以被编码为一个字符(“分”的形式):
u + 00c1拉丁文大写字母A与急性或作为两个单独的字符(“分解”的形式):
U + 0041拉丁文大写字母AU + 0301结合急性口音到你的程序中,一个用户但这两序列应该被视为相同的“用户级”人物“急性口音”。当您正在搜索或比较文本时,必须确保这两个序列被视为等效的。此外,您必须处理具有一个以上的口音的字符。有时一个字符的组合口音的顺序是显着的,而在其他情况下,在不同的订单的口音序列是真的相当于。
同样,字符串“FFI”可以被编码为三个单独的字母:
U + 0066拉丁字母FU + 0066拉丁字母FU + 0069拉丁字母I或作为FFI结扎是不是一个独特的语义特征的单字符
u + fb03拉丁小连字,严格来说它不应该在Unicode的所有,但它是包括现有的字符集,它已经提供了兼容性。Unicode标准给他们“兼容性”分解成相应的语义特征识别等特点。当排序和搜索时,您会经常想使用这些映射。
该方法有助于normalize
转换文本到规范的组成和分解形式,如上面例子中解决这些问题。此外,您可以执行兼容性分解使你可以把人物作为自己的等价物的相容性。最后,该方法将normalize
口音到适当的规范秩序,所以你不必担心自己的口音重排。
W3C的建议,在NFC的文本交换。还请注意,大多数传统的字符编码只使用预作的形式和通常没有任何标志编码结合自己。这样的字符编码转换为Unicode文本需要标准的NFC。更多的用法的例子,看看Unicode标准附件。
Modifier and Type | Class and Description |
---|---|
static class |
Normalizer.Form
这个枚举提供四Unicode形式,在
Unicode Standard Annex #15 — Unicode Normalization Forms和描述的方法来访问它们的常数。
|
Modifier and Type | Method and Description |
---|---|
static boolean |
isNormalized(CharSequence src, Normalizer.Form form)
确定是否规范化的给定序列的字符值。
|
static String |
normalize(CharSequence src, Normalizer.Form form)
规范一个字符序列的值。
|
public static String normalize(CharSequence src, Normalizer.Form form)
src
-字符值规范序列。
form
的归一化形式;一个
Normalizer.Form.NFC
,
Normalizer.Form.NFD
,
Normalizer.Form.NFKC
,
Normalizer.Form.NFKD
NullPointerException
-如果
src
或
form
是空的。
public static boolean isNormalized(CharSequence src, Normalizer.Form form)
src
-字符值进行检查的顺序。
form
的归一化形式;一个
Normalizer.Form.NFC
,
Normalizer.Form.NFD
,
Normalizer.Form.NFKC
,
Normalizer.Form.NFKD
NullPointerException
-如果
src
或
form
是空的。
Submit a bug or feature
For further API reference and developer documentation, see Java SE Documentation. That documentation contains more detailed, developer-targeted descriptions, with conceptual overviews, definitions of terms, workarounds, and working code examples.
Copyright © 1993, 2014, Oracle and/or its affiliates. All rights reserved.