自然语言处理 (NLP) 函数
这是一个实验性功能,当前正在开发中,并尚未准备好供一般使用。它将在未来的版本中以不可预测的向后不兼容的方式发生变化。设置 allow_experimental_nlp_functions = 1
以启用它。
detectCharset
引入于: v22.2
检测非UTF8编码输入字符串的字符集。
语法
参数
s
— 要分析的文本。String
返回值
返回一个包含检测到的字符集代码的字符串 String
示例
基本用法
detectLanguage
引入于: v22.2
检测UTF8编码输入字符串的语言。 该函数使用 CLD2 库 进行检测,并返回 2 字母 ISO 语言代码。
输入的文本越长,语言检测的精确度越高。
语法
参数
text_to_be_analyzed
— 要分析的文本。String
返回值
返回检测到的语言的 2 字母 ISO 代码。其他可能的结果:un
= 未知,无法检测任何语言,other
= 检测到的语言没有 2 字母代码。 String
示例
混合语言文本
detectLanguageMixed
引入于: v22.2
与 detectLanguage
函数类似,但 detectLanguageMixed
返回一个 Map
,其 2 字母语言代码映射到文本中相应语言的百分比。
语法
参数
s
— 要分析的文本String
返回值
返回一个映射,键为 2 字母 ISO 代码,对应值为该语言在文本中所占的百分比 Map(String, Float32)
示例
混合语言
detectLanguageUnknown
引入于: v22.2
与 detectLanguage
函数类似,但 detectLanguageUnknown 函数处理非UTF8编码字符串。当字符集为 UTF-16 或 UTF-32 时,请优先使用此版本。
语法
参数
s
— 要分析的文本。String
返回值
返回检测到的语言的 2 字母 ISO 代码。其他可能的结果:un
= 未知,无法检测任何语言,other
= 检测到的语言没有 2 字母代码。 String
示例
基本用法
detectProgrammingLanguage
引入于: v22.2
从给定的源代码片段中确定编程语言。
语法
参数
source_code
— 要分析的源代码的字符串表示。String
返回值
返回编程语言 String
示例
C++ 代码检测
detectTonality
引入于: v22.2
确定提供的文本数据的情感。
此函数在当前形式下受到限制,因为它使用嵌入的情感词典,仅对俄语有效。
语法
参数
s
— 要分析的文本。String
返回值
返回文本中单词的平均情感值 Float32
示例
俄语情感分析
lemmatize
引入于: v21.9
对给定单词进行词形还原。 该函数需要字典进行操作,可以从 github 获取。有关从本地文件加载字典的更多细节,请参见页面 "定义字典"。
语法
参数
返回值
返回单词的词形还原形式 String
示例
英语词形还原
stem
引入于: v21.9
对给定单词进行词干提取。
语法
参数
返回值
返回单词的词干形式 String
示例
英语词干提取
synonyms
引入于: v21.9
查找给定单词的同义词。
有两种类型的同义词扩展:
plain
wordnet
使用 plain
扩展类型时,您需要提供一个简单文本文件的路径,其中每行对应于某个同义词集。
每行中的单词必须用空格或制表符分隔。
使用 wordnet
扩展类型时,您需要提供一个包含 WordNet 词库的目录的路径。
词库必须包含 WordNet 意义索引。
语法
参数
返回值
返回给定单词的同义词数组。 Array(String)
示例
查找同义词