自然言語処理 (NLP) 関数
これは現在開発中の実験的な機能であり、一般利用にはまだ適していません。今後のリリースで予測不能なかたちで後方互換性のない変更が行われる可能性があります。有効化するには allow_experimental_nlp_functions = 1 を設定してください。
detectCharset
導入バージョン: v22.2.0
UTF-8 以外のエンコーディングでエンコードされた入力文字列の文字セットを検出します。
構文
引数
s— 解析対象のテキスト。String
戻り値
検出された文字セットのコードを表す文字列を返します。String
例
基本的な使用方法
detectLanguage
導入バージョン: v22.2.0
UTF-8 でエンコードされた入力文字列の言語を検出します。 この関数は検出のために CLD2 ライブラリ を使用し、2 文字の ISO 言語コードを返します。
入力文字列が長いほど、言語検出の精度は高くなります。
構文
引数
text_to_be_analyzed— 解析するテキスト。String
戻り値
検出された言語の2文字のISOコードを返します。返されるその他の値: un = 不明 (いずれの言語も検出できない場合) 、other = 検出された言語に2文字コードが存在しない場合。String
例
複数言語が混在するテキスト
detectLanguageMixed
導入バージョン: v22.2.0
detectLanguage 関数と類似していますが、detectLanguageMixed は、テキスト内に含まれる各言語の割合を値とする 2 文字の言語コードの Map を返します。
構文
引数
s— 解析するテキストString
戻り値
キーが2文字のISO言語コードで、対応する値がその言語として検出されたテキストの割合 (パーセンテージ) であるマップを返します Map(String, Float32)
例
複数の言語が混在するテキスト
detectLanguageUnknown
導入バージョン: v22.2.0
detectLanguage 関数と同様ですが、detectLanguageUnknown 関数は UTF-8 以外でエンコードされた文字列を扱うことができます。
文字セットが UTF-16 や UTF-32 の場合は、このバージョンの使用を優先してください。
構文
引数
s— 解析するテキスト。String
返される値
検出された言語の2文字のISOコードを返します。その他の返り値: un = 不明 (いずれの言語も検出できない) 、other = 検出された言語に2文字コードが存在しない場合。String
例
基本的な使用方法
detectTonality
導入バージョン: v22.2.0
指定されたテキストデータのセンチメント (感情極性) を判定します。
この関数は現在の実装では、組み込みの感情 Dictionary を使用しており、ロシア語にのみ対応します。
構文
引数
s— 解析するテキスト。String
戻り値
テキスト中の単語のセンチメント値の平均を返します。Float32
例
ロシア語のセンチメント分析
lemmatize
導入バージョン: v21.9.0
指定された単語のレンマ化を実行します。 この関数の実行には Dictionary が必要で、GitHub から取得できます。ローカルファイルから Dictionary を読み込む方法の詳細については、ページ 「Defining Dictionaries」 を参照してください。
構文
引数
戻り値
単語をレンマ化した形を返します。String
例
英語でのレンマ化
stem
導入バージョン: v21.9.0
Snowball アルゴリズムを使用して、単語または単語の配列にステミングを実行します。 各入力文字列は小文字の単語 1 つである必要があり、空白を含む文字列を指定すると例外が発生します。 大文字を渡した場合の結果は未定義です。 スカラー入力 (FixedString を含む) の場合は String、配列入力の場合は Array(String) を返します。 String および FixedString の Nullable と LowCardinality の各型をサポートします。
構文
引数
word— ステミングする単一の小文字の単語 (または単語の配列) 。小文字である必要があります。大文字を含む場合、結果は未定義です。String、FixedString、Array(String)、Array(FixedString)、Array(Nullable(String))、または Array(Nullable(FixedString)) を受け付けます。StringorFixedStringorArray(String)orArray(FixedString)language— ステミング規則を適用する言語。2 文字の ISO 639-1 コード (例: 'en'、'de'、'fr') を使用してください。https://en.wikipedia.org/wiki/List_of_ISO_639_language_codes を参照してください。String
戻り値
単語の語幹化後の形式 (String) 、または語幹化後の単語の配列 (Array(String)) 。 String or Array(String)
例
単一の単語を語幹化する
単語配列に対するステミング
FixedString に対するステミング
Nullable な単語のステミング
synonyms
導入バージョン: v21.9.0
指定した単語の類義語を検索します。
類義語拡張には 2 種類あります:
plainwordnet
plain 拡張タイプでは、各行がそれぞれ 1 つの類義語セットに対応するプレーンテキストファイルへのパスを指定する必要があります。
この行内の単語はスペースまたはタブ文字で区切られていなければなりません。
wordnet 拡張タイプでは、WordNet シソーラスを含むディレクトリへのパスを指定する必要があります。
このシソーラスには WordNet の意味索引が含まれていなければなりません。
構文
引数
返り値
指定した単語の類義語を要素とする配列を返します。Array(String)
例
類義語を検索する