Saltar al contenido principal

evalMLMethod

La predicción con modelos de regresión ajustados se realiza con la función evalMLMethod. Consulte el enlace en linearRegression.

stochasticLinearRegression

La stochasticLinearRegression función de agregado implementa el método de descenso de gradiente estocástico con un modelo lineal y la función de pérdida MSE. Usa evalMLMethod para hacer predicciones sobre datos nuevos.

stochasticLogisticRegression

La función de agregado stochasticLogisticRegression implementa el método de descenso de gradiente estocástico para un problema de clasificación binaria. Usa evalMLMethod para hacer predicciones sobre datos nuevos.

naiveBayesClassifier

Clasifica el texto de entrada mediante un modelo de Naive Bayes con n-gramas y suavizado de Laplace. El modelo debe configurarse en ClickHouse antes de usarlo. Sintaxis
naiveBayesClassifier(model_name, input_text);
Argumentos
  • model_name — Nombre del modelo preconfigurado. String El modelo debe estar definido en los archivos de configuración de ClickHouse (ver más abajo).
  • input_text — Texto que se va a clasificar. String La entrada se procesa exactamente como se proporciona (se conservan las mayúsculas/minúsculas y la puntuación).
Valor devuelto
  • ID de la clase predicha como un entero sin signo. UInt32 Los ID de clase corresponden a las categorías definidas durante la construcción del modelo.
Ejemplo Clasifica un texto con un modelo de detección de idioma:
SELECT naiveBayesClassifier('language', 'How are you?');
┌─naiveBayesClassifier('language', 'How are you?')─┐
│ 0                                                │
└──────────────────────────────────────────────────┘
El resultado 0 podría representar el inglés, mientras que 1 podría indicar el francés; el significado de las clases depende de los datos de entrenamiento.

Detalles de implementación

Algoritmo Utiliza el algoritmo de clasificación Naive Bayes con suavizado de Laplace para manejar n-gramas no observados, a partir de probabilidades de n-gramas según esto. Características principales
  • Admite n-gramas de cualquier tamaño
  • Tres modos de tokenización:
    • byte: Opera sobre bytes sin procesar. Cada byte es un token.
    • codepoint: Opera sobre valores escalares Unicode decodificados de UTF‑8. Cada punto de código es un token.
    • token: Divide en secuencias de espacios en blanco Unicode (regex \s+). Los tokens son subcadenas sin espacios en blanco; la puntuación forma parte del token si está adyacente (p. ej., “you?” es un solo token).

Configuración del modelo

Puede encontrar aquí código fuente de ejemplo para crear un modelo de Naive Bayes para la detección de idiomas. Además, puede encontrar aquí modelos de ejemplo y sus archivos de configuración asociados. A continuación se muestra una configuración de ejemplo para un modelo de Naive Bayes en ClickHouse:
<clickhouse>
    <nb_models>
        <model>
            <name>sentiment</name>
            <path>/etc/clickhouse-server/config.d/sentiment.bin</path>
            <n>2</n>
            <mode>token</mode>
            <alpha>1.0</alpha>
            <priors>
                <prior>
                    <class>0</class>
                    <value>0.6</value>
                </prior>
                <prior>
                    <class>1</class>
                    <value>0.4</value>
                </prior>
            </priors>
        </model>
    </nb_models>
</clickhouse>
Parámetros de configuración
ParámetroDescripciónEjemploPredeterminado
nameIdentificador único del modelolanguage_detectionObligatorio
pathRuta completa al binario del modelo/etc/clickhouse-server/config.d/language_detection.binObligatorio
modeMétodo de tokenización:
- byte: Secuencias de bytes
- codepoint: Caracteres Unicode
- token: Tokens de palabras
tokenObligatorio
nTamaño del n-grama (modo token):
- 1=una sola palabra
- 2=pares de palabras
- 3=tríos de palabras
2Obligatorio
alphaFactor de suavizado de Laplace utilizado durante la clasificación para tratar n-gramas que no aparecen en el modelo0.51.0
priorsProbabilidades de clase (% de los documentos que pertenecen a una clase)60 % clase 0, 40 % clase 1Distribución uniforme
Guía de entrenamiento del modelo Formato de archivo En formato legible para humanos, para n=1 y el modo token, el modelo podría verse así:
<class_id> <n-gram> <count>
0 excellent 15
1 refund 28
Para n=3 y en modo codepoint, podría verse así:
<class_id> <n-gram> <count>
0 exc 15
1 ref 28
El formato legible para humanos no lo usa ClickHouse directamente; debe convertirse al formato binario descrito a continuación. Detalles del formato binario Cada n-gram se almacena como:
  1. class_id de 4 bytes (UInt, little-endian)
  2. Longitud en bytes de n-gram de 4 bytes (UInt, little-endian)
  3. Bytes sin procesar de n-gram
  4. count de 4 bytes (UInt, little-endian)
Requisitos de preprocesamiento Antes de crear el model a partir del corpus de documentos, estos deben preprocesarse para extraer n-gramas según los valores especificados de mode y n. Los siguientes pasos describen este preprocesamiento:
  1. Añada marcadores de límite al inicio y al final de cada documento según el modo de tokenización:
    • Byte: 0x01 (inicio), 0xFF (fin)
    • Codepoint: U+10FFFE (inicio), U+10FFFF (fin)
    • Token: <s> (inicio), </s> (fin)
    Nota: Se añaden (n - 1) tokens tanto al principio como al final del documento.
  2. Example para n=3 en modo token:
    • Documento: "ClickHouse is fast"
    • Se procesa como: <s> <s> ClickHouse is fast </s> </s>
    • Trigramas generados:
      • <s> <s> ClickHouse
      • <s> ClickHouse is
      • ClickHouse is fast
      • is fast </s>
      • fast </s> </s>
Para simplificar la creación del modelo para los modos byte y codepoint, puede resultar conveniente tokenizar primero el documento en tokens (una lista de bytes para el modo byte y una lista de codepoints para el modo codepoint). Luego, añada n - 1 tokens de inicio al principio y n - 1 tokens de fin al final del documento. Por último, genere los n-gramas y escríbalos en el archivo serializado.
Última modificación el 10 de junio de 2026