Datos de modelos LLMs – aplicaIA, Aplica Inteligencia Artificial

on mayo 9, 2024

Aquí voy a incluir, espero que con actualizaciones, los modelos de lenguajes grandes, LLMs, que son más conocidos.

Aquí te proporciono información disponible (última actualización 9 de mayo de 2024) sobre cada uno de los modelos relacionados. No tiene por qué ser preciso los datos, pero iré completando el listado conforme los encuentre.

Si hay algo erróneo o falta algún LLM, puedes contactar con nosotros con el formulario o vía X: @aplicaia

Índice

LLaMA 2

Autor: Meta AI.
Fecha: Julio de 2023.
Versión: LLaMA 2.
Ventana de contexto: 4,096 tokens.
Tamaño del vocabulario: No divulgado.
Otros parámetros: Disponible en versiones de 7B, 13B y 70B.

Detalles del modelo de lenguaje Llama 2

Llama 2 es un modelo de lenguaje de código abierto desarrollado por Meta AI, en colaboración con Microsoft. Es la segunda versión del modelo de lenguaje Llama y se basa en una arquitectura de transformadores . Llama 2 se ha entrenado con un 40% más de datos que su predecesor y tiene un límite de tamaño de contexto duplicado. Los modelos vienen en tres tamaños, cada uno con una impresionante potencia computacional. Estos modelos se han entrenado previamente con la asombrosa cantidad de 2 billones de tokens, con una longitud de contexto de 4.000 tokens. Llama 2 está disponible tanto para investigación como para uso comercial.

Llama 2 es un hito significativo en el campo de los modelos de lenguaje, ofreciendo un rendimiento y un impacto potencial impresionantes. Se ha ajustado y probado para garantizar la seguridad, y los modelos se han sometido a ejercicios de red teaming y pruebas exhaustivas con prompts adversos. Meta promueve la transparencia proporcionando información detallada sobre sus métodos de ajuste fino y evaluación.

Llama 2 es el sucesor de la primera versión del modelo de lenguaje Llama 2. La primera versión, Llama 1, fue lanzada por Meta AI en febrero de 2023 e incluía cuatro tamaños de modelo: 7, 13, 33 y 65 mil millones de parámetros. Según los informes, el modelo de 13 mil millones de parámetros de Llama 1 superó al GPT-3, mucho más grande, en la mayoría de los puntos de referencia de PLN.

Llama 2 se ha lanzado bajo una licencia más flexible que admite tanto la investigación como el uso comercial. Está disponible de forma gratuita, y Meta ha publicado muchos detalles sobre cómo se creó el modelo, incluido el código, lo que permite a los investigadores explorar sus propiedades.⬆️

LLaMA 3

Autor: Meta AI.
Fecha: Se espera en 2024.
Versión: LLaMA 3.
Ventana de contexto: 8.192 tokens.
Tamaño del vocabulario: No divulgado.
Otros parámetros: No disponible aún.

Detalles del modelo de lenguaje LLaMA 3

LLaMA (Large Language Model Meta AI) 3 es una familia de modelos de lenguaje autorregresivos grandes desarrollados por Meta AI. Se lanzó en abril de 2024 con dos tamaños: 8B y 70B parámetros. Los modelos se han preentrenado con aproximadamente 15 billones de tokens de texto recopilados de fuentes de acceso público y se han ajustado con conjuntos de datos de instrucciones también públicos, así como con más de 10 millones de ejemplos anotados por humanos.

La primera versión de LLaMA se lanzó en febrero de 2023 e incluía cuatro tamaños de modelo: 7B, 13B, 33B y 65 mil millones de parámetros. Los desarrolladores informaron que el rendimiento del modelo de 13B parámetros en la mayoría de los puntos de referencia de PLN superó al del GPT-3 mucho más grande (con 175B parámetros) y que el modelo más grande era competitivo con modelos de vanguardia como PaLM y Chinchilla.

LLaMA 3 está diseñado para ser más potente y diverso que sus predecesores, LLaMA 1 y LLaMA 2. Se ha entrenado con un conjunto de datos mucho más grande y es multilingüe, cubriendo más de 30 idiomas. El modelo utiliza una longitud de contexto de 8.192 tokens, que es el doble de la longitud de contexto de LLaMA.

Meta planea continuar desarrollando versiones más capaces de LLaMA 3, y se espera que los modelos futuros superen los 400 mil millones de parámetros. Estas versiones tienen como objetivo admitir varios idiomas y modalidades, mejorando la versatilidad y aplicabilidad del modelo en diferentes regiones y formatos.

LLaMA 3 es de código abierto y gratuito, lo que subraya el compromiso de Meta con la comunidad de código abierto. Está destinado para uso comercial y de investigación en inglés, con modelos ajustados por instrucciones optimizados para casos de uso de diálogo y que superan a muchos modelos de chat de código abierto disponibles en puntos de referencia comunes de la industria.⬆️

BLOOM

Autor: BigScience (organización colaborativa).
Fecha: Julio de 2022.
Versión: BLOOM.
Ventana de contexto: 2,048 tokens.
Tamaño del vocabulario: 250,680.
Otros parámetros: Disponible en múltiples tamaños, con un modelo completo de 176B.

Detalles del modelo de lenguaje Bloom

BLOOM es un modelo de lenguaje grande (LLM) desarrollado como parte de un proyecto de investigación colaborativa llamado BigScience https://bigscience.huggingface.co/blog/bloom. Está diseñado para ser un modelo de lenguaje de acceso abierto y multilingüe, con un enfoque en la democratización del acceso a modelos de lenguaje potentes.

Detalles clave sobre BLOOM:

BLOOM tiene 176 mil millones de parámetros, lo que lo convierte en uno de los modelos de lenguaje más grandes jamás creados.
Es capaz de generar texto en 46 idiomas naturales y 13 lenguajes de programación.
BLOOM se entrenó con un conjunto de datos llamado ROOTS, que consta de aproximadamente 366 mil millones de tokens.
El entrenamiento de BLOOM se llevó a cabo de marzo a julio de 2022, con una ejecución final de 117 días.
El desarrollo de BLOOM involucró a más de 1000 investigadores de más de 70 países y 250 instituciones.

BLOOM está diseñado para abordar el desafío del acceso limitado a los LLM para laboratorios de investigación de universidades, organizaciones sin fines de lucro y empresas más pequeñas. Su objetivo es proporcionar un modelo de lenguaje transparente y de acceso abierto que se pueda utilizar para diversas tareas relacionadas con el lenguaje.⬆️

BERT

Autor: Google AI.
Fecha: 2018.
Versión: BERT.
Ventana de contexto: 512 tokens.
Tamaño del vocabulario: 30,522.
Otros parámetros: Pre-entrenado en inglés y chino.

Detalles del modelo de lenguaje BERT

BERT (Representaciones codificadoras bidireccionales a partir de transformadores) es un modelo de lenguaje basado en la arquitectura del transformador. Fue presentado por investigadores de Google en octubre de 2018 y desde entonces se ha convertido en una línea base omnipresente en los experimentos de Procesamiento de Lenguaje Natural (PNL), con más de 150 publicaciones de investigación que analizan y mejoran el modelo.

BERT está diseñado para ayudar a las computadoras a comprender el significado del lenguaje ambiguo en el texto utilizando el texto circundante para establecer el contexto. Es un marco de aprendizaje automático de código abierto para PNL que se puede ajustar con conjuntos de datos de preguntas y respuestas. BERT se entrenó previamente utilizando texto de Wikipedia y se puede ajustar para una amplia gama de tareas, como respuesta a preguntas e inferencia lingüística, con solo una capa de salida adicional.

La implementación original de BERT incluye dos tamaños de modelo: BERTBASE y BERTLARGE.

BERTBASE tiene 12 codificadores con 12 cabezas de auto-atención bidireccionales, para un total de 110 millones de parámetros.
BERTLARGE tiene 24 codificadores con 16 cabezas de auto-atención bidireccionales, para un total de 340 millones de parámetros.

Un codificador es una unidad fundamental en la arquitectura de un LLM. Su función principal es procesar y comprender el texto de entrada.

La auto-atención es un mecanismo crucial en los LLM que permite al modelo prestar atención a diferentes partes del texto de entrada de manera simultánea. Las «cabezas de auto-atención» determinan la cantidad de atención que se dedica a diferentes partes del texto. Esta característica permite comprender mejor el contexto y las relaciones entre las palabras.

El rendimiento de vanguardia de BERT en tareas de comprensión del lenguaje natural se atribuye a su capacidad para preentrenar representaciones bidireccionales profundas a partir de texto no etiquetado al condicionar conjuntamente el contexto izquierdo y derecho en todas las capas. Esto permite a BERT capturar una comprensión amplia y completa del lenguaje, incluidos los detalles dentro de las oraciones y el flujo entre oraciones .

La arquitectura de BERT es un codificador transformador bidireccional multicapa, similar al modelo transformador. El modelo transformador incluye dos mecanismos separados: un codificador que lee la entrada de texto y un decodificador que produce una predicción para la tarea. Dado que el objetivo de BERT es generar un modelo de lenguaje, solo es necesario el mecanismo del codificador.

La naturaleza bidireccional de BERT, habilitada por el modelo transformador, le permite leer texto en ambas direcciones a la vez, lo que se conoce como bidireccionalidad. Esta capacidad, combinada con su habilidad para considerar el contexto mediante el análisis de las relaciones entre palabras, contribuye a la precisión de vanguardia de BERT.

BERT ha revolucionado el campo de la PNL al proporcionar un modelo de lenguaje altamente complejo y avanzado que puede automatizar la comprensión del lenguaje. Su rendimiento está respaldado por el entrenamiento con cantidades masivas de datos y el aprovechamiento de la arquitectura del transformador.

BERT se ha utilizado para una amplia variedad de tareas lingüísticas, incluido el análisis de sentimientos, el reconocimiento de entidades con nombre y la respuesta a preguntas. También ha servido como base para otros modelos de la familia similar a BERT, como RoBERTa, ALBERT y DistilBERT.

En resumen, BERT es un modelo de lenguaje basado en la arquitectura del transformador que ha logrado un rendimiento de vanguardia en tareas de PNL. Está diseñado para preentrenar representaciones bidireccionales profundas a partir de texto no etiquetado y se puede ajustar para diversas tareas con solo una capa de salida adicional. La naturaleza bidireccional de BERT y su capacidad para considerar el contexto contribuyen a su precisión y eficacia en la comprensión del lenguaje.⬆️

Falcon 40B

Autor: Technology Innovation Institute (TII).
Fecha: 2023.
Versión: Falcon 40B.
Ventana de contexto: 2,048 tokens.
Tamaño del vocabulario: No divulgado.
Otros parámetros: Modelo de 40B parámetros, optimizado para eficiencia.

Detalles del modelo de lenguaje grande Falcon 40B

Falcon 40B es un modelo de lenguaje grande (LLM) desarrollado por el Instituto de Innovación Tecnológica (TII) en Abu Dhabi. Forma parte de la familia Falcon de LLM, que también incluye los modelos Falcon 7B y Falcon 180B.

Detalles clave:

El modelo Falcon 40B tiene 40 mil millones de parámetros, lo que lo convierte en uno de los LLM más grandes jamás creados.
Está entrenado en un billón de tokens de datos de texto.
El modelo está optimizado para diversas tareas de generación de lenguaje natural.
Falcon 40B es un modelo de decodificador causal solamente, lo que significa que está diseñado para predecir el siguiente token en una secuencia.
Está entrenado principalmente en inglés, alemán, español y francés, con capacidades limitadas en italiano, portugués, polaco, holandés, rumano, checo y sueco.
El modelo está disponible para investigación y uso comercial y es de código abierto.

Capacidades y aplicaciones:

Falcon 40B ha demostrado un rendimiento excepcional en diversas aplicaciones, incluido el procesamiento de lenguaje natural, la traducción automática y la generación de texto.
Sirve como un modelo base versátil que se puede ajustar para requisitos u objetivos específicos.
El modelo se puede utilizar para tareas como resúmenes, generación de texto y desarrollo de chatbots.
Es importante tener en cuenta que Falcon 40B puede contener sesgos y estereotipos que se encuentran comúnmente en línea, ya que está entrenado en un corpus a gran escala representativo de la web.

Requisitos del sistema:

Para ejecutar inferencia con Falcon 40B, se recomienda un mínimo de 85-100 GB de memoria.
El modelo requiere aproximadamente 27 GB de RAM para funcionar.

Tenga en cuenta que Falcon 40B está entrenado principalmente en los idiomas especificados y es posible que no se generalice adecuadamente a otros idiomas.⬆️

Falcon 180B

Autor: Technology Innovation Institute (TII).
Fecha: 2023.
Versión: Falcon 180B.
Ventana de contexto: 2,048 tokens.
Tamaño del vocabulario: No divulgado.
Otros parámetros: Modelo con 180B parámetros, uno de los más grandes de código abierto.

Detalles del modelo de lenguaje grande Falcon 40B

Detalles clave:

El modelo Falcon 40B tiene 40 mil millones de parámetros, lo que lo convierte en uno de los LLM más grandes jamás creados.
Está entrenado en un billón (mil millones, en español) de tokens de datos de texto.
El modelo está optimizado para diversas tareas de generación de lenguaje natural.
Falcon 40B es un modelo de decodificador causal solamente, lo que significa que está diseñado para predecir el siguiente token en una secuencia.
Está entrenado principalmente en inglés, alemán, español y francés, con capacidades limitadas en italiano, portugués, polaco, holandés, rumano, checo y sueco.
El modelo está disponible para investigación y uso comercial y es de código abierto.

Capacidades y aplicaciones:

Falcon 40B ha demostrado un rendimiento excepcional en diversas aplicaciones, incluido el procesamiento de lenguaje natural, la traducción automática y la generación de texto.
Sirve como un modelo base versátil que se puede ajustar para requisitos u objetivos específicos.
El modelo se puede utilizar para tareas como resúmenes, generación de texto y desarrollo de chatbots.
Es importante tener en cuenta que Falcon 40B puede contener sesgos y estereotipos que se encuentran comúnmente en línea, ya que está entrenado en un corpus a gran escala representativo de la web.

Requisitos del sistema:

Para ejecutar inferencia con Falcon 40B, se recomienda un mínimo de 85-100 GB de memoria.
El modelo requiere aproximadamente 27 GB de RAM para funcionar.

Tenga en cuenta que Falcon 40B está entrenado principalmente en los idiomas especificados y es posible que no se generalice adecuadamente a otros idiomas.⬆️

OPT-175B

Autor: Meta AI.
Fecha: Mayo de 2022.
Versión: OPT.
Ventana de contexto: 2,048 tokens.
Tamaño del vocabulario: 50272.
Otros parámetros: Modelo con 175B parámetros.

Detalles del modelo de lenguaje OPT-175B

El modelo de lenguaje OPT-175B es un modelo de lenguaje a gran escala desarrollado por Meta AI. Forma parte del conjunto Open Pre-trained Transformers (OPT) de transformadores preentrenados solo decodificadores, que van desde 125 millones a 175 mil millones de parámetros. El modelo OPT-175B es comparable a GPT-3 en rendimiento, pero requiere solo una séptima parte de la huella de carbono para desarrollarse.

El modelo OPT-175B se ha lanzado bajo una licencia no comercial y está destinado a ser utilizado por investigadores afiliados a organizaciones gubernamentales, sociedad civil, academia y laboratorios de investigación industrial. El acceso al modelo completo de 175 mil millones se otorga a través de un proceso de solicitud, pero las versiones más pequeñas que van desde 125 millones a 30 mil millones de parámetros se pueden descargar como parte de la biblioteca Hugging Face Transformers.

Meta AI tiene como objetivo democratizar el acceso a modelos de lenguaje a gran escala como OPT-175B para aumentar la diversidad de voces en la definición de las consideraciones éticas de dichas tecnologías. Han lanzado los modelos preentrenados y el código necesario para entrenarlos y usarlos, con la intención de fomentar la participación de la comunidad y la investigación reproducible.

El modelo OPT-175B está diseñado para usarse con fines de investigación y está sujeto a la licencia OPT-175B de Meta, que limita su uso a fines de investigación. Es importante tener en cuenta que el modelo OPT-175B se entrenó con conjuntos de datos disponibles públicamente.⬆️

XGen-7B

Autor: Salesforce Research.
Fecha: 2023.
Versión: XGen-7B.
Ventana de contexto: 8,000 tokens.
Tamaño del vocabulario: No divulgado.
Otros parámetros: Pre-entrenado con varias lenguas, ajustado a aplicaciones diversas.

Detalles del modelo de lenguaje XGen-7B

El modelo de lenguaje XGen-7B es un modelo de lenguaje a gran escala desarrollado por Salesforce. Está diseñado para manejar secuencias largas y se ha entrenado con una longitud de secuencia de entrada de hasta 8K para un máximo de 1,5 billones de tokens. El modelo consta de 7 mil millones de parámetros, lo que lo convierte en una herramienta poderosa para el procesamiento y la comprensión avanzada del lenguaje.

Datos de entrenamiento

El modelo XGen-7B se ha entrenado en una variedad de conjuntos de datos, incluidos RedPajama, Wikipedia y el propio conjunto de datos de Salesforce llamado Starcoder. El proceso de entrenamiento involucró una estrategia de dos etapas, donde el modelo se entrenó con una mezcla de datos de lenguaje natural y código. La capacidad de generación de código del modelo se evaluó utilizando instrucciones en lenguaje natural (cadenas de documentación) en el benchmark HumanEval.

Rendimiento

Salesforce afirma que el modelo XGen-7B logra resultados comparables o mejores que otros modelos de lenguaje de vanguardia de tamaño similar. Se ha demostrado que supera a otros modelos base en tareas como conversaciones de reuniones, informes gubernamentales y pruebas de referencia de procesamiento de lenguaje natural. El rendimiento del modelo se ha evaluado utilizando factores como la estructura, la organización y la relevancia de la pregunta y el documento fuente.

Modelo de lenguaje basado en instrucciones

Una variante del modelo XGen-7B, llamada XGen-7B- {4K, 8K} -inst, se ha entrenado con datos de instrucciones utilizando técnicas de aprendizaje por refuerzo a partir de comentarios humanos (RLHF). Este modelo de lenguaje basado en instrucciones puede comprender instrucciones y tiene el potencial de usarse en la construcción de chatbots similares a ChatGPT.

Comparación con otros modelos

Salesforce afirma que el modelo XGen-7B es un modelo de 7B superior en comparación con otros como MPT, Falcon y LLaMA 2. Se ha demostrado que tiene un rendimiento notable en pruebas de referencia de procesamiento de lenguaje natural estándar, mostrando resultados comparables o superiores a otros modelos de lenguaje de vanguardia de tamaño similar.

Usabilidad y optimización

El modelo XGen-7B se ha lanzado bajo la licencia Apache 2.0, lo que lo hace disponible tanto para avances en investigación como para aplicaciones comerciales. Salesforce ha optimizado el modelo para generar respuestas más rápidas, asegurando experiencias de usuario superiores en la plataforma Salesforce.

En resumen, el modelo de lenguaje XGen-7B es un modelo poderoso desarrollado por Salesforce. Se ha entrenado con una mezcla de datos de lenguaje natural y código, y logra resultados comparables o mejores que otros modelos de lenguaje de vanguardia de tamaño similar. El rendimiento del modelo se ha evaluado en varias tareas y pruebas de referencia, mostrando su eficacia para manejar secuencias largas. Está disponible para investigación y aplicaciones comerciales bajo la licencia Apache 2.0.⬆️

GPT-NeoX

Autor: EleutherAI.
Fecha: 2022.
Versión: GPT-NeoX-20B.
Ventana de contexto: 2,048 tokens.
Tamaño del vocabulario: 50,257.
Otros parámetros: Modelo con 20B parámetros.

Detalles del modelo GPT-NeoX

GPT-NeoX es un modelo de lenguaje autoregresivo desarrollado por EleutherAI. Es uno de los modelos de lenguaje de código abierto más grandes disponibles, con diferentes versiones entrenadas con una cantidad variable de parámetros.

A continuación, se presentan algunos detalles clave sobre GPT-NeoX:

GPT-NeoX-20B: Esta versión de GPT-NeoX tiene 20 mil millones de parámetros y está entrenada en el conjunto de datos Pile. Es el modelo autoregresivo denso más grande con pesos disponibles públicamente en el momento de su lanzamiento.

Arquitectura: GPT-NeoX-20B tiene 44 capas, un tamaño de dimensión oculta de 6144 y 64 cabezas de atención. Sigue una arquitectura similar a GPT-3, pero con algunas desviaciones notables, incluido un tokenizador diferente, la incorporación de incrustaciones posicionales rotativas y un esquema de inicialización e hiperparámetros diferentes.

Entrenamiento y evaluación: GPT-NeoX-20B se entrenó utilizando fp16 y se ha evaluado en una variedad de tareas de comprensión del lenguaje, matemáticas y basadas en conocimiento. El código de entrenamiento y evaluación, así como los pesos del modelo, se han开源 (kài yuán, código abierto) y están disponibles en GitHub.

Uso: GPT-NeoX-20B se puede utilizar para la generación de texto y la evaluación de modelos. Es particularmente poderoso en tareas de razonamiento con pocos ejemplos y ha demostrado un mejor rendimiento en comparación con modelos GPT-3 y FairSeq de tamaño similar cuando se evalúa con solo unos pocos ejemplos.

Integración con el ecosistema de código abierto: GPT-NeoX tiene conexiones fáciles con el ecosistema de código abierto, incluida la integración con las bibliotecas de tokenizadores y transformadores de Hugging Face, el registro a través de WandB y la evaluación a través de Language Model Evaluation Harness. También admite puntos de control con AWS S3.

Paralelismo de modelos: GPT-NeoX se implementa utilizando transformadores autoregresivos paralelos a modelos en GPUs. La biblioteca de EleutherAI para entrenar modelos de lenguaje a gran escala en GPUs se basa en el modelo de lenguaje Megatron de NVIDIA y se ha mejorado con técnicas de DeepSpeed y otras optimizaciones.

Tenga en cuenta que GPT-NeoX-20B es solo una versión de GPT-NeoX, y EleutherAI también ha entrenado y lanzado modelos con 1.3 mil millones, 3.8 mil millones y 5.8 mil millones de parámetros para el idioma coreano.

Para obtener información más detallada sobre GPT-NeoX, incluida la formación y ajuste fino, la inferencia y la evaluación, puede consultar las secciones relevantes en el repositorio de GitHub de GPT-NeoX.⬆️

GPT-J

Autor: EleutherAI.
Fecha: 2021.
Versión: GPT-J-6B.
Ventana de contexto: 2,048 tokens.
Tamaño del vocabulario: 50,257.
Otros parámetros: Modelo con 6B parámetros.

Detalles del modelo GPT-J

GPT-J, o GPT-J-6B, es un modelo de lenguaje grande de código abierto desarrollado por EleutherAI en 2021. Es un modelo transformador preentrenado generativo diseñado para producir texto similar al humano que continúa a partir de un indicador. La «6B» en el nombre se refiere al hecho de que tiene 6 mil millones de parámetros. GPT-J es similar a GPT-3, ya que es un modelo transformador autoregresivo solo decodificador diseñado para tareas de procesamiento de lenguaje natural.

Para cargar GPT-J en float32, se requiere al menos 2 veces la RAM del tamaño del modelo: 1x para los pesos iniciales y otro 1x para cargar el punto de control. Por lo tanto, se necesitarían al menos 48 GB de RAM para cargar el modelo. Sin embargo, existen opciones para reducir el uso de RAM. El argumento torch_dtype se puede usar para inicializar el modelo en media precisión solo en un dispositivo CUDA. Además, hay una rama fp16 que almacena los pesos fp16, que se podría usar para minimizar aún más el uso de RAM.

GPT-J es un modelo de lenguaje en inglés entrenado en Pile, y es el modelo de lenguaje de estilo GPT-3 más grande del mundo disponible públicamente. Fue diseñado para generar texto en inglés a partir de un indicador y funciona razonablemente bien incluso sin ajuste fino, incluso en tareas de traducción del inglés al francés. Sin embargo, no se diseñó específicamente para traducir o generar texto en otros idiomas o para funcionar sin ajustar previamente el modelo para una tarea específica.

GPT-J es una alternativa de código abierto al GPT-3 de OpenAI y está disponible públicamente. Se ha entrenado utilizando la arquitectura de transformadores, que ha tenido éxito en tareas de procesamiento de lenguaje natural. El modelo se puede utilizar para una amplia gama de tareas de procesamiento de lenguaje natural, que incluyen completar texto, resumir, traducir y más.

Es importante tener en cuenta que GPT-J, como todos los modelos de lenguaje, puede producir texto socialmente inaceptable u ofensivo en ciertos casos. Se recomienda tener una curación o filtrado humano de las salidas antes de liberarlas para mejorar la calidad de los resultados.⬆️

Vicuna 13B

Autor: Universidad de Berkeley.
Fecha: 2023.
Versión: Vicuna 13B.
Ventana de contexto: 2,048 tokens.
Tamaño del vocabulario: No divulgado.
Otros parámetros: Basado en el modelo LLaMA original de 13B, afinado para diálogo.

Detalles del modelo Vicuna 13-B

El modelo Vicuna 13-B es un modelo de lenguaje autoregresivo basado en la arquitectura de transformadores. Se trata de un ajuste fino a partir del modelo LLaMA y se utiliza principalmente para la investigación de modelos de lenguaje grande y chatbots. El modelo está dirigido a investigadores y aficionados en el campo del procesamiento del lenguaje natural, el aprendizaje automático y la inteligencia artificial.

Los datos de entrenamiento para el modelo Vicuna 13-B consisten en alrededor de 125.000 conversaciones recopiladas de ShareGPT.com . Se ha evaluado utilizando pruebas estándar, preferencia humana y LLM como juez. El rendimiento del modelo se ha comparado con otros modelos en una clasificación.

Vicuna 13-B es un chatbot de código abierto que tiene como objetivo proporcionar una alternativa a modelos como ChatGPT. Está respaldado por un conjunto de datos mejorado y una infraestructura escalable y fácil de usar. Los detalles de entrenamiento y arquitectura del modelo están disponibles públicamente, lo que fomenta la investigación y la innovación de código abierto en el campo de los sistemas de chatbot.

Para ejecutar el modelo Vicuna 13-B, necesita obtener los pesos LLaMA y aplicarles los pesos delta de Vicuna. Puede encontrar instrucciones detalladas para configurar y utilizar el modelo en la documentación de la API y los tutoriales.

El modelo Vicuna 13-B tiene una amplia gama de casos de uso, que incluyen conversación basada en chat, respuesta a preguntas y sistemas de recomendación basados en texto. Puede generar respuestas similares a las humanas a partir de un indicador, lo que lo hace útil para crear chatbots interactivos y atractivos, proporcionar respuestas precisas a las preguntas de los usuarios y ofrecer recomendaciones personalizadas basadas en las preferencias del usuario.

Tenga en cuenta que la información proporcionada se basa en los resultados de búsqueda y es posible que no incluya los detalles más actualizados sobre el modelo.⬆️

Phi-1_5

Autor: Microsoft.
Fecha: 2024.
Versión: Phi-1.5.
Ventana de contexto: 8,192 tokens.
Tamaño del vocabulario: No divulgado.
Otros parámetros: Ajustado para trabajar eficientemente en aplicaciones específicas.

Detalles del modelo Phi-1.5

El modelo Phi-1.5 es un modelo de lenguaje desarrollado por Microsoft Research. Se trata de un modelo Transformer con 1.3 mil millones de parámetros. El modelo se entrenó utilizando una combinación de datos de libros de texto de alta calidad y datos generados sintéticamente. Los datos de entrenamiento para Phi-1.5 incluyen subconjuntos de códigos Python de contenido de preguntas y respuestas en StackOverflow, código de competencia de concursos de código, libros de texto sintéticos de Python y ejercicios generados por el modelo gpt-3.5-turbo-0301.

Phi-1.5 está diseñado para funcionar bien en tareas de lenguaje natural y exhibe un rendimiento comparable a modelos cinco veces más grandes. Ha demostrado un buen desempeño en tareas de razonamiento complejo como matemáticas de nivel primario y programación básica. El modelo se ha evaluado comparándolo con pruebas de referencia que analizan el sentido común, la comprensión del lenguaje y el razonamiento lógico, y demuestra un rendimiento casi de vanguardia entre los modelos con menos de 10 mil millones de parámetros.

Es importante tener en cuenta que Phi-1.5, al ser un modelo base, puede producir texto irrelevante después de la respuesta principal. Por lo tanto, el texto o código generado por Phi-1.5 debe tratarse como un punto de partida en lugar de una solución definitiva para posibles casos de uso. Los usuarios deben tener precaución al emplear estos modelos en sus aplicaciones, ya que Phi-1.5 no se ha probado para garantizar un rendimiento adecuado para aplicaciones de nivel de producción.

El modelo Phi-1.5 se adapta mejor a indicaciones que utilizan el formato de preguntas y respuestas, el formato de chat y el formato de código. Requiere iteraciones complejas, selección estratégica de temas y una comprensión profunda de las brechas de conocimiento para garantizar la calidad y la diversidad de los datos utilizados para el entrenamiento. El modelo no ha sido sometido a un ajuste fino de instrucciones ni a RLHF (aprendizaje por refuerzo a partir de comentarios humanos).

En general, Phi-1.5 representa un avance en modelos de lenguaje más pequeños y eficientes, y demuestra el potencial para lograr resultados comparables a modelos más grandes a una fracción del costo y tiempo de entrenamiento.⬆️

Phi-2

Autor: Microsoft.
Fecha: Por determinar.
Versión: Phi-2.
Ventana de contexto: Por determinar.
Tamaño del vocabulario: No divulgado.
Otros parámetros: Modelo de próxima generación.

Detalles del modelo Phi-2

El modelo Phi-2 es un modelo de lenguaje pequeño desarrollado por Microsoft Research. Forma parte de la serie «Phi» de Microsoft, compuesta por modelos de lenguaje pequeños que buscan alcanzar un rendimiento de vanguardia en comparación con modelos más grandes.

Datos de entrenamiento:

Phi-2 se entrenó con una combinación de conjuntos de datos sintéticos y web para procesamiento de lenguaje natural y programación. El total de datos de entrenamiento asciende a 250 mil millones de tokens. El corpus de entrenamiento sintético de Phi-2 se ha ampliado con datos web cuidadosamente seleccionados, siguiendo un enfoque de doble fuente para proporcionar un conjunto de datos integral y refinado.

Tamaño del modelo:

El modelo Phi-2 tiene 2.7 mil millones de parámetros.

Rendimiento:

Phi-2 ha demostrado un rendimiento casi de vanguardia entre los modelos con menos de 13 mil millones de parámetros cuando se evalúa con puntos de referencia que prueban el sentido común, la comprensión del lenguaje y el razonamiento lógico. Supera el rendimiento de modelos más grandes como Mistral y Llama-2 en varios puntos de referencia agregados, incluidas tareas de razonamiento de múltiples pasos como programación y matemáticas. Se ha observado que Phi-2 exhibe un mejor comportamiento con respecto a la toxicidad y el sesgo en comparación con los modelos de código abierto existentes que pasaron por alineación.

Casos de uso:

El modelo Phi-2 se adapta mejor a indicaciones que utilizan el formato de preguntas y respuestas, el formato de chat y el formato de código. Está diseñado para fines de preguntas y respuestas, chat y código, y el texto/código generado por el modelo debe tratarse como un punto de partida en lugar de una solución definitiva. Phi-2 es adecuado para la exploración en torno a la interpretabilidad mecanicista, las mejoras de seguridad y la experimentación de ajuste fino en una variedad de tareas.

Disponibilidad:

Phi-2 está accesible en el catálogo de modelos de Azure y se puede acceder a él a través de Hugging Face. Sin embargo, cabe señalar que Phi-2 no se puede utilizar con fines comerciales bajo su licencia de Microsoft Research y está limitado a esfuerzos de investigación no comerciales y orientados a la investigación.

Tenga en cuenta que Microsoft no ha publicado un informe técnico que detalle Phi-2, por lo que los detalles técnicos específicos pueden ser limitados.⬆️

Phi-3

Detalles del modelo Phi-3

El modelo Phi-3 es una familia de modelos de lenguaje pequeños (SLM) desarrollados por Microsoft. Estos modelos están diseñados para ofrecer un rendimiento excepcional en diversas tareas, manteniendo un tamaño compacto adecuado para entornos con recursos limitados. Los modelos Phi-3 incluyen Phi-3-mini, Phi-3-small y Phi-3-medium, cada uno con diferentes tamaños de parámetros y capacidades.

Rendimiento:

Phi-3-mini es un modelo de lenguaje de 3.8 mil millones de parámetros entrenado con 3.3 billones de tokens. A pesar de su menor tamaño, logra un rendimiento comparable a modelos más grandes como Mixtral 8x7B y GPT-3.5.
Phi-3-mini supera a modelos con el doble de su tamaño, y Phi-3-small y Phi-3-medium incluso superan a modelos mucho más grandes como GPT-3.5T.
Estos números informados se producen utilizando la misma canalización para garantizar la comparabilidad, aunque ligeras diferencias en la metodología de evaluación pueden conducir a variaciones de otros números publicados.

Seguridad y Confianza:

Los modelos Phi-3 se entrenan utilizando datos de alta calidad y han sido sometidos a una extensa evaluación de seguridad posterior al entrenamiento, que incluye aprendizaje por refuerzo a partir de comentarios humanos, pruebas y evaluaciones automatizadas, y revisión manual de seguridad.
Los modelos están alineados para la robustez, la seguridad y el formato de chat.
Microsoft proporciona tarjetas de modelo transparentes para cada modelo Phi-3, que describen sus capacidades, limitaciones y casos de uso recomendados.

Ventajas:

Los modelos Phi-3 son particularmente adecuados para desarrolladores que necesitan un rendimiento de alta calidad en un paquete más pequeño. Ofrecen un razonamiento sólido y versatilidad, con soporte flexible de hardware y compatibilidad multiplataforma.
El modelo Phi-3-mini, por ejemplo, es liviano y se puede implementar en un teléfono.

Limitaciones:

Es importante tener en cuenta las limitaciones y las consideraciones de la IA responsable al usar modelos Phi-3.
Tenga en cuenta que los modelos Phi-3 pueden no funcionar tan bien en puntos de referencia de conocimiento fáctico en comparación con otros modelos.⬆️

Phi-3-Mini-128K

Autor: Microsoft.
Fecha: Por determinar.
Versión: Phi-3-Mini-128K.
Ventana de contexto: 128,000 tokens.
Tamaño del vocabulario: No divulgado.

Detalles del modelo Phi-3-Mini-128K-Instruct

El modelo Phi-3-Mini-128K-Instruct es un modelo abierto ligero y de vanguardia con 3.8 mil millones de parámetros. Forma parte de la familia de modelos Phi-3 y se entrena utilizando los conjuntos de datos Phi-3, que incluyen datos sintéticos y datos filtrados de sitios web públicos. El modelo está diseñado para tener propiedades de alta calidad y densidad de razonamiento.

El modelo Phi-3-Mini-128K-Instruct es un modelo Transformer denso solo decodificador. Se ha sometido a un ajuste fino supervisado (SFT) y optimización de preferencia directa (DPO) para garantizar la alineación con las preferencias humanas y las pautas de seguridad.

El modelo se adapta mejor a indicaciones que utilizan el formato de chat. Funciona bien en puntos de referencia estándar de código abierto que miden diversos aspectos de la comprensión y el razonamiento del lenguaje.

El modelo Phi-3-Mini-128K-Instruct tiene una longitud de contexto de 128K tokens, lo que significa que puede admitir indicaciones de hasta 128,000 tokens.

Para obtener más información sobre el modelo Phi-3-Mini-128K-Instruct, puede consultar el blog de Microsoft sobre Phi-3 y el informe técnico de Phi-3, que brindan información adicional sobre el diseño, las capacidades, el rendimiento y los detalles de entrenamiento del modelo.

Tenga en cuenta que el modelo Phi-3-Mini-128K-Instruct es solo una variante de la familia Phi-3, y hay otras variantes disponibles, como Phi-3-Mini-4K-Instruct.

En general, el modelo Phi-3-Mini-128K-Instruct es un modelo de lenguaje potente y eficiente que ofrece un rendimiento de alta calidad en un paquete compacto, lo que lo hace ideal para desarrolladores que necesitan un modelo más pequeño con un razonamiento sólido y versatilidad.⬆️

Mixtral

Autor: Meta AI.
Fecha: Por determinar.
Versión: Mixtral.
Ventana de contexto: Por determinar.
Tamaño del vocabulario: No divulgado.

Detalles del modelo Mixtral LLM

El modelo Mixtral LLM es un modelo de lenguaje grande desarrollado por Mistral AI. Es un modelo Transformer basado únicamente en el decodificador que utiliza una arquitectura de mezcla de expertos (MoE). El modelo Mixtral-8x7B, en particular, es el segundo modelo de lenguaje grande lanzado por Mistral AI, después de Mistral-7B.

Aquí hay algunos detalles clave sobre el modelo Mixtral-8x7B:

Arquitectura: Mixtral-8x7B es un modelo de mezcla de expertos (MoE) con 8 expertos por MLP (perceptrón multicapa)

Parámetros: El modelo Mixtral-8x7B tiene un total de 45 mil millones de parámetros.

Rango de atención: El modelo se entrena con un mecanismo de atención de ventana deslizante, con un rango de atención teórico de 128K tokens.

GQA (Atención agrupada a la consulta): Mixtral-8x7B utiliza GQA, lo que permite una inferencia más rápida y un menor tamaño de caché.

Tokenizador: El modelo utiliza un tokenizador BPE con retroceso de bytes para garantizar que los caracteres nunca se mapeen a tokens fuera de vocabulario.

Licencia: Mixtral-8x7B se publica bajo la licencia Apache 2.0.

El modelo Mixtral-8x7B es conocido por su rendimiento y eficiencia. Supera a Llama 2 70B y GPT-3.5 en varios puntos de referencia, al tiempo que ofrece una tasa de inferencia 6 veces más rápida. También se destaca por su arquitectura SMoE (Mezcla de expertos dispersos), que utiliza solo una fracción del número total de parámetros por inferencia, lo que reduce el costo y la latencia.

Tenga en cuenta que el modelo Mixtral-8x7B es solo uno de los modelos de la serie Mixtral. También existe un modelo Mixtral 8x22B, que establece un nuevo estándar de rendimiento y eficiencia dentro de la comunidad de IA.

En general, los modelos Mixtral LLM representan avances significativos en el campo de la inteligencia artificial y el procesamiento del lenguaje natural. Ofrecen capacidades potentes y tienen el potencial de personalizarse e integrarse en diversos proyectos y aplicaciones. ⬆️

Mistral

Autor: Mistral AI.
Fecha: Septiembre de 2023.
Versión: Mistral 7B.
Ventana de contexto: 8,192 tokens.
Tamaño del vocabulario: No divulgado.
Otros parámetros: Modelo compacto con 7B (7 mil millones) parámetros, desarrollado para eficiencia.

Detalles del modelo Mistral LLM

Mistral AI ofrece modelos de lenguaje grande tanto de código abierto como comerciales para que desarrolladores y empresas creen nuevos productos y aplicaciones .

Mistral Small: Es un modelo de razonamiento rentable diseñado para cargas de trabajo de baja latencia.

Mistral Medium: Este modelo es útil para tareas intermedias que requieren un razonamiento moderado. Sin embargo, quedará obsoleto en los próximos meses.

Mistral-7B: es el primer modelo de lenguaje grande lanzado por Mistral AI. Es un modelo Transformer basado únicamente en el decodificador con 7 mil millones de parámetros. Mistral-7B utiliza atención de ventana deslizante, GQA (atención agrupada a la consulta) y un tokenizador BPE con retroceso de bytes. Tiene un alcance de atención teórico de 128K tokens y está entrenado con una longitud de contexto de 8k y un tamaño de caché fijo.

Supera a Llama 2 13B y Llama 1 34B en casi todos los puntos de referencia. El modelo V0.2 introduce una ventana de contexto de 32k y otros avances para mejorar sus capacidades de procesamiento y generación de texto.

Mistral Large: Mistral Large es el LLM insignia de Mistral AI. Es el modelo más avanzado que ofrece Mistral AI y está disponible en Azure y en la plataforma Mistral AI. Mistral Large se puede utilizar para una amplia gama de tareas basadas en el lenguaje gracias a sus capacidades de razonamiento y conocimiento de vanguardia. ⬆️

GPT-NeoX-20B

Autor: EleutherAI.
Fecha de versión: 2022.
Versión: GPT-NeoX-20B.
Ventana de contexto: 2,048 tokens.
Otros parámetros: Modelo autoregresivo con 20 mil millones de parámetros .

GPT-NeoX-20B es un modelo de lenguaje grande (LLM) desarrollado por EleutherAI y es un modelo de código abierto.

Arquitectura del modelo: GPT-NeoX-20B es un modelo de lenguaje autoregresivo diseñado para parecerse a la arquitectura de GPT-3 y GPT-J-6B.

Conjunto de datos de entrenamiento: GPT-NeoX-20B se entrenó con el Pile, un conjunto de datos seleccionado específicamente diseñado para entrenar modelos de lenguaje grande.

Tamaño de parámetros: GPT-NeoX-20B tiene 20 mil millones de parámetros, lo que lo convierte en uno de los modelos de lenguaje de acceso público más grandes disponibles.

Procedimiento de entrenamiento: el modelo se entrenó utilizando la biblioteca GPT-NeoX y se entrenó con un tamaño de lote de aproximadamente 3,15 millones de tokens para un total de 150,000 pasos. Se utilizó paralelismo de tensores y paralelismo de pipeline para distribuir el modelo entre las GPU. Lanzamiento: GPT-NeoX-20B se lanzó en febrero de 2022 y está disponible para el acceso público.

GPT-NeoX-20B es un modelo de lenguaje poderoso que se puede utilizar para una variedad de tareas de procesamiento del lenguaje natural. Su gran tamaño de parámetros y su entrenamiento en un conjunto de datos seleccionado lo convierten en un recurso valioso para investigadores y desarrolladores en el campo de la PNL.

Éste modelo usa un tokenizador que asigna tokens adicionales a los espacios en blanco, lo que hace que el modelo sea más adecuado para determinadas tareas como la generación de código. ⬆️

GPT-J-6B

Autor: EleutherAI.
Fecha de versión: 2021.
Versión: GPT-J-6B.
Ventana de contexto: 2,048 tokens.
Otros parámetros: Modelo con 6 mil millones de parámetros.

GPT-J-6B es un modelo de lenguaje grande (LLM) de código abierto desarrollado por EleutherAI en 2021. Se trata de un modelo transformador preentrenado generativo diseñado para producir texto similar al humano a partir de un indicador o sugerencia inicial. El «6B» en su nombre indica que tiene 6 mil millones de parámetros. GPT-J-6B es similar al modelo GPT-3 de OpenAI y tiene un buen rendimiento en diversas tareas de lenguaje natural, como chats, resúmenes y respuestas a preguntas .

El modelo se entrenó utilizando Mesh Transformer JAX de Ben Wang y aprendió una representación interna del idioma inglés que se puede utilizar para extraer características útiles para tareas posteriores. Se entrenó con 402 mil millones de tokens a lo largo de 383.500 pasos en un TPU v3-256.

El rendimiento del modelo es comparable al de GPT-3 (Curie) con 6,7 mil millones de parámetros en diversas tareas, e incluso supera a GPT-3 (Davinci) con 175 mil millones de parámetros en tareas de generación de código. Con un ajuste fino, GPT-J-6B puede superar a un GPT-3 (Davinci) sin ajustar en varias tareas.

Tenga en cuenta que GPT-J-6B no es adecuado para la traducción o generación de texto en idiomas distintos del inglés, ya que se entrenó con un conjunto de datos únicamente en inglés. También es importante evaluar los riesgos asociados con su caso de uso específico, ya que el modelo puede generar texto dañino u ofensivo .

El modelo requiere importantes recursos informáticos, incluida una gran cantidad de VRAM (24,2 GB). Se recomienda contar con un ordenador potente con suficiente memoria y capacidad de GPU para instalar y ejecutar GPT-J-6B. ⬆️

T5

Autor: Google Research.
Fecha de versión: 2019.
Versión: T5 (Text-To-Text Transfer Transformer).
Ventana de contexto: No divulgada.
Otros parámetros: Modelo que convierte cualquier tarea de PNL en una tarea de traducción.

T5, o Text-to-Text Transfer Transformer, es una arquitectura basada en Transformer desarrollada por Google. Se trata de un modelo de lenguaje grande (LLM) que utiliza un enfoque de texto a texto, donde cada tarea, incluida la traducción, las respuestas a preguntas y la clasificación, se plantea como alimentar el modelo con texto como entrada y entrenarlo para generar algún texto objetivo.

T5 se entrena en una variedad de tareas lingüísticas y puede realizar transformaciones de texto a texto, como traducir texto a otro idioma, crear un resumen y responder preguntas. Se entrena utilizando técnicas de aprendizaje profundo con enormes cantidades de datos de texto. Está diseñado para ser flexible y se puede ajustar para tareas específicas.

T5 tiene diferentes versiones, incluyendo T5v1.1 y mT5.

T5v1.1 es una versión mejorada de T5 con algunos ajustes arquitectónicos y está preentrenada en el conjunto de datos C4 sin mezclar tareas supervisadas.

mT5 es un modelo T5 multilingüe.

El modelo T5 forma parte del marco de texto a texto T5, que también incluye un nuevo conjunto de datos de preentrenamiento llamado Corpus de rastreo limpio y colosal (C4). El conjunto de datos C4 permite obtener mejores resultados en tareas posteriores y un mayor tamaño del modelo sin sobreajuste durante el preentrenamiento. El modelo T5, combinado con el conjunto de datos C4, ha logrado resultados de vanguardia en varios puntos de referencia que cubren resumen, respuesta a preguntas, clasificación de texto y más.

Para utilizar T5, puede crear su propio modelo con la biblioteca google/sentencepiece o utilizar el modelo predeterminado proporcionado en t5.data.DEFAULT_SPM_PATH. Si crea su propio modelo, debe utilizar indicadores específicos con spm_train para garantizar la compatibilidad con el código del modelo T5.

El modelo T5 se puede usar con la API MtfModel y el binario t5_mesh_transformer, especialmente si desea usar los modelos más grandes en TPU o reproducir los resultados mencionados en el documento de T5.

En general, T5 es un LLM poderoso que se puede aplicar a diversas tareas de procesamiento del lenguaje natural al enmarcarlas como transformaciones de texto a texto. ⬆️

Snowflake Arctic

Autor: No especificado.
Otros parámetros: Sin información disponible.

Snowflake Arctic LLM es un modelo de lenguaje grande (LLM) desarrollado por Snowflake, una empresa de computación en la nube. Se describe como un modelo de inteligencia artificial generativa de nivel empresarial optimizado para diversas tareas de procesamiento del lenguaje natural (PLN), incluida la generación de código de bases de datos y la generación de SQL.

Arquitectura y entrenamiento

Snowflake Arctic se basa en una arquitectura híbrida de transformadores Dense-MoE (mezcla de expertos). Combina un modelo de transformador denso de 10 mil millones de parámetros con un perceptrón multicapa (MLP) residual MoE de 128 x 3,66 mil millones de parámetros. Esta arquitectura permite un alto rendimiento de inferencia manteniendo a la vez un bajo costo en diversas tareas de PLN. El transformador híbrido Dense-MoE oculta eficazmente la sobrecarga adicional de comunicación global impuesta por los modelos MoE vanilla, lo que da como resultado un uso más eficiente de los recursos durante el entrenamiento y la inferencia.

El entrenamiento de Arctic LLM duró aproximadamente tres meses y se emplearon 1.000 GPU por un coste de 2 millones de dólares. Los resultados de búsqueda no mencionan explícitamente el proceso de entrenamiento ni los datos utilizados para el mismo.

Características y rendimiento

Snowflake afirma que Arctic LLM supera a Databricks DBRX en tareas como la generación de código y SQL. Sin embargo, no se especifican los lenguajes de programación concretos para las tareas de codificación. También se dice que Arctic LLM es mejor en tareas de generación de código y SQL en comparación con Metas Llama 2 de 70 mil millones de parámetros, pero no con el más reciente Llama 3 de 70 mil millones de parámetros.

Apertura y disponibilidad

Snowflake subraya que es de código abierto Arctic LLM. Está disponible bajo una licencia Apache 2.0, lo que permite su uso para investigación y fines comerciales. Snowflake ha hecho que los pesos del modelo y el código de Arctic LLM estén disponibles en plataformas como Hugging Face, Microsoft Azure, el catálogo de API de Nvidia y otras. También proporciona recursos como tutoriales y guías para ayudar a los usuarios a comprender y utilizar Arctic LLM de manera efectiva.

En general, Snowflake Arctic se posiciona como un LLM abierto, de nivel empresarial, con una arquitectura única y un rendimiento optimizado para diversas tareas de PLN. Está diseñado para ser rentable y eficiente, manteniendo al mismo tiempo un alto rendimiento de inferencia. ⬆️

Claude 3

Autor: Anthropic.
Otros parámetros: Sin información específica disponible para Claude 3.

Los modelos de Claude 3 son una familia de modelos de lenguaje grande (LLM) de vanguardia desarrollados por Anthropic. Están diseñados para brindar a los usuarios la mejor experiencia posible al interactuar con la IA, ofreciendo una gama de capacidades y niveles de rendimiento para adaptarse a diferentes necesidades.

La familia Claude 3 incluye tres modelos en orden ascendente de capacidad: Claude 3 Haiku, Claude 3 Sonnet y Claude 3 Opus. Cada modelo sucesivo ofrece un rendimiento cada vez más potente, lo que permite a los usuarios seleccionar el equilibrio óptimo entre inteligencia, velocidad y coste para su aplicación específica.

Los modelos Claude 3 se han evaluado en una amplia gama de evaluaciones comparativas estándar de la industria para determinar su rendimiento en diversas tareas y capacidades, que incluyen razonamiento, codificación, comprensión multilingüe, manejo de contextos largos, honestidad y más.

Los modelos de la familia Claude 3 tienen capacidades de visión sofisticadas y pueden procesar una amplia variedad de formatos visuales, incluidas fotos, cuadros, gráficos y diagramas técnicos.

El modelo Claude 3 Opus es un modelo de lenguaje multimodal de vanguardia con un rendimiento superior en razonamiento, matemáticas, codificación y comprensión multilingüe.

Es importante tener en cuenta que la elección del modelo Claude 3 a utilizar depende de la complejidad del caso de uso y los requisitos específicos de latencia, coste y rendimiento. ⬆️

Grok-1

Autor: X (anteriormente Twitter).
Otros parámetros: Parte de la funcionalidad integrada en Twitter para asistencia con IA.

El modelo de lenguaje grande (LLM) Grok-1 es un modelo de código abierto publicado por X.ai bajo la licencia Apache 2.0. Con 314 mil millones de parámetros, es uno de los modelos de lenguaje más grandes disponibles públicamente hasta la fecha. Grok-1 se entrenó desde cero y finalizó su fase de preentrenamiento en octubre de 2023.

Grok-1 es un modelo base sin ajustes para aplicaciones específicas como el diálogo o los agentes conversacionales. Esta falta de especialización le permite ser potencialmente poderoso para una amplia gama de aplicaciones. Se han publicado los pesos del modelo y la arquitectura de red de Grok-1, lo que proporciona a los usuarios acceso al punto de control del modelo base sin procesar.

La publicación de Grok-1 marca un avance significativo en el campo de los modelos de lenguaje grande, y los primeros puntos de referencia sugieren que supera a modelos como Lamma MoE de 270 mil millones de parámetros e incluso a GPT-3.5 en tareas como GEM8K, MMLU, HumanEval y problemas matemáticos.

Es importante tener en cuenta que Grok-1 no es el mismo modelo que se utiliza para el asistente Grok AI. X.ai tiene modelos tanto de código abierto como propietarios en este momento.

Para obtener más información sobre Grok-1, puede consultar la tarjeta del modelo Grok-1 o visitar el repositorio de GitHub en github.com/xai-org/grok . ⬆️

Aguila

Autor: No especificado.
Otros parámetros: Sin información disponible.

El modelo de lenguaje Aguila es un modelo de lenguaje grande (LLM) de código abierto desarrollado por la Unidad de Tecnologías del Lenguaje del Barcelona Supercomputing Center. Tiene 7 mil millones de parámetros y ha sido preentrenado en 26 mil millones de tokens de datos de acceso abierto, incluyendo una mezcla de datos en español, catalán e inglés

Los parámetros en modelos de lenguaje grandes como Aguila son cruciales porque ayudan a controlar el comportamiento del modelo y determinan su rendimiento. El número de parámetros en un modelo afecta su capacidad para entender las sutilezas del lenguaje humano y generar respuestas precisas y matizadas. ⬆️

Categories:

Blog General LLM

Tags:

AI IA LLM

Comments are closed