¿Qué son los modelos de lenguaje grandes (LLMs)?

Definición de modelo de lenguaje grande

Un modelo de lenguaje grande (LLM) es un algoritmo de aprendizaje profundo que puede realizar una variedad de tareas de procesamiento de lenguaje natural (NLP). Los modelos de lenguaje grandes usan modelos de transformadores y se entrenan con sets de datos enormes, de ahí la palabra "grandes". Esto les permite reconocer, traducir, predecir o generar texto u otro contenido.

Los modelos de lenguaje grandes también se denominan redes neuronales (NN), que son sistemas informáticos inspirados en el cerebro humano. Estas redes neuronales funcionan con una red de nodos en capas, similar a las neuronas.

Además de enseñar lenguajes humanos a aplicaciones de inteligencia artificial (AI), los modelos de lenguaje grandes también pueden entrenarse para realizar una variedad de tareas, como comprender las estructuras de proteínas, escribir código de software y más. Tal como el cerebro humano, los modelos de lenguaje grandes deben preentrenarse y luego ajustarse para poder resolver problemas de clasificación de textos, respuesta a preguntas, resumen de documentos y generación de texto. Sus capacidades de solución de problemas pueden aplicarse a campos como la salud, las finanzas y el entretenimiento, en donde los modelos de lenguaje grandes se usan para una variedad de aplicaciones de NLP, como traducción, chatbots, asistentes de AI, etc.

Los modelos de lenguaje grandes también tienen grandes cantidades de parámetros que son semejantes a recuerdos que recopila el modelo a medida que aprende del entrenamiento. Piensa en estos parámetros como el banco de conocimientos del modelo.

Mira este video y profundiza sobre los LLM.

Entonces, ¿qué es un modelo de transformadores?

Un modelo de transformadores es la arquitectura más común de un modelo de lenguaje grande. Consiste en un codificador y un decodificador. Un modelo de transformadores procesa datos tokenizando la entrada y luego, simultáneamente, realizando ecuaciones matemáticas para descubrir relaciones entre los tokens. Esto permite a la computadora ver los patrones que un humano vería si recibiera la misma búsqueda.

Los modelos de transformadores trabajan con mecanismos de autoatención, lo que permite al modelo aprender con más rapidez que los modelos tradicionales, como los modelos de memoria de corto/largo plazo. La autoatención es lo que permite al modelo de transformadores considerar distintas partes de la secuencia o el contexto completo de una oración para generar predicciones.

Relacionado: Aplica transformadores a tus aplicaciones de búsqueda

Componentes clave de modelos de lenguaje grandes

Los modelos de lenguaje grandes están compuestos de varias capas de redes neuronales. Las capas recurrentes, capas feedforward (unidireccionales), capas de incrustación y capas de atención trabajan en conjunto para procesar el texto de entrada y generar contenido de salida.

La capa de incrustación crea incrustaciones desde el texto de entrada. Esta parte del modelo de lenguaje grande captura el significado semántico y sintáctico de la entrada, de modo que el modelo puede comprender el contexto.

La capa feedforward (FFN) de un modelo de lenguaje grande está compuesta por varias capas completamente conectadas que transforman las incrustaciones de entrada. Al hacerlo, estas capas permiten al modelo obtener abstracciones de nivel más alto; es decir, comprender la intención del usuario con la entrada de texto.

La capa recurrente interpreta las palabras en el texto de entrada en secuencia. Captura la relación entre las palabras en una oración.

El mecanismo de atención permite a un modelo de lenguaje enfocarse en partes individuales del texto de entrada que son relevantes para la tarea en cuestión. Esta capa permite al modelo generar las salidas más precisas.

Existen tres tipos principales de modelos de lenguaje grandes:

Los modelos de lenguaje genéricos o sin procesar predicen la palabra siguiente según el lenguaje en los datos de entrenamiento. Estos modelos de lenguaje realizan tareas de recuperación de la información.
Los modelos de lenguaje ajustados mediante instrucciones se entrenan para predecir respuestas a las instrucciones dadas en la entrada. Esto les permite realizar el análisis de sentimiento o generar texto o código.
Los modelos de lenguaje ajustados mediante diálogo se entrenan para tener un diálogo mediante la predicción de la próxima respuesta. Piensa en los chatbots o en la AI conversacional.

¿Cuál es la diferencia entre los modelos de lenguaje grandes y la AI generativa?

La AI generativa es un término general que se refiere a los modelos de inteligencia artificial que tienen la capacidad de generar contenido. La AI generativa puede generar texto, código, imágenes, video y música. Algunos ejemplos de AI generativa incluyen Midjourney, DALL-E y ChatGPT.

Los modelos de lenguaje grandes son un tipo de AI generativa que se entrenan con texto y producen contenido de texto. ChatGPT es un ejemplo popular de AI generativa de texto.

Todos los modelos de lenguaje grandes son AI generativa¹.

¿Cómo funcionan los modelos de lenguaje grandes?

Un modelo de lenguaje grande se basa en un modelo de transformadores, y funciona recibiendo una entrada, codificándola y luego decodificándola para producir una predicción de salida. Pero para que un modelo de lenguaje grande pueda recibir la entrada de texto y generar una predicción de salida, se debe entrenar para poder realizar funciones generales y se debe ajustar, lo que le permite realizar tareas específicas.

Entrenamiento: Los modelos de lenguaje grandes se preentrenan usando grandes conjuntos de datos textuales de sitios como Wikipedia, GitHub u otros. Estos conjuntos de datos consisten en billones de palabras, y su calidad afectará el rendimiento del modelo de lenguaje. En este punto, el modelo de lenguaje grande realiza un aprendizaje no supervisado, lo que significa que procesa los sets de datos que se le proporcionan sin instrucciones específicas. Durante este proceso, el algoritmo de AI del LLM puede aprender el significado de las palabras y de las relaciones entre ellas. También aprende a distinguir palabras según el contexto. Por ejemplo, aprenderá a comprender si "right" significa "correcto" o lo opuesto de "left".

Ajuste: Para que un modelo de lenguaje grande realice una tarea específica, como la traducción, debe ajustarse a esa actividad en particular. El ajuste optimiza el rendimiento de tareas específicas.

El ajuste de solicitudes cumple una función similar a la del ajuste, por el cual entrenas un modelo para realizar una tarea específica a través de few-shot prompting o zero-shot prompting. Una solicitud es una instrucción dada a un LLM. Few-shot prompting enseña al modelo a predecir salidas a través del uso de ejemplos. Por ejemplo, en este ejercicio de análisis de sentimiento, un few-shot prompt se vería así:

Reseña del cliente: ¡Esta planta es tan hermosa!
Sentimiento del cliente: positivo

Reseña del cliente: ¡Esta planta es tan horrible!
Sentimiento del cliente: negativo

El modelo de lenguaje entendería, a través de la semántica, el significado de "hideous", y como se proporcionó un ejemplo opuesto, que el sentimiento del cliente en el segundo ejemplo es negativo.

Como alternativa, el zero-shot prompting no usa ejemplos para enseñar al modelo de lenguaje cómo responder a las entradas. En cambio, formula la pregunta como "El sentimiento en ‘This plant is so hideous' es…". Indica claramente qué tarea debe realizar el modelo de lenguaje, pero no proporciona ejemplos de resolución de problemas.

Casos de uso de modelos de lenguaje grandes

Los modelos de lenguaje grandes pueden usarse con varios fines:

Recuperación de información: Piensa en Bing o en Google. Cuando usas su característica de búsqueda, dependes de un modelo de lenguaje grande para que produzca información en respuesta a una búsqueda. Puede recuperar información, luego resumirla y comunicar la respuesta en un estilo conversacional.
Análisis de sentimiento: Como aplicaciones de procesamiento de lenguaje natural, los modelos de lenguaje grandes permiten a las empresas analizar el sentimiento de datos de texto.
Generación de texto: Los modelos de lenguaje grandes están detrás de la AI generativa, como ChatGPT, y pueden generar texto basado en las entradas. Pueden producir un ejemplo de texto cuando se les solicita. Por ejemplo: "Escríbeme un poema sobre palmeras al estilo de Emily Dickinson".
Generación de código: Al igual que la generación de texto, la generación de código es una aplicación de la AI generativa. Los LLM comprenden patrones, lo que les permite generar código.
Chatbots y AI conversacional: Los modelos de lenguaje grandes permiten a los chatbots de atención al cliente o a la AI conversacional interactuar con los clientes, interpretar el significado de sus búsquedas o respuestas y, a su vez, ofrecer respuestas.

Relacionado: Cómo hacer un chatbot: qué deben hacer qué no deben hacer los desarrolladores

Además de estos casos de uso, los modelos de lenguaje grandes pueden completar oraciones, responder preguntas y resumir texto.

Con una variedad tan amplia de aplicaciones, las aplicaciones de lenguaje grandes pueden encontrarse en una gran variedad de campos:

Tecnología: Los modelos de lenguaje grandes se usan en cualquier parte, desde habilitar motores de búsqueda para responder a consultas, hasta asistir a desarrolladores en la escritura de código.
Sanidad y ciencia: Los modelos de lenguaje grandes tienen la capacidad de comprender proteínas, moléculas, ADN y ARN. Esta posición permite a los LLM ayudar en el desarrollo de vacunas, el hallazgo de curas para enfermedades y la mejora de los medicamentos de atención preventiva. Los LLM también se usan como chatbots médicos para realizar diagnósticos básicos o la admisión de pacientes.
Atención al cliente: Los LLM se usan en todas las industrias para fines de servicio de atención al cliente, como chatbots o AI conversacional.
Marketing: Los equipos de marketing pueden usar los LLM para hacer análisis de sentimientos, a fin de generar rápidamente ideas de campaña o textos como ejemplos de presentación, y mucho más.
Legal: Desde la búsqueda en grandes sets de datos de texto hasta la generación de jerga legal, los modelos de lenguaje grandes pueden asistir a los abogados, asistentes legales y personal legal.
Banca: Los LLM pueden brindar soporte a las compañías de tarjetas de crédito en la detección de fraude.

Da el primer paso con la AI generativa en el ámbito empresarial. Mira este webinar y explora los desafíos y oportunidades de la AI generativa en tu entorno empresarial.

Beneficios de modelos de lenguaje grandes

Con un amplio rango de aplicaciones, los modelos de lenguaje grandes son excepcionalmente beneficiosos para la solución de problemas, dado que brindan información en un estilo claro y conversacional que es fácil de comprender para los usuarios.

Amplio conjunto de aplicaciones: Pueden usarse para traducción de idiomas, completar oraciones, análisis de sentimientos, responder preguntas, resolver ecuaciones matemáticas y más.

Siempre mejorando: El rendimiento de los modelos de lenguaje grandes mejora continuamente porque crece cuando se agregan más datos y parámetros. En otras palabras, cuanto más aprende, mejor se vuelve. Además, los modelos de lenguaje grandes pueden mostrar lo que se denomina "aprendizaje en contexto". Una vez que se preentrenó un LLM, few-shot prompting permite al modelo aprender de la solicitud sin parámetros adicionales. De este modo, aprende continuamente.

Aprenden rápido: Al demostrar aprendizaje en contexto, los modelos de lenguaje grandes aprenden rápido porque no requieren ponderación adicional, recursos ni parámetros adicionales para el entrenamiento. Es rápido en el sentido de que no requiere demasiados ejemplos.

Limitaciones y desafíos de los LLM

Los modelos de lenguaje grandes pueden darnos la impresión de que comprenden el significado y pueden responder a este con precisión. Sin embargo, siguen siendo una herramienta tecnológica y, como tal, los modelos de lenguaje grandes se enfrentan a una variedad de desafíos.

Alucinaciones: Una alucinación se produce cuando un LLM genera una salida que es falsa o que no coincide con la intención del usuario. Por ejemplo, alega ser humano, que tiene emociones o que está enamorado del usuario. Como los modelos de lenguaje grandes predicen la siguiente palabra o frase sintácticamente correcta, no pueden interpretar por completo el significado humano. En ocasiones, el resultado puede ser lo que se conoce como una "alucinación".

Seguridad: Los modelos de lenguaje grandes presentan importantes riesgos de seguridad cuando no se gestionan o supervisan adecuadamente. Pueden filtrar información privada de las personas, participar en fraudes de phishing y producir spam. Los usuarios con intenciones malintencionadas pueden programar la AI conforme a sus ideologías o sesgos, y contribuir a la distribución de información errónea. Las repercusiones pueden ser devastadoras a escala global.

Sesgo: Los datos usados para entrenar modelos de lenguaje afectarán las salidas que produce un modelo dado. De este modo, si los datos representan una sola demografía o no tienen suficiente diversidad, las salidas que produzca el modelo de lenguaje grande también carecerán de diversidad.

Consentimiento: Los modelos de lenguaje grandes se entrenan con billones de sets de datos, algunos de los cuales podrían no haberse obtenido de forma consensuada. Al raspar datos de internet, se sabe que los modelos de lenguaje grandes ignoran las licencias de derechos de autor, plagian el contenido escrito y reutilizan contenido confidencial sin obtener permiso de los artistas o propietarios originales. Cuando produce resultados, no hay forma de rastrear la procedencia de los datos y, en general, no se da crédito a los creados, lo cual puede exponer a los usuarios a problemas por infringir los derechos de autor.

También es posible que raspen datos personales, como nombres de sujetos o fotógrafos de las descripciones de las fotos, lo cual puede comprometer la privacidad.² Los LLM ya han enfrentado demandas, incluida una destacada de Getty Images³, por infringir la propiedad intelectual.

Escalado: Puede ser difícil y demandar mucho tiempo y recursos escalar y mantener modelos de lenguaje grandes.

Despliegue: Desplegar modelos de lenguaje grandes requiere aprendizaje profundo, un modelo de transformadores, hardware y software distribuidos, y experiencia técnica general.

Ejemplos de modelos de lenguaje grandes populares

Los modelos de lenguaje grandes populares han conquistado el mundo. Muchos han sido adoptados por personas en todas las industrias. Sin dudas, has oído hablar de ChatGPT, una forma de chatbot de AI generativa.

Otros modelos de LLM populares son los siguientes:

PaLM: El Pathways Language Model (PaLM) de Google es un modelo de lenguaje de transformadores capaz de realizar razonamientos aritméticos y de sentido común, explicar bromas, generar código y traducir.
BERT: El modelo de lenguaje Representaciones de Codificador Bidireccional de Transformadores (BERT) también se desarrolló en Google. Es un modelo basado en transformadores que puede comprender el lenguaje natural y responder preguntas.
XLNet: un modelo de lenguaje de permutación, XLNet generó predicciones de salida en un orden aleatorio, lo que lo distingue de BERT. Evalúa el patrón de tokens codificados y luego predice los tokens en orden aleatorio, en lugar de en un orden secuencial.
GPT: Los transformadores generativos preentrenados son quizá los modelos de lenguaje grandes más conocidos. Desarrollado por OpenAI, GPT es un modelo fundacional popular cuyas iteraciones numeradas son mejoras de sus predecesores (GPT-3, GPT-4, etc.). Se puede ajustar para realizar tareas específicas en pasos posteriores. Algunos ejemplos de esto son EinsteinGPT, desarrollado por Salesforce para CRM, y BloombergGPT de Bloomberg para finanzas.

Relacionado: Guía de inicio para los LLM de código abierto de 2024

Futuros avances en los modelos de lenguaje grandes

La llegada de ChatGPT ha llevado a los modelos de lenguaje grandes al primer plano y ha activado la especulación y el debate acalorado sobre cómo podría verse el futuro.

A medida que los modelos de lenguaje grandes continúan creciendo y mejorando su manejo del lenguaje natural, hay mucha inquietud con respecto al impacto de sus avances en el mercado laboral. Está claro que los modelos de lenguaje grandes desarrollarán la capacidad para reemplazar trabajadores en ciertos campos.

En las manos adecuadas, los modelos de lenguaje grandes tienen la capacidad de aumentar la productividad y la eficiencia de los procesos, pero esto ha planteado interrogantes sobre su uso en la sociedad humana.

Relacionado: Guía de los LLM de código abierto de 2024

Presentación de Elasticsearch Relevance Engine

Para abordar las limitaciones actuales de los LLM, Elasticsearch Relevance Engine (ESRE) es un motor de relevancia creado para aplicaciones de búsqueda impulsadas por inteligencia artificial. Con ESRE, los desarrolladores están facultados para crear su propia aplicación de búsqueda semántica, utilizar sus propios modelos de transformadores y combinar NLP y AI generativa para mejorar la experiencia de búsqueda de sus clientes.

Potencia tu relevancia con Elasticsearch Relevance Engine

Diagrama que muestra cómo Elasticsearch utiliza un modelo de lenguaje grande para proporcionar resultados de consultas de búsqueda.

Explora más recursos de modelos de lenguaje grandes

Notas al pie

¹ Myer, Mike. “Are Generative AI and Large Language Models the Same Thing?” Quiq, 12 May 2023, quiq.com/blog/generative-ai-vs-large-language-models/.

² Sheng, Ellen. “In generative AI legal Wild West, the courtroom battles are just getting started,” CNBC, 3 de abril de 2023, https://www.cnbc.com/2023/04/03/in-generative-ai-legal-wild-west-lawsuits-are-just-getting-started.html (Último acceso el 29 de junio de 2023)

³ Getty Images Statement, Getty Images, 17 de enero de 2023 https://newsroom.gettyimages.com/en/getty-images/getty-images-statement (Consultado el 29 de junio de 2023)