LlaMA chat gratis en línea - No se necesita inicio de sesión
¿Qué es Llama?
Llama es una serie de modelos de lenguaje grande de última generación de Meta AI (Facebook). Con miles de millones de parámetros, Llama está diseñado para mejorar el razonamiento, la programación y una amplia gama de aplicaciones en varios idiomas y tareas.
Estamos viviendo en una era extraordinaria donde las iniciativas de código abierto, impulsadas por comunidades apasionadas, compiten de igual a igual con las costosas soluciones propietarias de los gigantes tecnológicos. Un ejemplo destacado de este progreso es el auge de modelos de lenguaje compactos pero altamente efectivos como Vicuna, Koala, Alpaca y StableLM. Estos modelos logran niveles de rendimiento comparables a ChatGPT mientras operan con recursos computacionales mínimos. Lo que los unifica es su base en los modelos LLaMA de Meta AI.
Para profundizar en otros avances notables de código abierto en tecnologías del lenguaje, consulta nuestro artículo sobre las 12 alternativas de código abierto a GPT-4.
En esta discusión, examinaremos los modelos LLaMA de Meta AI, sus capacidades y cómo acceder a ellos a través de la biblioteca transformers. También compararemos su rendimiento, destacaremos los principales desafíos y exploraremos sus limitaciones. Desde que se escribió este artículo por primera vez, Meta AI ha lanzado tanto LLaMA 2 como LLaMA 3, cada uno cubierto en artículos dedicados con información adicional.
Entendiendo LLaMA: El Gran Modelo de Lenguaje de Meta AI
LLaMA (Large Language Model Meta AI) es una serie de modelos de lenguaje fundamentales de vanguardia que varían en tamaño desde 7 mil millones hasta 65 mil millones de parámetros. A pesar de su naturaleza compacta, estos modelos ofrecen un rendimiento sobresaliente, reduciendo las demandas computacionales para que investigadores y desarrolladores puedan experimentar, verificar trabajos existentes y explorar aplicaciones innovadoras.
Estos modelos fundamentales se han entrenado con extensos conjuntos de datos no etiquetados, lo que los hace altamente adaptables para el ajuste fino en diversas tareas. Las fuentes de datos de entrenamiento incluyen:
- 67.0% CommonCrawl
- 15.0% C4
- 4.5% GitHub
- 4.5% Wikipedia
- 4.5% Libros
- 2.5% ArXiv
- 2.0% StackExchange
Gracias a este conjunto de datos diverso, los modelos LLaMA han alcanzado un rendimiento comparable al de modelos de primer nivel como Chinchilla-70B y PaLM-540B, consolidando su lugar entre los modelos de lenguaje de IA con mejor desempeño en la actualidad.
Entendiendo el modelo LLaMA de Meta
LLaMA es un modelo de lenguaje auto-regresivo basado en la arquitectura transformer. Al igual que otros modelos avanzados, procesa una secuencia de palabras como entrada y predice la siguiente palabra, lo que permite la generación recursiva de texto.
Lo que hace único a LLaMA es su extenso entrenamiento en datos textuales de acceso público en múltiples idiomas, incluyendo búlgaro, catalán, checo, danés, alemán, inglés, español, francés, croata, húngaro, italiano, neerlandés, polaco, portugués, rumano, ruso, esloveno, serbio, sueco y ucraniano. Con la introducción de LLaMA 2 en 2024, las mejoras en arquitectura y técnicas de entrenamiento fortalecieron aún más su eficiencia y capacidad multilingüe.
Disponible en diferentes tamaños —7B, 13B, 33B y 65B parámetros— los modelos LLaMA pueden accederse a través de Hugging Face (para compatibilidad con Transformers) o mediante el repositorio oficial en facebookresearch/llama.
Cómo empezar con los modelos LLaMA
El código oficial de inferencia está disponible en el repositorio facebookresearch/llama, pero para simplificar las cosas, utilizaremos la biblioteca transformers de Hugging Face para cargar el modelo y generar texto.
1. Instalar las bibliotecas necesarias
Ejecutaremos la inferencia de LLaMA utilizando Google Colab.
%%capture
%pip install transformers SentencePiece accelerate
2. Cargar los tokens y pesos del modelo LLaMA
Nota: 'decapoda-research/llama-7b-hf' no es el peso oficial del modelo. Decapoda Research ha adaptado el modelo original para funcionar con la biblioteca Transformers.
import transformers, torch
from transformers import LlamaTokenizer, LlamaForCausalLM, GenerationConfig
tokenizer = LlamaTokenizer.from_pretrained("decapoda-research/llama-7b-hf")
model = LlamaForCausalLM.from_pretrained(
"decapoda-research/llama-7b-hf",
load_in_8bit=False,
torch_dtype=torch.float16,
device_map="auto",
)
3. Definir la pregunta
4. Convertir el texto en tokens
5. Configurar los parámetros de generación del modelo
6. Generar la salida de texto
7. Decodificar e imprimir la respuesta
instruction = "What is the speed of light?"
inputs = tokenizer(
f"""Below is an instruction that describes a task. Write a response that appropriately completes the request.
### Instruction: {instruction}
### Response:""",
return_tensors="pt",
)
input_ids = inputs["input_ids"].to("cuda")
generation_config = transformers.GenerationConfig(
do_sample=True,
temperature=0.1,
top_p=0.75,
top_k=80,
repetition_penalty=1.5,
max_new_tokens=128,
)
with torch.no_grad():
generation_output = model.generate(
input_ids=input_ids,
attention_mask=torch.ones_like(input_ids),
generation_config=generation_config,
)
output_text = tokenizer.decode(
generation_output[0].cuda(), skip_special_tokens=True
).strip()
print(output_text)
Salida:
El modelo determina con precisión que la velocidad de la luz en el vacío es aproximadamente 299,792,458 metros por segundo.
Below is an instruction that describes a task. Write a response that appropriately completes the request.
### Instruction: What is the speed of light?
### Response: The speed of light in a vacuum is exactly 299,792,458 meters per second (approximately 186,282 miles per second). This value is a fundamental constant in physics and plays a crucial role in theories like relativity. Scientists have verified this speed through numerous experiments over the years.
El modelo LLaMA, junto con la biblioteca Transformers, también puede ajustarse para diversas tareas y conjuntos de datos, mejorando significativamente la precisión y el rendimiento.
¿En qué se destaca LLaMA frente a otros modelos de IA?
El artículo de investigación ofrece una comparación detallada de los modelos LLaMA con modelos de lenguaje de primer nivel como GPT-3, GPT-NeoX, Gopher, Chinchilla y PaLM. Se realizaron diversas pruebas de referencia para evaluar su rendimiento en áreas como razonamiento común, trivia, comprensión lectora, respuesta a preguntas, resolución de problemas matemáticos, generación de código y conocimiento especializado.
Razonamiento Común
En pruebas de referencia como PIQA, SIQA y OpenBookQA, el modelo LLaMA-65B superó a otras arquitecturas de última generación. Además, incluso el modelo más pequeño, LLaMA-33B, destacó en ARC (tanto en la versión fácil como difícil) en comparación con sus competidores.
Preguntas Cerradas y Trivia
Al evaluar la capacidad del modelo para interpretar y responder preguntas realistas, LLaMA superó consistentemente a GPT-3, Gopher, Chinchilla y PaLM en las evaluaciones Natural Questions y TriviaQA.
Comprensión Lectora
Usando las pruebas de referencia RACE-middle y RACE-high, LLaMA demostró un mejor rendimiento que GPT-3 y mostró resultados comparables a PaLM 540B.
Razonamiento Matemático
Como LLaMA no fue ajustado con datos matemáticos, su rendimiento en este ámbito fue inferior al esperado, quedando detrás de Minerva.
Generación de Código
Evaluado mediante los benchmarks HumanEval y MBPP, LLaMA obtuvo puntuaciones más altas que LAMDA y PaLM en HumanEval@100, MBP@1 y MBP@80.
Conocimiento de Dominio
En cuanto al conocimiento de dominio amplio, los modelos LLaMA quedaron por debajo del extenso modelo PaLM 540B, que se beneficia de un número significativamente mayor de parámetros.
Desafíos y Limitaciones de LLaMA
Al igual que otros grandes modelos de lenguaje, LLaMA es propenso a alucinaciones, generando a veces información inexacta o engañosa.
Además de eso, existen otros desafíos:
- Limitaciones de Idioma: Dado que la mayoría de los datos de entrenamiento están en inglés, el rendimiento de LLaMA en otros idiomas puede no ser tan sólido.
- Uso Enfocado en Investigación: LLaMA está diseñado principalmente para fines de investigación bajo una licencia no comercial. Su lanzamiento busca ayudar a los investigadores a abordar sesgos, riesgos y problemas relacionados con contenido tóxico, alucinaciones y seguridad del modelo.
- No Listo para Producción: Como modelo base, LLaMA no debe usarse en aplicaciones sin una evaluación de riesgos y estrategias de mitigación adecuadas.
- Debilidad en Razonamiento Matemático y Específico de Dominio: El modelo tiene dificultades con problemas matemáticos complejos y carece de conocimiento profundo en dominios específicos.
Para conocer los avances en IA, incluyendo OpenAI, Google AI y su impacto en la ciencia de datos, consulta 'Lo Último sobre OpenAI, Google AI y lo que significa para la Ciencia de Datos'. El blog explora avances de vanguardia en tecnologías de lenguaje, visión y multimodales que mejoran la productividad y la eficiencia.
Con el lanzamiento de LLaMA 2 y LLaMA 3, se han identificado nuevas limitaciones, aunque se han logrado mejoras, especialmente en la longitud del contexto y la adaptabilidad mediante ajuste fino. A medida que la investigación continúa, la comunidad de IA trabaja activamente para mejorar la solidez y aplicabilidad real de estos modelos.
Conclusión
La aparición de los modelos LLaMA ha marcado una era transformadora en la investigación de IA de código abierto. En particular, los modelos compactos LLaMA-3 y LLaMA-4 superan a GPT-3 y GPT-4, mientras que el más grande, LLaMA-65B, demuestra capacidades comparables a modelos avanzados como Chinchilla-70B y PaLM-540B. Estos avances subrayan la viabilidad de lograr un rendimiento de primer nivel utilizando conjuntos de datos públicos y un poder computacional mínimo.
Además, el estudio enfatiza el impacto del ajuste fino basado en instrucciones para mejorar el rendimiento de LLaMA. Modelos como Vicuna y Stanford Alpaca, refinados mediante conjuntos de datos de seguimiento de instrucciones, han mostrado resultados comparables a ChatGPT y Bard, demostrando el enorme potencial de este enfoque.
Preguntas Frecuentes (FAQ)
Etiquetas: chat llama gratis en línea, llama 3 gratis, llama 3.3, llama 4 en línea, 70b