LLaMA-chat gratis på nett - Ingen pålogging nødvendig
Hva er Llama?
Llama er en avansert serie store språkmodeller fra Meta AI (Facebook). Med milliarder av parametere er Llama designet for forbedret resonnement, koding og bred anvendelse på flere språk og oppgaver.
Vi lever i en ekstraordinær tid hvor åpen kildekode-initiativ, drevet av engasjerte fellesskap, står på lik linje med dyre proprietære løsninger fra teknologigiganter. Et godt eksempel på denne utviklingen er fremveksten av kompakte, men svært effektive språkmodeller som Vicuna, Koala, Alpaca og StableLM. Disse modellene oppnår ytelsesnivåer som kan sammenlignes med ChatGPT, samtidig som de krever minimale datakraftressurser. Det som forener dem er at de bygger på Meta AIs LLaMA-modeller.
For en dypere gjennomgang av andre bemerkelsesverdige fremskritt innen åpen kildekode-språkteknologi, sjekk artikkelen vår om de 12 GPT-4 Open-Source-alternativene.
I denne diskusjonen vil vi undersøke Meta AIs LLaMA-modeller, deres kapasitet, og hvordan man får tilgang til dem via transformers-biblioteket. Vi vil også sammenligne ytelsen deres, fremheve nøkkelutfordringer og utforske begrensningene. Siden denne artikkelen først ble skrevet, har Meta AI introdusert både LLaMA 2 og LLaMA 3 — hver av dem dekkes i egne artikler med ytterligere innsikt.
Forstå LLaMA: Meta AIs store språkmodell
LLaMA (Large Language Model Meta AI) er en serie banebrytende grunnleggende språkmodeller med størrelser fra 7 milliarder til 65 milliarder parametere. Til tross for deres kompakte natur, leverer disse modellene fremragende ytelse, og reduserer datakraftbehovet for forskere og utviklere som ønsker å eksperimentere, verifisere eksisterende arbeid og utforske innovative anvendelser.
Disse grunnleggende modellene er trent på omfattende umerkede datasett, noe som gjør dem svært tilpasningsdyktige for finjustering på ulike oppgaver. Kildene til treningsdataene inkluderer:
- 67,0 % CommonCrawl
- 15,0 % C4
- 4,5 % GitHub
- 4,5 % Wikipedia
- 4,5 % Bøker
- 2,5 % ArXiv
- 2,0 % StackExchange
Takket være dette mangfoldige datasettet, har LLaMA-modellene oppnådd ytelse på nivå med toppmodeller som Chinchilla-70B og PaLM-540B, og befester deres plass blant de best presterende AI-språkmodellene tilgjengelig i dag.
Forstå Metas LLaMA-modell
LLaMA er en autoregressiv språkmodell basert på transformer-arkitekturen. Som andre avanserte modeller, behandler den en sekvens av ord som input og forutsier neste ord, noe som muliggjør rekursiv tekstgenerering.
Det som gjør LLaMA unik er dens omfattende trening på offentlig tilgjengelige tekstdata på flere språk, inkludert bulgarsk, katalansk, tsjekkisk, dansk, tysk, engelsk, spansk, fransk, kroatisk, ungarsk, italiensk, nederlandsk, polsk, portugisisk, rumensk, russisk, slovensk, serbisk, svensk og ukrainsk. Med introduksjonen av LLaMA 2 i 2024 har forbedringer i arkitektur og treningsteknikker ytterligere styrket effektiviteten og flerspråklige ferdigheter.
Tilgjengelig i ulike størrelser—7B, 13B, 33B og 65B parametere—kan LLaMA-modeller aksesseres via Hugging Face (for kompatibilitet med Transformers) eller gjennom den offisielle repositoryen på facebookresearch/llama.
Kom i gang med LLaMA-modeller
Den offisielle inferenskoden er tilgjengelig i facebookresearch/llama-repositoryen, men for å forenkle ting vil vi bruke Hugging Face transformers-biblioteket for å laste modellen og generere tekst.
1. Installer nødvendige biblioteker
Vi vil kjøre LLaMA-inferens ved hjelp av Google Colab.
%%capture
%pip install transformers SentencePiece accelerate
2. Last inn LLaMA-tokens og modellvekter
Merk: 'decapoda-research/llama-7b-hf' er ikke den offisielle modellvekten. Decapoda Research har tilpasset den originale modellen til å fungere med Transformers-biblioteket.
import transformers, torch
from transformers import LlamaTokenizer, LlamaForCausalLM, GenerationConfig
tokenizer = LlamaTokenizer.from_pretrained("decapoda-research/llama-7b-hf")
model = LlamaForCausalLM.from_pretrained(
"decapoda-research/llama-7b-hf",
load_in_8bit=False,
torch_dtype=torch.float16,
device_map="auto",
)
3. Definer spørsmålet
4. Konverter tekst til tokens
5. Sett modellens generasjonskonfigurasjon
6. Generer tekstutdata
7. Dekod og skriv ut svaret
instruction = "What is the speed of light?"
inputs = tokenizer(
f"""Below is an instruction that describes a task. Write a response that appropriately completes the request.
### Instruction: {instruction}
### Response:""",
return_tensors="pt",
)
input_ids = inputs["input_ids"].to("cuda")
generation_config = transformers.GenerationConfig(
do_sample=True,
temperature=0.1,
top_p=0.75,
top_k=80,
repetition_penalty=1.5,
max_new_tokens=128,
)
with torch.no_grad():
generation_output = model.generate(
input_ids=input_ids,
attention_mask=torch.ones_like(input_ids),
generation_config=generation_config,
)
output_text = tokenizer.decode(
generation_output[0].cuda(), skip_special_tokens=True
).strip()
print(output_text)
Utdata:
Modellen fastslår nøyaktig at lyshastigheten i vakuum er omtrent 299 792 458 meter per sekund.
Below is an instruction that describes a task. Write a response that appropriately completes the request.
### Instruction: What is the speed of light?
### Response: The speed of light in a vacuum is exactly 299,792,458 meters per second (approximately 186,282 miles per second). This value is a fundamental constant in physics and plays a crucial role in theories like relativity. Scientists have verified this speed through numerous experiments over the years.
LLaMA-modellen, sammen med Transformers-biblioteket, kan også finjusteres for ulike oppgaver og datasett, noe som betydelig forbedrer nøyaktighet og ytelse.
Hva gjør LLaMA unik sammenlignet med andre AI-modeller?
Forskningartikkelen tilbyr en grundig sammenligning av LLaMA-modeller med toppmodeller som GPT-3, GPT-NeoX, Gopher, Chinchilla og PaLM. Ulike benchmark-tester ble gjennomført for å evaluere ytelsen i områder som sunn fornuft-resonnering, trivia, leseferdigheter, spørsmål-svar, matematiske problemstillinger, kodegenerering og domene-spesifikk kunnskap.
Sunn fornuft-resonnering
I benchmark-tester som PIQA, SIQA og OpenBookQA overgikk LLaMA-65B andre toppmodeller. Selv den mindre LLaMA-33B-modellen utmerket seg i ARC (både lett og vanskelig) sammenlignet med sine motparter.
Spørsmål og trivia med lukket bok
Ved å evaluere modellens evne til å tolke og svare på realistiske spørsmål, presterte LLaMA konsekvent bedre enn GPT-3, Gopher, Chinchilla og PaLM i Natural Questions og TriviaQA.
Leseforståelse
Ved bruk av RACE-middle og RACE-high benchmark-tester viste LLaMA bedre ytelse enn GPT-3 og resultater sammenlignbare med PaLM 540B.
Matematisk resonnement
Siden LLaMA ikke ble finjustert på matematikkdata, presterte den under forventningene i dette domenet, bak Minerva.
Kodegenerering
Vurdert gjennom HumanEval og MBPP benchmarks, oppnådde LLaMA høyere poeng enn LAMDA og PaLM i HumanEval@100, MBP@1 og MBP@80.
Domene-spesifikk kunnskap
Når det gjelder bred domene-kunnskap, kom LLaMA-modeller til kort sammenlignet med den omfattende PaLM 540B-modellen, som har et betydelig større antall parametere.
Utfordringer og begrensninger med LLaMA
Som andre store språkmodeller er LLaMA utsatt for hallusinasjoner, og kan noen ganger generere unøyaktig eller misvisende informasjon.
I tillegg finnes flere andre utfordringer:
- Språkbegrensninger: Siden mesteparten av treningsdataene er på engelsk, kan LLaMAs ytelse på andre språk være svakere.
- Forskningsfokusert bruk: LLaMA er primært designet for forskningsformål under en ikke-kommersielt lisens. Målet med utgivelsen er å hjelpe forskere med å adressere skjevheter, risiko og spørsmål knyttet til giftig innhold, hallusinasjoner og modelsikkerhet.
- Ikke produksjonsklar: Som grunnmodell bør LLaMA ikke brukes i applikasjoner uten grundig risikovurdering og tiltak.
- Svakhet i matematisk og domene-spesifikt resonnement: Modellen sliter med komplekse matematiske problemer og mangler dyp ekspertise innen spesifikke domener.
For innsikt i utviklingen innen AI, inkludert OpenAI, Google AI, og deres innvirkning på data science, sjekk The Latest On OpenAI, Google AI, and What It Means for Data Science. Bloggen utforsker banebrytende fremskritt innen språk, visjon og multimodale teknologier som øker produktivitet og effektivitet.
Med utgivelsen av LLaMA 2 og LLaMA 3 er nye begrensninger identifisert, selv om forbedringer er gjort, spesielt når det gjelder kontekstlengde og tilpasningsevne gjennom finjustering. Etter hvert som forskningen fortsetter, arbeider AI-fellesskapet aktivt for å forbedre robusthet og reell brukbarhet av disse modellene.
Konklusjon
Fremveksten av LLaMA-modeller har introdusert en transformerende epoke innen åpen kildekode AI-forskning. Spesielt overstiger den kompakte LLaMA-3 og LLaMA-4 modellen GPT-3 og GPT-4, mens den større LLaMA-65B demonstrerer evner på nivå med avanserte modeller som Chinchilla-70B og PaLM-540B. Disse gjennombruddene understreker muligheten for å oppnå toppytelse med offentlig tilgjengelige datasett og minimal datakraft.
Videre fremhever studien effekten av instruksjonsbasert finjustering for å forbedre LLaMAs ytelse. Modeller som Vicuna og Stanford Alpaca, raffinert gjennom instruksjonsbaserte datasett, har vist resultater sammenlignbare med ChatGPT og Bard, og viser det enorme potensialet i denne tilnærmingen.
Ofte stilte spørsmål (FAQ)
Tags: chat llama gratis på nett, gratis llama 3, llama 3.3, llama 4 online, 70b