چت LlaMA به صورت آنلاین و رایگان - بدون نیاز به ورود
Llama چیست؟
Llama یک مدل زبان بزرگ و پیشرفته از Meta AI (فیسبوک) است. با میلیاردها پارامتر، Llama برای استدلال پیشرفته، کدنویسی، و کاربردهای متنوع در زبانها و وظایف مختلف طراحی شده است.
ما در عصری خارقالعاده زندگی میکنیم که در آن پروژههای متنباز، با قدرت جوامع پرشور، همپای راهحلهای اختصاصی و گرانقیمت غولهای فناوری پیش میروند. نمونه بارز این پیشرفت، ظهور مدلهای زبانی فشرده اما بسیار قدرتمندی مانند Vicuna، Koala، Alpaca و StableLM است. این مدلها با منابع محاسباتی اندک، عملکردی مشابه ChatGPT ارائه میدهند. وجه اشتراک همه آنها، پایهگذاریشان بر اساس مدلهای LLaMA متعلق به Meta AI است.
برای آشنایی بیشتر با دیگر پیشرفتهای متنباز در حوزه فناوریهای زبانی، مقاله ما درباره «۱۲ جایگزین متنباز برای GPT-4» را مطالعه کنید.
در این مطلب، مدلهای LLaMA از Meta AI، قابلیتهای آنها و روش دسترسی از طریق کتابخانه Transformers را بررسی میکنیم. همچنین عملکردشان را مقایسه کرده، چالشهای کلیدی را بیان کرده و محدودیتهای آنها را بررسی خواهیم کرد. از زمان نگارش اولیه این مقاله، Meta AI نسخههای LLaMA 2 و LLaMA 3 را معرفی کرده که هر یک در مقالات جداگانه با جزئیات بیشتری پوشش داده شدهاند.
درک LLaMA: مدل زبانی بزرگ Meta AI
LLaMA (مخفف Large Language Model Meta AI) مجموعهای از مدلهای زبانی پیشرفته و پایهای است که اندازه آنها بین ۷ تا ۶۵ میلیارد پارامتر متغیر است. با وجود اندازه فشرده، این مدلها عملکردی چشمگیر ارائه میدهند و نیاز محاسباتی پژوهشگران و توسعهدهندگان را برای آزمایش و توسعه برنامههای نوآورانه کاهش میدهند.
این مدلهای پایه با استفاده از مجموعه دادههای گسترده و بدون برچسب آموزش دیدهاند، که آنها را برای تنظیم دقیق در وظایف مختلف بسیار سازگار میسازد. منابع داده آموزشی شامل موارد زیر است:
- ۶۷.۰٪ CommonCrawl
- ۱۵.۰٪ C4
- ۴.۵٪ GitHub
- ۴.۵٪ ویکیپدیا
- ۴.۵٪ کتابها
- ۲.۵٪ ArXiv
- ۲.۰٪ StackExchange
به لطف این مجموعه داده متنوع، مدلهای LLaMA عملکردی در حد مدلهای پیشرفتهای مانند Chinchilla-70B و PaLM-540B دارند و جایگاه خود را در میان برترین مدلهای زبانی جهان تثبیت کردهاند.
درک مدل LLaMA از Meta
LLaMA یک مدل زبانی خودبازگشتی مبتنی بر معماری Transformer است. مانند سایر مدلهای پیشرفته، دنبالهای از کلمات را به عنوان ورودی پردازش کرده و کلمه بعدی را پیشبینی میکند تا متنی پیوسته تولید شود.
آنچه LLaMA را منحصربهفرد میکند، آموزش گسترده آن بر اساس دادههای متنی عمومی در زبانهای مختلف از جمله بلغاری، کاتالان، چکی، دانمارکی، آلمانی، انگلیسی، اسپانیایی، فرانسوی، کرواتی، مجاری، ایتالیایی، هلندی، لهستانی، پرتغالی، رومانیایی، روسی، اسلوونیایی، صربی، سوئدی و اوکراینی است. با معرفی LLaMA 2 در سال ۲۰۲۴، پیشرفتهایی در معماری و تکنیکهای آموزشی موجب افزایش کارایی و توان چندزبانه آن شد.
مدلهای LLaMA در اندازههای مختلف—۷B، ۱۳B، ۳۳B و ۶۵B—در دسترساند و میتوان آنها را از طریق Hugging Face یا مخزن رسمی facebookresearch/llama استفاده کرد.
شروع کار با مدلهای LLaMA
کد رسمی اجرای مدل در مخزن facebookresearch/llama موجود است، اما برای سادگی از کتابخانه Transformers در Hugging Face برای بارگذاری مدل و تولید متن استفاده خواهیم کرد.
۱. نصب کتابخانههای لازم
اجرای استنتاج LLaMA را در Google Colab انجام خواهیم داد.
%%capture
%pip install transformers SentencePiece accelerate
۲. بارگذاری توکنها و وزنهای مدل LLaMA
نکته: مدل 'decapoda-research/llama-7b-hf' وزن رسمی نیست. گروه Decapoda Research نسخه اصلی را برای سازگاری با کتابخانه Transformers تطبیق داده است.
import transformers, torch
from transformers import LlamaTokenizer, LlamaForCausalLM, GenerationConfig
tokenizer = LlamaTokenizer.from_pretrained("decapoda-research/llama-7b-hf")
model = LlamaForCausalLM.from_pretrained(
"decapoda-research/llama-7b-hf",
load_in_8bit=False,
torch_dtype=torch.float16,
device_map="auto",
)
۳. تعریف پرسش
۴. تبدیل متن به توکن
۵. تنظیم پیکربندی تولید متن
۶. تولید خروجی متنی
۷. رمزگشایی و چاپ پاسخ
instruction = "What is the speed of light?"
inputs = tokenizer(
f"""Below is an instruction that describes a task. Write a response that appropriately completes the request.
### Instruction: {instruction}
### Response:""",
return_tensors="pt",
)
input_ids = inputs["input_ids"].to("cuda")
generation_config = transformers.GenerationConfig(
do_sample=True,
temperature=0.1,
top_p=0.75,
top_k=80,
repetition_penalty=1.5,
max_new_tokens=128,
)
with torch.no_grad():
generation_output = model.generate(
input_ids=input_ids,
attention_mask=torch.ones_like(input_ids),
generation_config=generation_config,
)
output_text = tokenizer.decode(
generation_output[0].cuda(), skip_special_tokens=True
).strip()
print(output_text)
خروجی:
مدل بهدرستی تعیین میکند که سرعت نور در خلأ حدود ۲۹۹٬۷۹۲٬۴۵۸ متر بر ثانیه است.
Below is an instruction that describes a task. Write a response that appropriately completes the request.
### Instruction: What is the speed of light?
### Response: The speed of light in a vacuum is exactly 299,792,458 meters per second (approximately 186,282 miles per second). This value is a fundamental constant in physics and plays a crucial role in theories like relativity. Scientists have verified this speed through numerous experiments over the years.
مدل LLaMA همراه با کتابخانه Transformers را میتوان برای وظایف و مجموعهدادههای مختلف تنظیم دقیق کرد تا دقت و عملکرد آن افزایش یابد.
چه چیزی LLaMA را از سایر مدلهای هوش مصنوعی متمایز میکند؟
مقاله پژوهشی، مقایسهای جامع بین مدلهای LLaMA و مدلهای برتر زبانی مانند GPT-3، GPT-NeoX، Gopher، Chinchilla و PaLM ارائه میدهد. آزمونهای متعددی برای ارزیابی عملکرد آنها در زمینههایی مانند استدلال عمومی، اطلاعات عمومی، درک مطلب، پاسخگویی به پرسشها، حل مسائل ریاضی، تولید کد و دانش حوزهای انجام شد.
استدلال عمومی
در آزمونهایی مانند PIQA، SIQA و OpenBookQA، مدل LLaMA-65B از سایر معماریهای پیشرفته پیشی گرفت. حتی مدل کوچکتر LLaMA-33B نیز در آزمون ARC (در هر دو سطح آسان و دشوار) عملکردی برتر نشان داد.
پاسخگویی به پرسشهای عمومی و اطلاعات عمومی
در ارزیابی توانایی مدل برای درک و پاسخ به پرسشهای واقعی، LLaMA در آزمونهای Natural Questions و TriviaQA بهطور پیوسته بهتر از GPT-3، Gopher، Chinchilla و PaLM عمل کرد.
درک مطلب
در آزمونهای RACE-middle و RACE-high، مدل LLaMA عملکردی بهتر از GPT-3 و نتایجی مشابه PaLM 540B نشان داد.
استدلال ریاضی
از آنجا که LLaMA بر روی دادههای ریاضی تنظیم دقیق نشده بود، در این حوزه عملکردی ضعیفتر از مدل Minerva داشت.
تولید کد
در آزمونهای HumanEval و MBPP، مدل LLaMA در معیارهای HumanEval@100، MBP@1 و MBP@80 نتایجی بهتر از LAMDA و PaLM به دست آورد.
دانش حوزهای
در زمینه دانش تخصصی، مدلهای LLaMA نسبت به مدل عظیم PaLM 540B که پارامترهای بسیار بیشتری دارد، عملکرد ضعیفتری نشان دادند.
چالشها و محدودیتهای LLaMA
مانند سایر مدلهای بزرگ زبانی، LLaMA نیز مستعد «توهم» است و گاهی اطلاعات نادرست یا گمراهکننده تولید میکند.
علاوه بر آن، چند چالش دیگر نیز وجود دارد:
- محدودیت زبانی: از آنجا که بخش عمده دادههای آموزشی به زبان انگلیسی است، عملکرد LLaMA در سایر زبانها ممکن است ضعیفتر باشد.
- کاربرد پژوهشی: LLaMA عمدتاً برای اهداف تحقیقاتی تحت مجوز غیرتجاری طراحی شده است. هدف انتشار آن کمک به پژوهشگران برای بررسی تعصبها، خطرات و مسائل مربوط به ایمنی مدل و محتوای سمی است.
- آماده استفاده تجاری نیست: به عنوان یک مدل پایه، LLaMA نباید بدون ارزیابی دقیق ریسک و راهبردهای کاهش خطر در محصولات واقعی استفاده شود.
- ضعف در استدلال ریاضی و حوزههای خاص: مدل در حل مسائل ریاضی پیچیده ناتوان بوده و در زمینههای تخصصی دانش عمیقی ندارد.
برای آگاهی از آخرین تحولات در هوش مصنوعی، از جمله OpenAI و Google AI و تأثیر آنها بر علم داده، مقاله «آخرین اخبار OpenAI و Google AI و تأثیر آن بر علم داده» را بخوانید. این بلاگ جدیدترین پیشرفتها در فناوریهای زبانی، دیداری و چندوجهی را بررسی میکند.
با انتشار LLaMA 2 و LLaMA 3، محدودیتهای جدیدی شناسایی شدهاند، اما پیشرفتهایی در زمینه طول بافت و قابلیت تنظیم از طریق تنظیم دقیق نیز حاصل شده است. جامعه پژوهشی همچنان در حال بهبود پایداری و کاربردپذیری واقعی این مدلهاست.
جمعبندی
ظهور مدلهای LLaMA عصری تحولآفرین در پژوهش هوش مصنوعی متنباز را رقم زده است. جالب آنکه مدلهای فشرده LLaMA-3 و LLaMA-4 از GPT-3 و GPT-4 پیشی گرفتهاند، در حالی که مدل بزرگتر LLaMA-65B عملکردی در حد Chinchilla-70B و PaLM-540B دارد. این دستاوردها نشان میدهد که دستیابی به عملکرد سطح بالا با دادههای عمومی و توان محاسباتی محدود امکانپذیر است.
همچنین، پژوهشها نشان میدهد که تنظیم دقیق مبتنی بر دستورالعمل نقش مهمی در بهبود عملکرد LLaMA دارد. مدلهایی مانند Vicuna و Stanford Alpaca که با مجموعهدادههای آموزشی دستورمحور بهینهسازی شدهاند، نتایجی مشابه ChatGPT و Bard ارائه دادهاند که پتانسیل عظیم این رویکرد را نشان میدهد.
پرسشهای متداول (FAQ)
برچسبها: چت لاما رایگان آنلاین، لاما ۳ رایگان، لاما ۳.۳، لاما ۴ آنلاین، ۷۰بی