Intro
Intro to Large Language Models
摘要: 本文介绍了大型语言模型的基本概念和工作原理。作者讨论了模型的架构和参数,强调了在训练阶段如何通过大量文本数据进行学习。文章指出,语言模型的核心任务是下一个词的预测,这一过程涉及对输入文本的深度理解与信息压缩。此外,作者提到大型语言模型的规模和训练数据量的增加,会提升模型的能力和准确性。最后,文章提及了模型的应用,包括生成文本和图像等任务。
要点总结:
- 大型语言模型的架构和参数:模型拥有大量参数,通过对文本的训练进行词预测。
- 训练过程的复杂性:训练需要大量数据,模型通过学习文本中的信息来提高预测能力。
- 下一个词预测的核心任务:模型在接收一串词后,预测下一个最可能的词,体现了对语言结构的理解。
- 模型能力随规模增长而提升:随着模型规模和训练数据的增加,其生成和理解文本的能力也显著提高。
- 广泛的应用场景:大型语言模型不仅能生成文本,还能应用于图像生成等多种任务,展示了其多功能性。
学习资源
-
Ollama 支持工具调用了,官方仓库的 example 还挺多。什么叫学习的捷径?这就是。 https://github.com/ollama/ollama-python/tree/main/examples
-
由实践者主导的LLMs公开课程。今天,我们发布了 Mastering LLMs,这是一组来自从业者的研讨会和讲座,主题涉及评估、检索增强生成 (RAG)、微调等。本课程的独特之处在于:由超过 25 位行业资深人士授课,他们是信息检索、机器学习、推荐系统、MLOps 和数据科学方面的专家。我们讨论如何将现有技术应用于 LLMs 以为您带来有意义的优势。专注于与构建人工智能产品的人们相关的应用主题。免费向所有人开放。
https://hamel.dev/blog/posts/course/, https://x.com/HamelHusain/status/1817935895246635362
-
GitHub 上一份大规模预训练语言模型的教程《大模型理论基础》。
教程是基于斯坦福大学和李宏毅的课程,并结合开源贡献者的补充和最新研究进展,旨在为读者提供深入的理论知识和实践方法。
内容涵盖了数据准备、模型构建、训练策略、模型评估与改进,以及模型在安全、隐私、环境和法律道德方面的应用等等。
-
Introduction - Hugging Face NLP Course Hugging Face 维护的一个在线自然语言处理课程
-
生成式 AI 和 LLM 学习资料(英文) 一个老外整理的 AI 学习的网络资源,一共十几个,都是免费的。
参考资料
模型相关
- LlamaIndex 🦙
- Llama Hub
- Replicate
- LlamaIndex:轻松构建索引查询本地文档的神器 - 知乎
- LangChain 中文文档 v0.0.291 | 🦜️🔗 Langchain
- Tokenizer
- Tokenizer — transformers 3.0.2 documentation
- Agents - LlamaIndex 🦙 0.9.13
- Using LLMs - LlamaIndex 🦙 0.9.13
- 用 Ollama 轻松玩转本地大模型 - 少数派
- Ollama
- GitHub - alexrozanski/LlamaChat: Chat with your favourite LLaMA models in a native macOS app
- GitHub - mlabonne/llm-course: Course to get into Large Language Models (LLMs) with roadmaps and Colab notebooks. GitHub 上一份开源免费大语言模型课程。 本课程旨在介绍大语言模型,含有详细的学习路线和 Colab 实践笔记。 课程分为三个部分: 1)LLM 基础教程,涵盖数学、Python 和 审计网络的基础知识; 2)LLM 深入探索,使用最新技术构建尽可能最好的 LLM; 3)LLM 应用与部署,开发基于 LLM 的应用,并完成部署。
- GitHub - rasbt/LLMs-from-scratch: Implementing a ChatGPT-like LLM from scratch, step by step
《Build a Large Language Model (From Scratch)》作者将带你从头开始构建一个类似 GPT 语言模型,这过程让你了解如何创建、训练和微调大型语言模型 (LLMs)!
在线阅读:https://livebook.manning.com/book/build-a-large-language-model-from-scratch/welcome/v-3/
GPT相关
- GitHub - pandora-next/deploy: Pandora Cloud + Pandora Server + Shared Chat + BackendAPI Proxy + Chat2API = PandoraNext. New GPTs(Gizmo) UI, All in one!
- fakeopen 已支持 ChatGPT 转 Turbo API · Issue #837 · pengzhile/pandora · GitHub
- 黄牛是如何做到把OpenAI的API-Key变得这么便宜的? - 知乎
- 如何通过PKCE获取ChatGPT的AccessToken – 知了
- 如何查看OpenAI的AccessToken?-CSDN博客
- ChatGPT的access_token获取(最新!!!)-CSDN博客
- 如何用GPTs提升工作效率 – Zgao’s blog
- 我收藏了一些🤳🏻ChatGPT 的注册/充值攻略 感觉还 - 即刻App
- 《什么是GPT?通过图形化的方式来理解Transformer架构》-微博
- What Is ChatGPT Doing … and Why Does It Work? ChatGPT在做什么?它为什么工作?
- 从零训练GPT
- Transformer模型图解-知乎
- a16z团队整理的AI论文、博客、课程
- 如何拥有一张海外卡,用于注册Claude和Twitter | 信息差——独立开发者出海周刊
其他
-
[2401.11817] Hallucination is Inevitable: An Innate Limitation of Large Language ModelsMark
-
[2402.16153] ChatMusician: Understanding and Generating Music Intrinsically with LLM 虽然大型语言模型(LLM)在文本生成方面展示了令人印象深刻的能力,但我们发现它们的能力尚未推广到音乐——人类创造性的语言。我们介绍了ChatMusician,一个开源的LLM,它集成了内在的音乐能力。它基于持续预训练和 finetuning LLaMA2 在一个文本兼容的音乐表示,ABC 记谱法上,并将音乐作为一种第二语言。ChatMusician 可以理解和生成纯文本分词器 music without any external multi-modal neural structures or tokenizers。有趣的是,赋予音乐能力并不会损害语言能力,甚至MMLU得分略有提高。我们的模型能够根据文本、和弦、旋律、动机、音乐形式等生成结构良好、完整的音乐,超过了GPT-4 基线。在我们的精心策划的大学级音乐理解基准 MusicTheoryBench 上,ChatMusician 在零样本设置上明显超过了 LLaMA2 和 GPT-3.5。我们的工作表明,LLM 可以是音乐的优秀压缩器,但仍有大量领域有待征服。我们在 GitHub 上发布了我们的 4B 令牌音乐语言语料库 MusicPile,收集的 MusicTheoryBench,代码,模型和演示。
-
[2403.18103] Tutorial on Diffusion Models for Imaging and Vision 近年来生成工具的惊人增长赋能了许多令人兴奋的应用,特别是在文本到图像生成和文本到视频生成领域。这些生成工具背后的基本原理是扩散概念,这是一种特定的采样机制,克服了之前方法中被认为难以克服的一些缺点。本教程的目标是讨论扩散模型背后的基本思想。本教程的目标受众包括对扩散模型进行研究或将这些模型应用于解决其他问题的本科生和研究生。
-
畅游 LLM 的世界(英文) 如果在家用电脑上安装 LLM(大型语言模型),应该选择哪一个模型? 本文分析并评价了目前最流行的几个 LLM 的基本情况和优缺点。
-
GitHub 上一份超全面的开源大模型使用指南 self-llm。 提供了针对国内初学者的开源大模型教程,通过 AutoDL 平台,简化模型的部署、使用和应用流程。 https://github.com/datawhalechina/self-llm
-
GitHub - karpathy/llm.c: LLM training in simple, raw C/CUDA 前特斯拉autopilot负责人,openai科学家Andrej karpathy开源了一个仅用1000代码即可在CPU/fp32上实现GPT-2的训练项目llm.c
-
GitHub 上一份精心收集和梳理中文 LLM 相关集合 Awesome Chinese LLM。 不仅包含了多个垂直领域(如医疗、法律、金融、教育、科技、电商、网络安全和农业)的开源微调中文模型。 而且还涵盖了底层模型、数据集、微调框架、推理部署框架、评测方法和相关教程。 https://github.com/HqWu-HITCS/Awesome-Chinese-LLM
-
大语言模型(中文) : 免费阅读的电子书,适合对 LLM 技术感兴趣的初学者,作者是去年发表的大模型综述《A Survey of Large Language Models》的团队。
-
Consistency Large Language Models: A Family of Efficient Parallel Decoders | Hao AI Lab @ UCSD
-
一个从零开始构建llama3的教程
-
适用于所有聊天模式的一个界面
使用通用聊天模型初始值设定项可以与任何模型交互。在初始化或运行时设置模型参数。