AI大模型初探

microsoft_love 2024-06-22 08:01:02 阅读 83

模型定义

大模型定义:人工智能大模型是指拥有超大规模参数(通常在十亿个以上)、超强计算资源的机器学习模型,能够处理海量数据,完成各种复杂任务,如自然语言处理、图像识别等。ChatGPT对大模型的解释:大模型本质上是一个适用海量数据训练而成的深度神经网络模型,其巨大的数据和参数规模,实现了智能的涌现,展现出类似人类的智能。

大语言模型(LLM:large language model)通常是具有大规模参数和计算能力的自然语言处理模型,例如GPT-3模型。META的LLaMa(美洲驼)

GPT(Generative Pre-trained Transfermer):生成自然语言文本并处理各种自然语言处理任务,如文本生成、翻译、摘要等,它通常在单向生成的情况下使用,即根据给定的文本生成连贯的输出。

ChatGPT:ChatGPT则专注于对话和交互式对话。它经过特定的训练,以更好地处理多轮对话和上下文理解。在流畅、连贯和有趣的对话体验,响应用户的输入并生成合适的回复。

embedding嵌入 - openAI网站解释

Embedding 是将概念转换为数字序列的数值表示,这使得计算机能够轻松理解这些概念之间的关系。

Embedding 帮助计算机来理解如人类信息所代表的“含义”,Embedding 可以用来获取文本、图像、视频、或其他信息的特征“相关性”,这种相关性在应用层面常用于搜索、推荐、分类、聚类。

向量数据库

向量数据库采用嵌入向量(embedding vector)技术,对非结构化数据(包括文本、图片、视频、音频等)进行特征抽象。数学上,嵌入向量是一个浮点数或二进制数的数组,即 N 维特征向量空间中的向量。向量数据库能够将向量存储为高维点并且高效、快速地查找 N 维空间中的最近邻。这些功能通常由近似最近邻搜索(ANN)提供支持,并使用分层可导航小世界(HNSW)和倒排文件索引(IVF)等算法构建。常见的相似性度量包括余弦相似性、点积、欧几里得距离、曼哈顿距离和汉明距离。

向量数据库还提供了其他功能,例如数据管理、容错、身份验证和访问控制以及查询引擎。

向量数据库的应用场景非常广泛,包括:推荐系统、图像检索、自然语言处理、人脸识别和图像搜索、音频识别、实时数据分析、物联网以及生物信息学等。

RAG,又称“检索增强生成”,独特地结合了检索和生成两个环节。它不仅仅是一个生成模型,更是一个结合了embedding向量搜索和大模型生成的系统。首先,RAG利用embedding模型将问题和知识库内容转换为向量,并基于相似性找到top-k的相关文档。接着,这些文档被提供大模型,进而生成答案。这种方法不仅提高了答案的质量,更重要的是,它也为模型的输出提供了可解释性。

大模型的参数量

参数量反映了一个模型可以表示或学习到的知识量,代表了模型在特定领域内可以表示的状态数或组合总数。

模型的存储计算

1B 参数量 = 1B 32位的浮点数 = 1B * 4bytes = 10^9 * 4bytes = 4GB

小数:精度部分(precision)高小数更精确; 指数部分(rangge)bit位高 ,表示数字的值域部分比较大,最大值,最小值。

数据的位宽:精度-> 内存变大,算力变弱

大模型套壳

开源大模型+自己的数据进行微调

羊驼模型:开源,Android

"技术奶头乐"

优点:开源

           平民化

Ai Agent 套件

模型 + 插件 + 执行流程 = Agent架构

CPU与GPU区别

低延迟,高带宽。GPU单独显卡内存。

GPU硬件

模型的分类

按照输入数据类型的不同,大模型分3类

语言大模型(NLP)这类模型主要用于自然语言处理,处理文本数据和理解自然语言,例如GPT系列(OpenAI)、BERT(Google)、文心一言(百度)等,这些模型通常在大规模语料库上进行训练,以学习自然语言的各种语法、语义和语境规则。 视觉大模型(CV)。这类模型主要用于图像处理和分析,例如VIT系列(Google)、文心UFO、华为盘古CV、INTERN(商汤)等,它们通过在大规模图像数据上进行训练,实现各种视觉任务,如图像分类、目标检测、图像分割等。 多模态大模型。这类模型能处理多种不同类型的数据,如文本、图像、音频等,结合了NLP和CV的能力,实现对多模态信息的综合理解和分析,例如DingoDB多模向量数据库、DALL-E(OpenAI)、悟空画画(华为)、midjourney等。

常用大模型架构

纯prompt

特点:人机对话,你问它答。

2.Agent +外挂功能套件

特点:agent主动调用功能函数。

例如:1.外挂辅助输入(今天北京的天气如何?)调用外部日历:2023-10-17

   2.外挂输出:2023-10-17 目标:天气,调用工具:气象接口,晴朗。

3.RAG(检索增强生成) = Embeddings + 向量数据库

特点:

(1)Embeddings:把文字转换为更易于相似度计算的编码。这种编码叫做向量

  (2)   向量数据库:把向量存起来,方便查找

  (3)   向量搜索: 根据输入向量,找到最相似的向量

  (4)   场景举例 :考试时,看到一道题,到书上找到相关内容,再结合题目组成答案。(没有记忆性)

4. Fine-tuning微调技术 (努力学习考试知识内容,长期记住,活学活用)

Langchain-Chatchat(原Langchain-ChatGLM)基于 Langchain 与 ChatGLM 等语言模型的本地知识库问答

一种利用 langchain 思想实现的基于本地知识库的问答应用,目标期望建立一套对中文场景与开源模型支持友好、可离线运行的知识库问答解决方案。

将私有知识库内容经过拆分、向量化之后,存入向量知识库将用户的问题也进行向量化,利用向量相似性算法(例如余弦相似性)找到向量知识库最匹配的 top n 个片段将这些片段,与用户问题一起作为 prompt 提交给 LLM 回答,作为 LLM 的背景知识,LLM 根据背景知识完成交互问答

项目是一个可以实现完全本地化推理的知识库增强方案, 重点解决数据安全保护,私域化部署的企业痛点。

LangChain 是一个开发由语言模型驱动的应用程序的框架。我们相信最强大和不同的应用程序不仅会通过 API 调用语言模型, 还会:

数据感知 : 将语言模型连接到其他数据源具有代理性质 : 允许语言模型与其环境交互

整体架构

Source code analysis is one of the most popular LLM applications (e.g., GitHub Copilot, Code Interpreter, Codium, and Codeium) for use-cases such as:

Q&A over the code base to understand how it worksUsing LLMs for suggesting refactors or improvementsUsing LLMs for documenting the code

工具使用

Chains lets you create a pre-defined sequence of tool usage(s).

Agents let the model use tools in a loop, so that it can decide how many times to use tools.

参考文档:

模型# | LangChain中文网:500页中文文档教程,助力大模型LLM应用开发从入门到精通

GitHub - chatchat-space/Langchain-Chatchat: Langchain-Chatchat(原Langchain-ChatGLM)基于 Langchain 与 ChatGLM 等语言模型的本地知识库问答 | Langchain-Chatchat (formerly langchain-ChatGLM), local knowledge based LLM (like ChatGLM) QA app with langchain



声明

本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。