大模型－365文档

一文详看大模型长文本如何评估：四大主流评测数据集的任务设计、数据集构建方案

Post Views: 194 大语言模型（LLM）尽管在各种语言任务中表现抢眼，但通常仅限于处理上下文窗口大小范围内的文本。有越来越多的基准被提出来测试LLM的长文本理解能力。当前具有代表性的长文本评测主要包括Zero-SCROLLS、L-Eval、LongBench以及loogle四个基准。本文对这个几个数据集进行梳理，供大家一起参考，包括任务的设计、任务数据集的构造方案，这些都很有借鉴

AIGC
admin
2024-06-03
196 热度
0评论

开源大模型部署及推理所需显卡成本必读之一

Post Views: 167 在人工智能大模型训练的过程中，常常会面临显存资源不足的情况，其中包括但不限于以下两个方面：1.经典错误：CUDA out of memory. Tried to allocate ...；2.明明报错信息表明显存资源充足，仍然发生 OOM 问题。为了深入理解问题的根源并寻求解决方案，必须对系统内存架构以及显存管理机制进行进一步的探究。本文将为读者带来对这些基础知识的

AIGC
admin
2024-06-03
169 热度
0评论

开源大模型部署及推理所需显卡成本必读之二

Post Views: 152 在前面的文章中，我们介绍了大模型占用显卡空间的一些分析情况，这次我们继续来看看具体量化角度上的结论。因此，本文来来介绍一个偏具体数值量化的工作。随着各厂商相继发布大型模型，排行榜变化频繁，新旧交替，呈现出一片繁荣景象。有些技术爱好者也开始心痒难耐，萌生了构建一个庞大模型并进行训练的想法。每天都能看到各个厂家推出内测版本，这让人不禁思考：为何不在本地环境尝试一番呢

AIGC
admin
2024-06-03
154 热度
0评论

基于大模型的文档知识库实现流程

Post Views: 200 1. 前言大模型技术的横空出世给行业及技术应用带来了全新的变革。今天要讲的场景是“知识库”、“企业搜索”相关场景。在大模型出现以前，我们针对这样的业务往往采用传统的搜索引擎如ES来解决，或者更高级一些，引入NLP和KG技术，可以做出较智能的搜索、问答，如采用知识图谱技术的KBQA。随着大模型技术的不断迭代，如今我们有了全新的方式去探索建设一个行业垂类或者企业内部

大模型
admin
2024-06-03
203 热度
0评论

45天落地LLM系列第2天-微调大模型+知识库！

Post Views: 81 第一部分：为什么要写SOP？在雄哥团队，在一个项目开始之前，或者一个新人加入公司，他要熟悉某个项目的进度，或者安排工作给他！雄哥要做的第一件事就是教他怎样思考，怎样去思考一个项目！写sop——按照sop去执行——反馈工作流程中不足的点——修改sop——按照sop去执行。形成循环，做大做强！再创辉煌！我们有整个方案，才能站在全局角度，去思考一个项目如何落地！并且从

AIGC
admin
2024-06-03
82 热度
0评论

傻瓜式！一键部署llama2+chatglm2，集成所有环境和微调功能，本地化界面操作！

Post Views: 49 只用一个工具，实现一键部署llama2+chatglm2，一键微调训练大模型！牛不牛工具名称：text-generation-webui 开发者：oobabooga https://github.com/oobabooga/text-generation-webui 功能简介：简单来说它就是个语言模型的启动器。你可以加载几乎所有的主流模型，并在本地运行+训练它们！

大模型
admin
2024-06-03
50 热度
0评论

傻瓜式！一键部署llama2+chatglm2，集成所有环境和微调功能，本地化界面操作！

基于智能搜索和大模型知识库 – 实战篇

Post Views: 74 在过去的数月中，亚马逊云科技已经推出了多篇 Blog，来介绍如何在亚马逊云科技上构建基于 MVP（LLM+Vector+Prompt）架构打造企业下一代知识库。为了帮助客户快速、安全地在亚马逊云科技上构建、部署和管理应用程序，众多合作伙伴与亚马逊云科技紧密合作。他们提供各种各样的服务、深入的技术知识、最佳实践和解决方案，包括基础设施迁移、应用程序现代化、安全和合规性

大模型
admin
2024-06-03
74 热度
0评论

45天落地LLM系列1-微调大模型+知识库！动手部署在微信前！学会分析项目，写SOP

Post Views: 97 45天！落地LLM到企微/飞书的实操复现项目，本次分教育+医疗2组，动手实操做复现！全程覆盖五大板块: ①微信/飞书接入、②API管理、③数据集预处理、④大模型选择及调优、⑤知识库搭建** image.png 1.1 服务内容非常重要！想清楚你提供什么样的服务？解决现实场景中的什么问题？一定要在现有工作流的角度去看，工作流是啥意思？本身群里的NLP技

AIGC
admin
2024-06-03
98 热度
0评论

45天落地LLM系列1-微调大模型+知识库！动手部署在微信前！学会分析项目，写SOP

DeepSpeed 通过系统优化加速大模型推理

Post Views: 91 一，背景知识 1.1，LLM 应用的难点 1，模型训练时间过长伴随着 Transformer 结构的提出，后续 LLM 参数开始从亿级到百亿、乃至万亿级增长，与超高速增长到模型参数量相比， GPU 显存的增长实属有限，有数据显示每 18 个月仅翻了 1.7 倍。模型参数量的增长和硬件的显存的增长之间的差距越来越大，但从目前趋势看，超大的计算量和参数量是目前 LLM

AIGC
admin
2024-05-30
91 热度
0评论

5分钟明白LangChain 的输出解析器和链

Post Views: 62 本文介绍 LangChain 的输出解析器OutputParser的使用，和基于LangChain的LCEL构建链。常规的使用LangChain构建LLM应用的流程是：Prompt 输入、调用LLM 、LLM输出。有时候我们期望LLM给到的数据是格式化的数据，方便做后续的处理。这时就需要在Prompt里设置好要求，然后LLM会在输出内容后，再将内容传

AIGC
admin
2024-05-27
63 热度
0评论