一文详看大模型长文本如何评估:四大主流评测数据集的任务设计、数据集构建方案

Post Views: 192 大语言模型(LLM)尽管在各种语言任务中表现抢眼,但通常仅限于处理上下文窗口大小范围内的文本。 有越来越多的基准被提出来测试LLM的长文本理解能力。 当前具有代表性的长文本评测主要包括Zero-SCROLLS、L-Eval、LongBench以及loogle四个基准。 本文对这个几个数据集进行梳理,供大家一起参考,包括任务的设计、任务数据集的构造方案,这些都很有借鉴
一文详看大模型长文本如何评估:四大主流评测数据集的任务设计、数据集构建方案

开源大模型部署及推理所需显卡成本必读之一

Post Views: 167 在人工智能大模型训练的过程中,常常会面临显存资源不足的情况,其中包括但不限于以下两个方面:1.经典错误:CUDA out of memory. Tried to allocate ...;2.明明报错信息表明显存资源充足,仍然发生 OOM 问题。为了深入理解问题的根源并寻求解决方案,必须对系统内存架构以及显存管理机制进行进一步的探究。本文将为读者带来对这些基础知识的
开源大模型部署及推理所需显卡成本必读之一

开源大模型部署及推理所需显卡成本必读之二

Post Views: 152 在前面的文章中,我们介绍了大模型占用显卡空间的一些分析情况,这次我们继续来看看具体量化角度上的结论。 因此,本文来来介绍一个偏具体数值量化的工作。 随着各厂商相继发布大型模型,排行榜变化频繁,新旧交替,呈现出一片繁荣景象。有些技术爱好者也开始心痒难耐,萌生了构建一个庞大模型并进行训练的想法。每天都能看到各个厂家推出内测版本,这让人不禁思考:为何不在本地环境尝试一番呢
开源大模型部署及推理所需显卡成本必读之二

45天落地LLM系列第2天-微调大模型+知识库!

Post Views: 81 第一部分:为什么要写SOP? 在雄哥团队,在一个项目开始之前,或者一个新人加入公司,他要熟悉某个项目的进度,或者安排工作给他!雄哥要做的第一件事就是教他怎样思考,怎样去思考一个项目! 写sop——按照sop去执行——反馈工作流程中不足的点——修改sop——按照sop去执行。形成循环,做大做强!再创辉煌! 我们有整个方案,才能站在全局角度,去思考一个项目如何落地!并且从
45天落地LLM系列第2天-微调大模型+知识库!

45天落地LLM系列1-微调大模型+知识库!动手部署在微信前!学会分析项目,写SOP

Post Views: 97 45天!落地LLM到企微/飞书的实操复现项目,本次分教育+医疗2组,动手实操做复现!全程覆盖五大板块: ①微信/飞书接入、②API管理、③数据集预处理、④大模型选择及调优、⑤知识库搭建** image.png   1.1 服务内容 非常重要!想清楚你提供什么样的服务?解决现实场景中的什么问题?一定要在现有工作流的角度去看,工作流是啥意思? 本身群里的NLP技
45天落地LLM系列1-微调大模型+知识库!动手部署在微信前!学会分析项目,写SOP

深度学习模型压缩方法综述

Post Views: 46 一,模型压缩技术概述 1.1,模型压缩问题定义 因为嵌入式设备的算力和内存有限,因此深度学习模型需要经过模型压缩后,方才能部署到嵌入式设备上。 模型压缩问题的定义可以从 3 角度出发: 模型压缩的收益: 计算: 减少浮点运算量(FLOPs),降低延迟(Latency) 存储: 减少内存占用,提高 GPU/NPU 计算利用率 公式定义模型压缩问题: 模型压缩问题的约束:
深度学习模型压缩方法综述

基于 pytorch 实现模型剪枝

Post Views: 48 一,剪枝分类 所谓模型剪枝,其实是一种从神经网络中移除"不必要"权重或偏差(weigths/bias)的模型压缩技术。关于什么参数才是“不必要的”,这是一个目前依然在研究的领域。 1.1,非结构化剪枝 非结构化剪枝(Unstructured Puning)是指修剪参数的单个元素,比如全连接层中的单个权重、卷积层中的单个卷积核参数元素或者自定义层中的浮点数(scalin
基于 pytorch 实现模型剪枝

LangChain的Agent使用介绍

Post Views: 49 LangChain 介绍 随着各种开源大模型的发布,越来越多的人开始尝试接触和使用大模型。在感叹大模型带来的惊人表现的同时,也发现一些问题,比如没法查询到最新的信息,有时候问一些数学问题时候,会出现错误答案,还有一些专业领域类问题甚至编造回答等等。有没有什么办法能解决这些问题呢?答案就是LangChain。 LangChain 是一个开源的语言模型集成框架,旨在简化使
LangChain的Agent使用介绍

docker容器中deepspeed多机多卡集群分布式训练大模型

Post Views: 48 众所周知,大模型的训练需要大量的显存资源,单卡很容易就爆了,于是就有了单机多卡、多机多卡的训练方案。本文主要是介绍如何使用deepspeed框架做多机多卡的分布式训练。   由于PyTorch、NVIDIA、CUDA等运行环境搭建也是很繁琐,所以这次我们用docker来快速搭建,但是deepspeed多机训练是通过ssh来通讯的,不同服务器的docker容器
docker容器中deepspeed多机多卡集群分布式训练大模型

DeepSpeed 通过系统优化加速大模型推理

Post Views: 91 一,背景知识 1.1,LLM 应用的难点 1,模型训练时间过长 伴随着 Transformer 结构的提出,后续 LLM 参数开始从亿级到百亿、乃至万亿级增长,与超高速增长到模型参数量相比, GPU 显存的增长实属有限,有数据显示每 18 个月仅翻了 1.7 倍。模型参数量的增长和硬件的显存的增长之间的差距越来越大,但从目前趋势看,超大的计算量和参数量是目前 LLM
DeepSpeed 通过系统优化加速大模型推理