一文详看大模型长文本如何评估:四大主流评测数据集的任务设计、数据集构建方案

Post Views: 194 大语言模型(LLM)尽管在各种语言任务中表现抢眼,但通常仅限于处理上下文窗口大小范围内的文本。 有越来越多的基准被提出来测试LLM的长文本理解能力。 当前具有代表性的长文本评测主要包括Zero-SCROLLS、L-Eval、LongBench以及loogle四个基准。 本文对这个几个数据集进行梳理,供大家一起参考,包括任务的设计、任务数据集的构造方案,这些都很有借鉴
一文详看大模型长文本如何评估:四大主流评测数据集的任务设计、数据集构建方案

开源大模型部署及推理所需显卡成本必读之一

Post Views: 167 在人工智能大模型训练的过程中,常常会面临显存资源不足的情况,其中包括但不限于以下两个方面:1.经典错误:CUDA out of memory. Tried to allocate ...;2.明明报错信息表明显存资源充足,仍然发生 OOM 问题。为了深入理解问题的根源并寻求解决方案,必须对系统内存架构以及显存管理机制进行进一步的探究。本文将为读者带来对这些基础知识的
开源大模型部署及推理所需显卡成本必读之一

开源大模型部署及推理所需显卡成本必读之二

Post Views: 152 在前面的文章中,我们介绍了大模型占用显卡空间的一些分析情况,这次我们继续来看看具体量化角度上的结论。 因此,本文来来介绍一个偏具体数值量化的工作。 随着各厂商相继发布大型模型,排行榜变化频繁,新旧交替,呈现出一片繁荣景象。有些技术爱好者也开始心痒难耐,萌生了构建一个庞大模型并进行训练的想法。每天都能看到各个厂家推出内测版本,这让人不禁思考:为何不在本地环境尝试一番呢
开源大模型部署及推理所需显卡成本必读之二

基于大模型的文档知识库实现流程

Post Views: 200 1. 前言 大模型技术的横空出世给行业及技术应用带来了全新的变革。今天要讲的场景是“知识库”、“企业搜索”相关场景。在大模型出现以前,我们针对这样的业务往往采用传统的搜索引擎如ES来解决,或者更高级一些,引入NLP和KG技术,可以做出较智能的搜索、问答,如采用知识图谱技术的KBQA。 随着大模型技术的不断迭代,如今我们有了全新的方式去探索建设一个行业垂类或者企业内部
基于大模型的文档知识库实现流程

45天落地LLM系列第2天-微调大模型+知识库!

Post Views: 81 第一部分:为什么要写SOP? 在雄哥团队,在一个项目开始之前,或者一个新人加入公司,他要熟悉某个项目的进度,或者安排工作给他!雄哥要做的第一件事就是教他怎样思考,怎样去思考一个项目! 写sop——按照sop去执行——反馈工作流程中不足的点——修改sop——按照sop去执行。形成循环,做大做强!再创辉煌! 我们有整个方案,才能站在全局角度,去思考一个项目如何落地!并且从
45天落地LLM系列第2天-微调大模型+知识库!

傻瓜式!一键部署llama2+chatglm2,集成所有环境和微调功能,本地化界面操作!

Post Views: 49 只用一个工具,实现一键部署llama2+chatglm2,一键微调训练大模型!牛不牛 工具名称:text-generation-webui 开发者:oobabooga https://github.com/oobabooga/text-generation-webui 功能简介:简单来说它就是个语言模型的启动器。你可以加载几乎所有的主流模型,并在本地运行+训练它们!
傻瓜式!一键部署llama2+chatglm2,集成所有环境和微调功能,本地化界面操作!

基于智能搜索和大模型知识库 – 实战篇

Post Views: 74 在过去的数月中,亚马逊云科技已经推出了多篇 Blog,来介绍如何在亚马逊云科技上构建基于 MVP(LLM+Vector+Prompt)架构打造企业下一代知识库。 为了帮助客户快速、安全地在亚马逊云科技上构建、部署和管理应用程序,众多合作伙伴与亚马逊云科技紧密合作。他们提供各种各样的服务、深入的技术知识、最佳实践和解决方案,包括基础设施迁移、应用程序现代化、安全和合规性
基于智能搜索和大模型知识库 – 实战篇

45天落地LLM系列1-微调大模型+知识库!动手部署在微信前!学会分析项目,写SOP

Post Views: 97 45天!落地LLM到企微/飞书的实操复现项目,本次分教育+医疗2组,动手实操做复现!全程覆盖五大板块: ①微信/飞书接入、②API管理、③数据集预处理、④大模型选择及调优、⑤知识库搭建** image.png   1.1 服务内容 非常重要!想清楚你提供什么样的服务?解决现实场景中的什么问题?一定要在现有工作流的角度去看,工作流是啥意思? 本身群里的NLP技
45天落地LLM系列1-微调大模型+知识库!动手部署在微信前!学会分析项目,写SOP

DeepSpeed 通过系统优化加速大模型推理

Post Views: 91 一,背景知识 1.1,LLM 应用的难点 1,模型训练时间过长 伴随着 Transformer 结构的提出,后续 LLM 参数开始从亿级到百亿、乃至万亿级增长,与超高速增长到模型参数量相比, GPU 显存的增长实属有限,有数据显示每 18 个月仅翻了 1.7 倍。模型参数量的增长和硬件的显存的增长之间的差距越来越大,但从目前趋势看,超大的计算量和参数量是目前 LLM
DeepSpeed 通过系统优化加速大模型推理

5分钟明白LangChain 的输出解析器和链

Post Views: 62 本文介绍 LangChain 的输出解析器OutputParser的使用,和基于LangChain的LCEL构建链。   常规的使用LangChain构建LLM应用的流程是:Prompt 输入、调用LLM 、LLM输出。有时候我们期望LLM给到的数据是格式化的数据,方便做后续的处理。 这时就需要在Prompt里设置好要求,然后LLM会在输出内容后,再将内容传
5分钟明白LangChain 的输出解析器和链