大型语言模型有效推理研究综述

news/2024/9/30 15:36:40

大型语言模型有效推理研究综述

https://arxiv.org/pdf/2404.14294v1

摘要——大型语言模型(LLM)由于其在各种任务中的卓越性能,而引起了广泛的关注。

然而,LLM推理的大量计算和内存需求,对资源受限场景中的部署提出了挑战。该领域内的努力,致力于开发提高LLM推理效率的技术。对现有的关于有效LLM推理的文献进行了全面的综述。首先分析了LLM推理效率低下的主要原因,即模型大小大、四次复杂度注意操作和自回归解码方法。然后,引入了一个全面的分类法,将当前文献组织为数据级、模型级和系统级优化。此外,还包括在关键子领域内对代表性方法进行的比较实验,以提供定量见解。最后,提供了一些知识总结,并讨论了未来的研究方向。

 

 

 

 

 

 结论

高效的LLM推理侧重于降低LLM推理过程中的计算、内存访问和内存成本,旨在优化效率指标,如延迟、吞吐量、存储、功率和能量。

这项调查对有效的LLM推理研究进行了全面回顾,提出了关键技术的见解、建议和未来方向。首先,介绍了一种分层分类法,包括数据级、模型级和系统级的优化。随后,在这一分类法的指导下,仔细检查和总结了每个层次和子领域的研究。对于模型量化和高效服务系统等成熟的技术,进行了实验来评估和分析它们的性能。基于这些分析,为该领域的从业者和研究人员提供了切实可行的建议,并确定了有前景的研究途径。

 

参考文献链接

https://arxiv.org/pdf/2404.14294v1

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hjln.cn/news/45187.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈,一经查实,立即删除!

相关文章

[罗嗦的详解BURP靶场]彻底理解nosql最终关Lab: Exploiting NoSQL operator injection to extract unknown fields

参考: https://www.freebuf.com/articles/web/358650.html https://youtu.be/I3zNZ8IBIJU关于NoSQL 数据库分为传统的RDBMS(Relational Database Management System)(比如mysql sqlserver那类) 与NoSQL(NoSQL = Not Only SQL )NoSQL 数据库并非采用关系数据库的典型表结构,而是…

vulnhub - hackme2

比hackme1多了命令执行和文件上传绕过,其他步骤一模一样vulnhub - hackme2 信息收集还是跟1一样,目录扫描之类的没啥利用点,sql注入先打一遍 SQL注入 sqlmap -u http://192.168.157.163/welcome.php --method POST -data="search=1" --level 3 --dbs --batch[*] i…

[C++ Primer] 表达式

记录了C++关于表达式的一些重要语法。[C++ Primer] 表达式左值和右值 当一个对象被用作右值时,用的是对象的值(内容);当对象被用作左值时,用的是对象的身份(在内存中的位置)。 几种熟悉的运算符要用到左值:赋值运算符需要一个(非常量)左值作为其左侧运算对象,得到的…

在vs code通过git提交文件至远程仓库(github)

1.在远程仓库新建一个repository得到一个.git地址2.在vs code打开文件夹(注意是打开文件夹folder而非文件file),然后添加文件3.点击SOURCE CONTROL,点击Initialized Repository,然后添加远程仓库地址第一次需要Github网页授权你本地vs code的Git提交权限,此后便可直接选择…

解决 git 忽略了不在.gitignore中的文件的问题,不在.gitignore 中的文件被忽略了的问题

解决 git 忽略了不在.gitignore中的文件的问题,就是这个文件或者文件夹不在.gitignore中,但是却被git忽略了,文件夹下新增文件都不会被git add 需要自己去手动 git add -f 命令去添加,造成部分代码没有提交。 1.先查看被忽略了哪些文件和文件夹 git status --ignored 我这…

灵哥讲llama3(上)

llama3简介 llama3 是meta 2024年4月18日发布的开源的大语言模型, 发布当时是state-of-art(最牛逼)的开源LLM,下图是llama3和其他主流模型评测对比:llama3官方发布了两个模型的参数:8B和70B(B代表Billion, 10亿),以及发布了用于推理的源代码,官方github地址:https://g…

12-CSS浮动

css浮动01 介绍02 浮动规则03 案例练习 3.1 缝隙的解决方案 <!DOCTYPE html> <html lang="en"> <head><meta charset="UTF-8"><meta name="viewport" content="width=device-width, initial-scale=1.0">…