Falcon Mamba 7B 开源模型登顶：换掉 Transformer，任意长序列都能处理

只是换掉 Transformer 架构，立马性能全方位提升，问鼎同规模开源模型！

~~（注意力机制不存在了）~~

这就是最新 Falcon Mamba 7B 模型。

它采用 Mamba 状态空间语言模型架构来处理各种文本生成任务。

通过取消传统注意力机制，有效提升了模型处理长序列时计算效率低下的问题。它可以处理无限长序列，但内存需求不增加。无论上下文多长，生成每个 token 的时间基本一样。

由此，Falcon Mamba 模型性能全方位提升，打败一众 Transformer 架构模型，如 Llama-3.1（8B）、Mistral（7B）以及 Falcon-2（11B）。

如上成果由阿联酋阿布扎比技术创新研究所（TII）带来，他们正是 Falcon 模型的开发团队。

该系列共包含四个模型：基础版本、指令微调版本、4bit 版本和指令微调 4bit 版本。

最新模型遵循 TII Falcon License 2.0 开放协议，它在 Apache 2.0 协议下。围观网友直呼：游戏规则要改变了！

全球首个开源 SSLM

在性能上，Falcon Mamba 7B 全方位超越一众开源模型。

它基于第一代 Mamba。

Mamba 是一种状态空间模型（SSM，State Space Model）。它结合了 RNN 和 CNN 的特点，通过引入一种选择机制，它允许模型根据当前的输入有选择地传播或忘记信息，从而提高处理文本信息的效率。

同时，它设计了一种硬件感知的并行算法，以递归模式运行，避免了 GPU 内存层级之间 IO 访问，提高计算效率。

最后它还简化了架构，将 SSM 架构和 Transformer 中的 MLP 块结合为单一的块。

从 Transformer 换到 Mamba，能够让 Falcon 模型可以处理任意长序列，但无需增加内存。尤其适合单个 A10 24GB GPU。

研究还讨论了两种不同的处理序列方法。

并行预填充方法适用于 GPU 并行处理，对内存需求较高；顺序填充方法适用于 SSM 模型，可以处理任意长度序列，从而不会受到内存限制。

为了确保大规模训练稳定，Falcon Mamba 模型使用了额外的 RMS 标准化层。

RMS 标准化层能够简化 LayerNorm 的计算过程，可减少计算量。

模型使用了 5500GT 数据训练，这些数据主要来自 RefedWeb 数据集以及公开数据。训练过程基本匀速，在训练后期增加了一小部分高质量策划数据，这有助于模型在最后阶段的优化。

在 H100 上，批大小为 1、提示词长度为 1-130k 生成 token 的测试中，Falcon Mamba 能够在生成新 token 时保持稳定的吞吐量，这意味着它的性能不受文本长度影响，可以稳定处理长序列，不会出现性能下降情况。

Falcon Mamba 支持多种 Hugging Face API，包括 AutoModelForCausalLM、pipline。还推出了一个指令调优版本，通过额外 50 亿个 token 进行微调，可以让模型准确性更高。

在 Hugging Face、GitHub 上都可访问最新模型~

参考链接：

https://huggingface.co/blog/falconmamba#hardware-performance

本文来自微信公众号：量子位（ID：QbitAI），作者：明敏，原标题《换掉 Transformer，7B 开源模型立刻登顶！任意长序列都能处理》

Falcon Mamba 7B 开源模型登顶：换掉 Transformer，任意长序列都能处理

全球首个开源 SSLM

2024 二季度 AMD 服务器市场份额创新高，英特尔在客户端市场反击

SK 海力士：内存 EUV 光刻成本快速增长，考虑转向 4F2 或 3D DRAM

最新文章

小米 Redmi 智能电视 X 2025 系列、米家立式学习灯 Pro 等新品 11 月 27 日发布

西班牙品牌EBRO重生！首台车S700正式下线

消息源称 V 社正积极开发《半衰期 3》游戏，引入体素破坏引擎机制

跨越千万大关！王传福为幸运锦鲤兑奖90台新车

V社回顾历史，称 Steam 游戏平台上线之初业界 99% 的人都不看好

纯血鸿蒙版微信 App 消息推送使用华为 Push 服务，新版本预埋功能后续分批放量可用

CHGRP可以改变文本属性吗(windows7文本文档怎么改后缀)

ps和ai的区别和各自的用途(ps的图片模糊如何变清晰)

ssdp协议是广播吗(哪个协议传输方式是广播)

bss段存放的是什么东西(bss由bsc和什么组成)

最新评论

标签

关注我们么么哒！

Falcon Mamba 7B 开源模型登顶：换掉 Transformer，任意长序列都能处理

全球首个开源 SSLM

2024 二季度 AMD 服务器市场份额创新高，英特尔在客户端市场反击

SK 海力士：内存 EUV 光刻成本快速增长，考虑转向 4F2 或 3D DRAM

最新文章

小米 Redmi 智能电视 X 2025 系列、米家立式学习灯 Pro 等新品 11 月 27 日发布

最新评论

标签

关注我们 么么哒！

关注我们的公众号

关注我们么么哒！