欢迎大家收看《RWKV 社区最新动态》,本期内容收录了 RWKV 社区 2024 年 11 月的最新动态。
只需 3 分钟,快速了解 RWKV 社区 11 月都有哪些新鲜事!
11 月动态省流版(TL;DR)
RWKV 学术研究
DFT (RWKV 股票价格预测模型)
文章提出了用于股票价格预测的 DFT(Dual-branch Framework of Fluctuation and Trend)框架,旨在解决现有方法在捕捉短期波动和探索股票时间关系方面的不足。
DFT 框架将股票分解为趋势和波动双分支,并引入 RWKV 模型有效建模时间相关性,充分挖掘复杂的跨时间因果关系和股票相关性。DFT 框架在多个股票数据集上展现出卓越的性能,为股票价格预测提供了更有效的途径。
Video RWKV (RWKV 视频理解框架)
论文提出了用于视频动作理解的 LSTM-CrossRWKV(LCR)框架,将 RWKV 引入视频领域。该框架通过创新的 Cross RWKV 门和 LSTM 循环执行机制,有效捕捉时空特征,利用边缘信息减少冗余,
LCR 框架在多个数据集上表现出色,为视频分析提供了高效解决方案。
RuleVM(RWKV 暴力监控框架)
论文提出了新的弱监督暴力监控框架 RuleVM。RuleVM 使用 RWKV 架构作为其轻量级事件序列模块,并使用相对距离代替特征相似性。这种机制使模型更加轻量级,因为它只考虑画面帧间的相对距离,无需评估高维特征相似性,从而有效降低计算复杂性,有助于降低计算成本、提高训练和推理效率。
MARWKV(RWKV 智能体强化学习)
论文提出 MARWKV(Multi Agent RWKV)架构,以实现多智能体强化学习(MARL)。实验结果表明:MARWKV 在 MARL 基准测试中的表现与 MAT(Transformer)相当,并且具有类似的少样本学习能力,且在 Agent 数量较多时拥有更好的计算效率。
RWKV-AttnInput(拼音输入法)
AttnInput 利用 RWKV 语言模型的优势来增强拼音输入法,通过轻量级端侧网络将拼音信息直接集成到 RWKV 的内部状态中,有效解决了之前基于 LLM 的输入法所面临的语义不连续问题。
RWKV-AttnInput 的作者是 RWKV 社区成员 @桂之瑜。
RWKV 官方新闻动态
RWKV-6-World-7B-v3 模型正式开源发布
2024 年 11 月 13 日,RWKV-6-World-7B-v3 模型正式开源发布。
对比 RWKV-6-World-v2.1 模型,RWKV-6-World-v3 模型新增了 World-v3 数据集(约 3.1T tokens),对比 v2.1 数据集补充了优质英文网页、代码、中文小说、多语言数据、数学数据、指令数据等。
更多的训练数据带来更好的模型性能,RWKV-6-World-7B-v3 的各方面能力显著增强,包括中文小说、对话、代码、数学能力。
更多细节阅读:RWKV-6-World-7B-v3 模型正式开源发布,新增 3.1T 训练数据
RWKV-7 架构已确认最终代码
RWKV-7 架构已确认使用 “rc4a” 版本最为最终代码,可以在 GitHub 仓库 RWKV-LM/RWKV-V7 中查看代码。
RWKV-7 架构已发布 0.1B 和 0.4B 两种参数的模型(基于 pile 数据集),可以在 RWKV-7 Hugging Face 仓库中下载试用。
RWKV-7 架构的设计思路,请阅读:RWKV-7 as a meta-in-context learner,从第一性原理真正理解
rwkv.com 新增 RWKV 论文板块
rwkv.com 新增 RWKV 论文展示板块,支持分类查看 RWKV 相关的学术研究:
RWKV 社区活动
此版块包含 RWKV 官方动态 ,以及 RWKV 社区举办或参加的各类活动。
RWKV 进高校第二站:浙江大学
应浙大研究生创新创业中心和浙大人工智能协会的邀请,RWKV 开源项目团队于 10 月 30 日在浙大紫金港校区做了一次主题分享《RWKV 技术产品化与生态及模型架构》,现场反响热烈。
RWKV 进高校第三站:南京大学
应南京大学人工智能学社的邀请,RWKV 团队于 11 月 23 日在南京大学仙林校区做了一次技术分享,RWKV 创始人彭博也在线回答了校友的提问。
这次分享活动吸引了南京大学、东南大学、南京航空航天大学等多所高校师生参与,RWKV 团队与嘉宾们进行了深入的沟通交流。
欢迎更多高校来交流、了解 RWKV 这种新型大模型架构。同时也欢迎科研工作者和创业者使用 RWKV,我们可以提供技术支持。
RWKV 社区项目动态
此版块主要包括”RWKV 社区的新项目 “和”RWKV 社区项目的重要更新”等内容。
RWKV-15Puzzle(RWKV 15 谜题模型)
RWKV-15Puzzle 是一个专门的 RWKV-v6 模型,经过 500k 个 15 谜题样本(约 23 亿个 token)的训练,专门用于解决 15 谜题问题。
RWKV-15Puzzle 由 RWKV 社区成员 @Jellyfish042 完成,训练代码和数据制作脚本均已开源:
GitHub 仓库: https://github.com/Jellyfish042/RWKV-15Puzzle
rwkv-qualcomm 项目最新进展
rwkv-qualcomm 项目由 RWKV 社区成员 [@Molly Sophia](https://github.com/MollySophia “RWKV 社区成员 Molly”) 开发,使用 QNN SDK 在高通平台上调用 HTP 进行 RWKV 模型推理。
rwkv-qualcomm 目前支持 RWKV-V5 和 RWKV-V6 模型,支持 fp16/a16w8/a16w4 等量化方式。其中,rwkv v6 的核心 wkv 算子使用 QNN 的 customop 功能,调用 Hexagon HVX SIMD 单元。
rwkv-qualcomm 的推理速度表格:
在配备 HTP v75 的高通骁龙 SM8650(小米 14)上推理:
| 模型 | 精度 | 每秒生成 token | LAMBADA perplexity 和 accuracy | | — | — | — | — | | RWKV v6 1.6B | att-a16w8 + ffn-a16w4 | 42.4368 | TODO | | RWKV v6 1.6B | a16w8 | 31.6564 | 4.75009,66.3497% | | RWKV v6 1.6B | fp16 | 15.0434 | 4.63598,67.2618% | | RWKV v6 3B | att-a16w8 + ffn-a16w4 | 21.3172 | TODO | | RWKV v6 3B | a16w8 | 16.2146 | TODO |
(实验性)使用自定义 WKV 内核运行推理:
| 模型 | 精度 | 每秒生成 token | LAMBADA perplexity 和 accuracy | | — | — | — | — | | RWKV v6 1.6B | att-a16w8 + ffn-a16w4 | 47.6698 | TODO | | RWKV v6 7B | a16w4 | 12.9782 | TODO |
Sudoku-RWKV 发布 Windows 和安卓应用程序
Sudoku-RWKV 是一个用于解决数独谜题的专用 RWKV 模型,现已支持解开最高难度的数独难题。
Sudoku-RWKV 现已有 Windows 和安卓两个版本的应用程序,下载地址:
先点击 New Game 按钮,再点击 Start Model 按钮,即可查看 Sudoku-RWKV 的 CoT 推理和可视化过程:
社区微调的 RWKV 中文模型
RWKV 社区成员使用大量中文数据对 RWKV-6-7B-World-v3 模型进行指令微调,微调后的模型被命名为 ChatRWKV-6-World-7B-v3-Chinese 。经过测试,微调模型在各项中文任务上的能力均有进步。
该中文微调模型现已开源,可在 ModelScope 仓库中下载。
微调数据总量约 1.04B tokens,中英文占比为 7:3,在 4×H800 集群上训练了 25 小时。更多数据和训练细节可在 ModelScope 仓库中找到。
值得一提的是,微调模型的 MMLU 零样本成绩为 55.1% (作为对比,基底模型的成绩为 53.9%),这证明增加高质量数据能够有效增强 RWKV 模型的泛化能力和对复杂任务的适应性。
关于《RWKV 社区动态》栏目
《RWKV 社区动态》栏目会不定期播报 RWKV 社区的最新消息,以帮助 RWKV 的关注者、爱好者、开发者更好地了解 RWKV 的发展情况。
《RWKV 社区最新动态》不定期更新,所以请保持关注我们的微信公众号(RWKV 元始智能)、QQ 频道(RWKV)等公开平台,以获取最新的消息。
加入 RWKV 社区
RWKV 是一种创新的深度学习网络架构,它将 Transformer 与 RNN 各自的优点相结合,同时实现高度并行化训练与高效推理。
欢迎大家加入 RWKV 社区!可以从 RWKV 中文官网了解 RWKV 模型,也可以加入我们的 QQ 频道和群聊,一起探讨 RWKV 模型。
未经允许不得转载:岩猫星空网 » 大量新论文、RWKV-7 架构已定档……RWKV 社区 11 月动态速览!