米哈游腾讯投的AI独角兽火出圈，背后竟有心动的人？

一分钟极速赛车开奖网站

热点资讯

新闻动态>>你的位置：一分钟极速赛车开奖网站 > 新闻动态 > 米哈游腾讯投的AI独角兽火出圈，背后竟有心动的人？

米哈游腾讯投的AI独角兽火出圈，背后竟有心动的人？

发布日期：2025-02-04 09:18 点击次数：66

坚持做有价值的事，一定会有意义。

文 / 以撒

年关将至，AI 业界卷王辈出，好几家公司都在最近拿出了重量级的大模型。虽然很热闹，不过放在平时，你可能会觉得这和游戏公司没什么太大的联系。

但这次的情况不太一样：在被称为「新一代国产 LLM 之光」的大模型背后，我们听到一个特别神奇的，和游戏行业有千丝万缕联系的故事。

1 月 15 日，MiniMax 发布了公司首个开源模型—— MiniMax-01 系列，首次在 4000 亿以上参数的大模型中，使用了不同于传统 Transformer 架构的线性 Attention 机制架构，能高效处理的上下文长达 400 万 token，达到了全球最长的水平。

这个成果是什么概念？你可以理解为，MiniMax 大胆地在商用级别规模上，验证了一条前人没走通的路，结果不仅让 AI 大模型的"记忆"被延长到了一个相当可观的程度，且成本还比 GPT-4o 低 10 倍。所以海外不乏对 MiniMax-01 的热议甚至赞美，还有人称其为"来自中国的 AI 变革"。

与此同时，也有人从 MiniMax 发表的论文中注意到，这次突破所使用的核心架构——以 Lightning Attention 为主的架构，早在数年前就有人开始发表相关论文。这个人叫秦臻，他的框架理论从 2022 年到 2024 年不断更新，第一作者全是他。在新模型的相关论文中，MiniMax 大量引述了他的研究成果。

这就引出了第一件神奇的事：有人顺藤摸瓜，发现秦臻竟然并非 AI 创业公司的人，而是在心动 TapTap 增长和商业化部门（IEM）下的 AI 团队担任算法研究员，研究高效序列建模方法。

更巧的是，MiniMax 这家成立于 2021 年的 AI 独角兽，背后也站着游戏公司：2023 年，米哈游、腾讯都曾参股 MiniMax，次年米哈游又追加了一轮投资——不过，这真的只是巧合，和背后游戏公司的关系毫无关联。因为 MiniMax 也一直在研究线性 Attention 这条路线。只不过秦臻的研究成果，恰好为他们提供了重要的理论支撑。

问题在于，心动不能说和 AI 毫无联系，但也实在没太多牵扯；即便有所涉猎，研究条件、深度想来也很难比得上专业 AI 团队……他们为什么会招到这样的人？为什么会搞出这样的研究成果？

通过心动，葡萄君联系上了秦臻，以及他的同事，TapTap IEM AI 算法组的 Leader 赖鸿昌。

在 AI 领域，TapTap 倒是很早就有所行动，负责人戴云杰早在 2021 年就于 Slack 上表示过，要关注相关技术、推动投入研究资源。

但光看团队背景的话，这依然有点不可思议——一直以来，TapTap 的 AI 部门实际上没有所谓的"主线任务"，公司只是抱着长期主义的态度，觉得 AI 值得提前探索和投入，因此对团队也没有太多要求，只是鼓励他们多做一些探索性的尝试，无论是做算法设计，还是结合 App、游戏。为了让团队安心探索，据说他们还有一条制度：无论产出如何，都不会存在 M- 绩效。

而秦臻的存在就显得更为特殊：部门的算力资源当然比不上大厂，能支持他做研究的显卡不多，虽然可以小规模验证想法，但肯定支撑不了商用级别规模的 LLM 验证；公司角度呢，秦臻研究的线性 Transformer 架构，实际上也和心动的游戏业务没有太大联系，很难说会对业务增长有真正的帮助。

但第三件神奇的事，却正是由这些神奇的人和事汇集而成：在业务关联不大的情况下，TapTap 一直支持着 AI 部门的探索，秦臻也坚持把线性 Transformer 架构钻研了下去。最终，他的多篇论文被发布于顶刊，被持续研究相关技术的 MiniMax 引用、发扬光大，做出了国产 LLM 的一次重要尝试和突破。

和他们聊过之后，我更加觉得，少了任何一个巧妙的因素，这件事可能都发展不到这个地步。但有时候，这种重大的突破，可能就是和游戏研发一样，需要更多的耐心、更包容的环境以及长期主义，来支撑那些有动力坚持探索的人，去把有价值的事做下去。

就像秦臻和我们说的，他相信：如果你做的事真的很有价值，最后一定会有它被用上的一天。

以下为对话的内容实录：

大厂难落地的项目，

换个地方生根发芽

葡萄君：你是怎么来到 TapTap 的？

秦臻：在上一家公司的小组解散后，我看过一些大模型公司和大厂的机会。我那时的目标还不是很明确，但对之前做的线性 Attention 方向比较感兴趣，也比较擅长这件事，所以就想找个地方继续研究。

2023 年初聊下来一圈，我感觉大厂唯一的好处就是资源会更多，但规章制度会相对死板，给你的自由发挥度比较小。和 TapTap 聊过之后，我觉得这边会提供一个相对宽松自由的氛围。客观来说，对于做 Research 这件事，TapTap 提供的算力也绝对充足——因为即使在大厂，这件事也很难推动。综合考虑，我最后选择了 TapTap。

葡萄君：是不是大厂们不太关注这个方向，你们聊不到一块？

秦臻：我一般都会介绍我做过的一些工作，大部分人也算是有兴趣，但真正指望落地还是比较困难的。因为当时算是大模型的混沌阶段、古早时期，大家可能还是想先追赶 LLaMA 之类的模型。

葡萄君：线性 Attention 在早期的潜力还没有被验证，那时会不会有面试官觉得你在吹牛？

秦臻：还好，因为学术论文的论点不会那么大，只是表明它会在某些场景下可能有优势，没人会想着用这个替代大模型。而且论文总归会有一些亮点，否则也发不出去。

葡萄君：AI 大厂都涉猎不深，TapTap 为什么会接触到这种技术？

赖鸿昌：2020 年 GPT-3 面世时，TapTap 负责人戴云杰就关注到了大语言模型，并开始思考技术突破可能带来哪些新的变化。在 2023 年，必应发布了第一款 GPT 应用 New Bing 后，TapTap 也尝试做了类似的游戏 AI 交互式搜索。

戴云杰早期对 GPT-3 的关注

后来开始在市场上筛选目标候选人，招聘了大半年都没有合适的简历，直到后来筛到了秦臻。

当时我们的感受是，秦臻有很好的学术审美，知道自己该做什么。这个方向虽然与业务没有直接关联，但是最关键的事是要 follow 前沿，保持与学术、工业界的交流，不要掉队。所以我们决定，一定要有一个这样的人才来带着我们去做一些前沿研究。

葡萄君：你们聊得怎么样？

赖鸿昌：双方都很愉快，很快就敲定了。他讲的线性 Attention，我们大概能 get 到。而且这个研究成本我们能 cover 住，也能很好地 follow 到学术前沿。

另一方面，做这个方向的人本来就不多，而秦臻可以说就是专家，也有很强的自驱力。如果他真的跑通了，即使 TapTap 不能落地超大参数量模型，我们也可以用相对可控的成本，去做一个可能符合自己业务场景的模型，这是一个长远规划。

葡萄君：公司给你的资源真的够用吗？

秦臻：对于做 Research 来说，绝对是充足的，很多高校的实验室，据我所知一般都没有这种资源。只不过你要大规模验证，又是完全不够用的状态。

这就是心动和大厂的一个区别——你在大厂可能能得到很多资源，但是发挥空间很小。而且因为人很多，你一次性能调动的资源，可能没有想象的那么多。比如一个组内大几千张显卡，但首先训练大模型的人占了大部分，几个组一分，到最后你自己探索的卡，可能也就是百张的量级，没有本质的区别。

赖鸿昌：我们团队也认真讨论过，有这些卡够不够、用来干嘛，以及要不要加。

讨论的结果是，我们需要克制地去看待和发展 AI，让自己不会掉队，而不是要一开始就梭哈 AI。正是这种克制，才使得秦臻最后能跑出来。我们比的不是谁资源更多，而是谁能做得更久。

葡萄君：在这么混沌的领域搞探索，你们团队会觉得迷茫或艰难吗？

赖鸿昌：无论是我们还是其他人，在做 AI 应用的情况下，都会有点迷茫的。你会发现在技术上、落地上，都有很多的不可行，投入产出都需要评估，这对一个独立团队来说是比较痛苦的。

在秦臻来之前，我们做过各种应用探索，没有特别明确的主线，也是因为大部分事情都无法成为主线。

葡萄君：未知数太多，可能是 AI 研究魅力和痛苦的共同来源。

赖鸿昌：是的，所以去年，我们团队的 Leader 李昀泽定下了基调，他期望大家按照自己的兴趣去研究。先有了符合自己认知的需求和场景，再去实现落地，方向就会变得明确。而且我们团队和公司给的氛围，也是以自由度和自驱为主，让专业的人去做专业的事。这也比较符合心动与 TapTap 的文化。

你不可能永远领先，

但也不会永远落后

葡萄君：MiniMax 的大模型，实现了上下文 400 万 token，这是什么样的一个概念？

秦臻：技术背景上，Transformer 的核心模块是 Attention，它的复杂度和上下文长度是平方关系，也就是说 400 万的长度，需要 400 万平方的算力成本。之前大家不会做那么长，根本原因就是成本扛不住。

但假设你把 Attention 换成线性的，成本会变成 400 万。而 MiniMax 使用混合模型后，线性比例是 7/8，也就是说它的成本约等于（7/8 × 4000000）+（1/8 × 4000000^2），这远远低于纯 Attention 的成本。

另外，能训到这么大，意味着它有 Scaling 能力。一直以来没有公司去做这件事，就是因为担心 Scaling 会失败，这样你训练的那些成本可能就白费了，所以 MiniMax 能付出这样的勇气去走通这条路，还是非常有前瞻性、让人敬佩的。

葡萄君：这件事的实现，可能对 AI 发展有什么样的影响？

秦臻：从去年年初到年中，混合模型在学术界一直有所讨论，但规模一般都不是特别大，大概就是 LLaMA 7B、13B 的级别。大模型团队肯定也有业绩压力，训一个月模型，最后发现不 work？大部分人都没有勇气做这种事。

现在 MiniMax 可以说是跑通了，之后大家可能会去复现这个事情。同时它也会引起工业界的关注度，因为之前大家会觉得，相比真正的大模型来说，线性 Attention 还是一个学术玩具级别的东西。但是当一家公司把混合模型在商用规模上跑通之后，事情就不一样了。

MiniMax 01 模型的混合架构

葡萄君：它能降低的成本，大概是一个什么样的量级？

秦臻：理论上，假设之前的成本是 N^2，现在则是（1-P）*N+P*N^2，这个 P 你可以取得很小。在 P=1/8 的时候，它看起来还没有降得特别明显，但假设 P=1%，你的 N 又比较长，可能就会降 100 倍。

葡萄君：基数越大，省得就越多。

赖鸿昌：是的，大模型的参数，平方关系下很容易乘数爆炸。400B 的模型，再平方一下就是天文数字。所以大家为了降低成本做了很多工作，从 FlashAttention 到线性 Attention，都是为了把复杂度降低，先有理论上的可能，最终变成实际工业中可投产的技术。

葡萄君：秦臻是从多早开始关注这种技术方向的？

秦臻：从 2021 年下半年开始，我在上一家公司就在做这个方向，到现在已经三年半了。也是机缘巧合，在几条路线中正好选到这个方向。中间一段时间，我尝试过其他方案，最后发现有的方案不太行，有的方案是殊途同归，最后还是选择了线性 Attention。这个方法它首先比较有趣，其次复杂度也是最低的，后面就一直做下去了。

葡萄君：有趣在哪？

秦臻：在算法设计上，它是一个普适的想法，能应用到很多乍一看不相关的领域，相当于你不止研究了算法，还学会了一种设计思路。另一方面，研究这个领域，也能让我和那些喜欢这种算法之美的有趣同行交流。

葡萄君：线性 Attention 方面的研究成果，这几年你是如何思考研究方向的？

秦臻：大家公认的第一篇提出线性 Transformer 的论文，是在 2020~2021 年间发布的。大概从这时到 ChatGPT 面世之前，将近两年时间，相关文章都搜不到几篇。大家对这块的理解也不够深——现在很多人知道的 Mamba 模型，它的核心是状态空间模型（State Space Model, SSM），也是 21 年左右提出雏形的，现在看来和线性 Attention 是一个东西，只不过那时候大家互不知晓。

到 2023 年 ChatGPT 面世，线性 Attention 的关注度逐渐上升了一点。Lightning Attention 就是在 2023 年下半年开始做的，同期也有不少类似的工作，包括 Mamba，我看到之后，就感觉这个东西后面肯定会火，只是它火的程度超出我的预期了。

在那段时间，我发现所谓的线性 Attention 以及另一个小方向，叫 Linear RNN 和 SSM 其实都是一回事。虽然设计时有区别，但最后在计算逻辑上基本完全等价。

这个发现让我有点开心，也有点担心。开心在于，如果说你从很多不同方向去研究一件事，发现最后的方案收敛了，那收敛的结果应该是蛮有价值的；而担忧在于，如果未来大家都一样了，后面的区别到底在哪里呢？

之后直到 2023 年底，我也尝试训练过线性 Attention 架构。虽然那时有几个团队，能把线性 Attention 做到 7B、13B 这种规模，但是距离真正的 LLM，肯定还是有差距的。

葡萄君：做不起来的主要问题出在哪？

秦臻：我当时的认知是，检索是推理的前置条件，我们一般让模型有推理能力会通过添加很长的 Prompt（即 CoT），而 Prompt 起作用的前提是模型能完整记住 prompt 的内容。假设你输入一个很长的 Prompt，模型只能记住后面 20% 的位置，你这个 Prompt 就相当于几乎没起作用。

我试过一些市面上开源的线性 Attention 模型，也试过自己设计模型，发现检索能力都比较弱。做到这个时候，就感觉路还蛮难走的，因为当时既不知道线性 Attention 的未来是什么样，又发现它有这样的问题，所以一度感觉走进了死胡同。

葡萄君：行业可能也对这个方向信心不足。

秦臻：关于这个领域的未来，我自己也不清楚——你能不能拿固定大小的东西，记住任意长度的上下文？这个问题看起来是不太实际的。悲观派就觉得，有限大小的东西，记忆能力肯定是有限的；乐观派一方面觉得，记忆的大小、空间可能没有你想的那么小，还有些人会拿人脑的储存量与记忆能力做类比。

所以纯线性 Attention 能不能做所谓的推理检索任务，这应该是个开放问题，可能乐观一点的人还会去尝试。

葡萄君：你算是乐观派吗？

秦臻：我不算乐观，但我肯定不悲观。如果你想到比较有意思的 idea，发现没人做过，那至少试了才知道行不行。

赖鸿昌：技术发展往往是螺旋上升，总会有一些去修正与改进，也不是说所有研究都要一条道走到黑。从 Transformer 最早发布到现在，也有很多新的变化。

葡萄君：在这几年的研究中，你有没有碰到什么巨大的难点？

秦臻：刚入门和入行比较久之后都碰到过。刚入门时碰到的问题是缺少 idea，但这个阶段还还比较好解决，因为啥都不懂，接近白纸的状态，尽管你会没有什么想法，但是多读同行的论文就行，至少会有一些尝试的新方向。

因为理论上，一个领域 A 的方案也可以借鉴到领域 B。阅读量大了之后，你只会存在一个问题，就是有没有时间去尝试、到底要试哪个，因为时间是有限的。

入行比较久之后，又是另一种艰难——你看不到太多新东西了。钻研一两年之后，发现大家都在同一个水平线上，你从别人的论文里得不到太多灵感。这时你可能会去看看古早时期的论文，像 RNN 这个领域，上世纪六七十年代的论文都有，但看多之后，又会发现好多所谓的新东西，其实是几十年前的翻新。

在这个阶段，我感觉没有太多新的思路可以做。或者说有一些新的，同行已经在做了，我现在去做意义也不大。那段时间还是有点悲观的，感觉纯线性好像又没什么用，那做什么呢？

葡萄君：你是怎么走出来的？

秦臻：有很多同行也在做类似的事，多看几遍之后，确实会有一些新的灵感。你不可能永远领先，但也不会永远落后。只要一直保持探索、进一步去阅读，大家总归会在类似的水平线上交流的。

赖鸿昌：这很像刚才那个心态问题，我们做 AI 探索，一开始会很兴奋，那个时候可以说是真的愚昧之巅。到了去年，可能都落到了绝望之谷，这样的曲线在我们行业很常见。我们也经常会陷入自我否定、自我怀疑，但是又继续去阅读找灵感的状态。

反正不管是应用还是研究，应该都是慢慢打磨出来的，急躁的心态很难做好。

坚持做有价值的事，

一定有独特的意义

葡萄君：你们觉得 MiniMax 为什么会先人一步注意到这种技术选型，还把它在这么大的一个规模上实现了？

秦臻：可能因为他们是在大模型浪潮之前创立的公司，这类公司的特点就是，相比于浪潮之后的公司会更有一些技术信仰。

赖鸿昌：秦臻的工作验证了理论可能性，我们确实很佩服 MiniMax 愿意去尝试，能真的把这个研究成果最终落地。因为 400B 的模型，和我们做验证的难度不是一个量级的，他们也做了很多其他工作。

葡萄君：你看到他们的成果时，第一反应是什么，会有一些哭笑不得吗？

秦臻：不会，我很高兴。因为我首先知道，在 TapTap 训那么大的模型肯定是不现实的。所以从个人角度，你看到你所提的方案，被应用在这么大规模的模型里，肯定是会高兴的。

另一方面，从领域发展的角度，大家之前觉得线性 Attention 在小规模下可以跑通，但一直没有人有勇气做到这么大，而 MiniMax 做到了非常关键的临门一脚。我相信这会给行业注入新鲜血液，让这个领域发展得更好。

葡萄君：站在圈外看热闹的视角，我感觉不了解事情的人是不是会有一种误解——"心动的研究成果被别人摘桃子了"。

秦臻：你只要发表了论文，那任何一家公司都可以使用其中的技术。当你提出的技术被商业化落地，心情只有兴奋。

赖鸿昌：或者说，他们是在把我们提供的食材做成一道菜。我们也是满满的敬畏，而且乐于见到这样的事情发生。

葡萄君：最近成果出现之后，是不是会有很多人来打听你？这会对你造成一些影响吗？

秦臻：这个领域很小，之前的我相当于小透明，现在可能会有一些领域外的同行对我好奇，毕竟我是在 TapTap 做 Research，这是一个比较神奇的事情。

一些社群中对秦臻的讨论

葡萄君：我有点好奇，你实际上是这个方向的翘楚，却一直在当小透明，会不会觉得心里有点憋屈？

秦臻：如果没人关注，你心里不可能毫无波澜。但我也想过这个问题——如果你认为你做的东西有价值，别人看不看没那么重要。因为如果它真的很有价值，最后一定会有它被用上的一天。

如果你真的这么想，也喜欢自己认定的方向，就要尽量避免浮躁的心态。因为你做这些事不是为了赢得更多的关注度，而是为了你认定的价值去坚持。如果有一天它真的落地了，那还是一个额外的惊喜。

赖鸿昌：无论有没有人关注、成果如何，都能长期做某一件事情，这也是秦臻作为 Researcher 的一个天赋，其他人很难维持这样的心态。

葡萄君：在 AI 这个方向上，你们还有什么想做到的事情吗？

赖鸿昌：第一，不要去过早地判断，因为 AI 领域的可能性，本身远超我们能做判断的能力。

第二，我们希望顺着这条路，在今年更多尝试多模态大模型，支撑 TapTap 的业务，最好能在具体业务问题上用自己的模型解决。今年，我们会想办法去做 1~2 款应用，同时也要保持投入保持韧性，接受失败。在我们最终做完那一两款之前，肯定是要再失败 N 次的。

秦臻：从 Research 角度来说，去年半年我在线性模型方向有点陷入低谷，但现在的理解更进了一步，能尝试的还蛮多的。比如，当你的方案从方向 A 和方向 B 都升级过之后，那必然会得到一个更好的成果，但你不知道是方向 A 还是方向 B 起了作用，谁是冗余的，这对我来说就是一个值得研究的问题。

葡萄君：对 AI 行业未来的发展，你们还有什么样的展望吗？

秦臻：从工业界角度来说，这个领域就是 OpenAI 领跑，大家跟进。所以除非 OpenAI 本身碰到很大困难，否则应该还能再蓬勃发展一段时间。从我自己预测的角度来说，我还是比较关心线性模型。假设真的能 work，它能解锁的场景真的很多。

但是关键在于，这事情有个悖论——就算没跑通，因为深度学习的理论并没有特别完善，你做了一个不 work 的研究，它实际上可能还是 work 的。所以除非你真把它做 work 了，才能证明它 work；但你没做 work，却不代表它一定不 work。所以这个方向，可能还会有人持续去尝试。

赖鸿昌：大模型行业就应该在竞争中发展，而大家最后都会变成技术都受益者。我们能保持 follow，在某个时间节点来临的时候有所准备，那就是最好的结果。

游戏葡萄招聘内容编辑，

上一篇：没有了
下一篇：马云经典演讲刷屏: 真正厉害的人, 一生都在做这三件事