多模态交互框架的设计思路【太空探索技术公司吧】

本文将讨论多模态交互的意义及各模态对于认知形成的作用，然后详细讨论文本图像双模态大模型的交互框架设计思路，并猜测大模型的内部结构及其更新方式。
多模态交互的意义：通过文本、图像等模态的上下文理解结合跨模态理解实现更准确完备的理解，或者在纯粹符号形式推理难以得到结果时结合图像等模态信息简化推理过程，典型例子如数学的数形结合、费曼图简化复杂方程的计算。
人脑各模态对认知形成的作用：文本(符号)加快思考过程、实现复杂思考以及意识中枢处理信息的主要载体；图像用于关键特征的寻找和校验、简化符号推理难以实现的情况；触觉用于理解物体的物理属性；听觉用于心理活动、节奏感形成；嗅觉和味觉用于形成对某些复杂系统的关键特征的直觉形成，如嗅到商机。
在讨论文本图像双模态大模型的交互框架设计思路之前，先驳斥一个关于图灵机无法实现agi的言论：有人认为图灵机无法判定“停机问题”所以基于图灵机不可能实现agi。这个观点很搞笑，因为人脑不借助外界环境一样判定不了所谓的“停机问题”，“停机问题”本质上是造物主要解决的问题，不是图灵机要解决的问题。
人脑使用最多的模态就是文本与图像，因此讨论这两者的交互意义极大，而且也能给其他模态的交互提供参考。如图1所示，从人脑的视觉感知与概念在视觉空间呈现的情况来看，图像的特征抽取对象是固定的，主要是轮廓、方向、颜色、纹理等特征，并且大脑皮层会记住其中的关键帧用于概念的图像呈现与回溯。
如图2所示，参考人脑中概念在视觉空间的呈现和回溯情况，设计了文本图像模型的交互框架。总体来看，从细粒度的图像抽象到粗粒度的文本使得信息密度暴增并极大得提高了信息处理的效率。llya认为压缩即智能且认为是无损压缩，直觉上讲没有问题，不过只有造物主能做到完备的符号与真实世界的无损映射，人类想要接近这一目标，必须充分收集真实世界的信息并通过序列模型进行压缩。如何充分收集真实世界的信息？多模态是必然路径。前文提到过多模态对于认知的意义，这里举一个有更多细节的例子。在举这个例子前我先给出一个判断：openai将要发布的gpt5的形式逻辑推理能力会爆炸式增强，原因在于大语言模型结合分步奖励与引导强化学习可以让大模型学会复杂的思考模式、沉淀出好的价值评估与策略模型。但是由于缺少多模态交互，其创造力也即新认知的产生能力依然极大受限，那些借助图像容易进行推导的以及依赖于在视觉空间联想或者想象回溯的东西也难以进行。下面具体介绍这个例子：经典的双圆盘滚动问题。有一大圆盘和小圆盘同心同轴，两个圆盘下方均有一水平板子，当圆盘在板子上运动时，大小圆盘分别做什么运动？如果没有事先了解问题的解法，现场推导此题，难度不小，尤其是如果只依赖形式逻辑推理，恐怕方向都找不到，这种事应该只有造物主能做到，gpt5自然也做不到，背答案的话搜索引擎就够了不用那么大费周章去训练一个大模型。那么如何借助图像秒杀此题呢？首先注意到如果圆盘和板子是理想模型，那么圆盘和板子上将有无穷多点，其运动自然是点与点一一对应式的滚动。但事实上圆盘和板子是分子构成的，边缘不连续，且分子间隔一致（默认材质一样，如果分子间隔与半径成比例结果均为滚动）。当同心圆盘转动一定弧度时，大圆盘将有足够的分子与板子分子一一对应，而小圆盘会按半径比例少掉对应的分子数，在大圆盘有对应分子而相同弧度上小圆盘没有对应分子时小圆盘只能滑动前进。综上所述大圆盘按滚动运动而小圆盘是滚动加滑动。
如图3所示详细介绍了文本图像交互的流程，也即概念在视觉空间的呈现与回溯流程。运行中的符号流经过价值评估与策略模型提取出目标符号流，目标符号流经过映射通道在lvm中找到对应图像或者生成想象的图像，然后该图像经过特征提取器抽取轮廓、纹理、颜色、方向等特征组成特征集给lvm，然后经过映射通过将对应符号流给llm的价值评估与策略模型评估是否找到足够的目标对象，不是的话就根据返回的符号流中有无目标对象的描述及其与目标精度的差距来决定是通过控制流（放大、缩小、平移、叠加、旋转、对称、翻转、拼接等操作）操作图像还是发送新的目标符号流生成新的图像用于特征提取。经过这样的流程就能实现关键特征的检验和获取，帮助产生更可信的认知以及实现更强的认知推理能力。

送TA礼物

IP属地:江西

来自iPhone客户端1楼2024-01-06 18:35回复

关于大模型的内生结构，这里做一些猜测，总体上高层是一些抽象的用于描述方向和宏观结构的序列，内生的价值评估与策略模型大约位于这一层；中层是一些具体的分好类的具有层次关系的概念模型；底层是一些公共的符号元素。图像序列模型也是类似的，高层是抽象结构和方向，中层是具体的具有层次结构的典型图像，底层是公共特征。从人类语言的演化过程来看，可以猜测语言区是从视觉区分离出来的。在某乎上看到有人提到过大模型内存在回路竞争的猜测，这点挺符合人脑内存在奖励倾向竞争的事实的，大约概念回溯的本质就是通过关键特征的检验与获取结果来决定回路走向。
前面提到想象图像的生成，这个可能可以用扩散模型来实现，但是扩散模型的控制还很难很精确，可能可以通过llm与lvm的联合训练来实现好的控制？关于借助llm训练lvm可以考虑训练抓取关键帧、预测一个语义片段的结局等任务。
最后联系到dna序列经过几十亿年的撞墙撞出来的围绕存续建立的奖励系统，大模型的价值评估与策略模型大约也要在预测准确率越来越高的方向上不断沉淀出越来越深刻系统精确完备的结构来。

IP属地:江西

来自iPhone客户端2楼2024-01-06 20:44

这是哪里的文章？请注明来源

IP属地:四川

来自Android客户端4楼2024-01-15 21:59

收起回复

架构再好，也必须解决一个问题：
该用什么数据训练？
如果你需要无法直接从互联网上爬下来的数据，那这就只是设想而已

IP属地:美国

来自Android客户端5楼2024-01-15 23:54

收起回复

加精鼓励发原创科技文～～

IP属地:四川

来自Android客户端6楼2024-01-18 22:07

拳头给飞神定制了十年S赛版本，导致你跌十年被暴打没赢过一个bo5

IP属地:安徽

来自iPhone客户端7楼2024-01-30 10:19

openai的那个科学家叫ilya，不是llya

IP属地:陕西

来自Android客户端8楼2024-01-30 20:17

IP属地:浙江

来自Android客户端9楼2024-03-30 14:35

更新一些新的东西

推理的严密性来源于更细粒度的概念形成能力，这也是多模态的必要性来源之一。多模态的另一个必要性在于可以提供更多的视角维度和相应方向。味觉能提供复杂模式的识别匹配，比如常说的有内味了，不过可能只是大脑不同模态的关联判断空间融合了的原因导致的。
文本图像模态融合的训练方式：通过3d游戏和具身智能训练来来建立基于图像的关联行为空间（包括关联判断和关联选择），通过语言大模型输出控制流给sora生成图像，然后通过图像感知模块触发关联行为空间，将触发的关联判断和语言大模型输出的控制流对比后，语言大模型要求sora调整不合格的输出，如此循环把sora打造成一个图像联想和想像的工具。
一些必须要突破的前置技术：动态步长更新（基于自由能理论的动态步长驱动）、agent系统用于快速记住一些中间步骤和重要的表述、合成数据及培养式数据集。
注意到关联行为空间在动态更新步长的驱动下会快速收敛并离散化，关联行为的离散化是确定性和清晰性的来源。

IP属地:江西

来自iPhone客户端10楼2024-04-26 09:44

日	一	二	三	四	五	六

多模态交互框架的设计思路

登录百度账号

扫二维码下载贴吧客户端