负反馈机制--想给AI装个眼睛的破产方案

去年看了一本书《协同进化》，里面提到的一个概念，负反馈。如果我们有录歌，或者微信听自己的语音信息的时候，特别是录歌，没听回放之前，感觉自己唱得非常棒，音色、音准、节奏绝了。结果回放的时候一听，就一个想法，这玩意是我的声音吗？我们对自己的声音有一种陌生感，跟我平时一直脑子里面感觉的那个声音完全不一样。

产生的原因一种是外在因素，我们说话的时候，声音不仅会通过空气传导到耳朵，还会通过颅骨和软组织直接传导到内耳。颅骨传导会强化低频声音，这种情况下，我们听到的自己声音更加浑厚、饱满，所以自己感觉自己唱歌都挺好听的。而录音只记录了空气传导的声音，缺少了这种"内部加工"，因此听起来尖细，甚至令人陌生。

另一种是大脑的负反馈控制系统，当我们说话的时候，大脑首先会决定我们要说什么，然后指挥口、舌，让其发出声音。当然指令是大脑发出来的，大脑预先已经生成了一个“感知副本”，预测我们将听到的声音，当耳朵接收到了实际的声音之后，大脑会比较“听到的实际声音”和“预期的副本”之间的差异，如果遇到两者不符的，大脑便会发出指令进行微调，以便达到更好的匹配预期。我们在说话的时候，大脑基本上就是在持续不断，快速的重复上述的这个过程，不让说话产生延迟，让语言表达的顺畅。所以有听力障碍的人，则常常会口齿不清，或者上述的这个过程延迟过长，产生停顿类似磕巴的效果，神经紧张的时候也会影响大脑的负反馈控制系统。

正反馈和负反馈的区别

我们玩麦克风和音箱的时候，经常会遇到，在麦克风离着扬声器很近的情况下，扬声器就会发出那种尖锐的啸叫声，那声音是真难听啊。正反馈就是系统根据反馈信号朝着错误的方法进行调整。就是扬声器把麦克风收到的声音，不断放大放大，达到极限。

负反馈则是系统根据反馈的信息进行调整，减少误差。就是上面大脑控制说话的这个过程。

负反馈的作用

如今智能音箱越来越多，所谓智能，自然都会有语音交互功能，当环境安静的时候，“HI XXXX”很轻松的能唤起智能音箱，当智能音乐播放音乐的时候，“HI XXXX”我们还是能很轻松的给智能音箱下发指令，这就是用到了负反馈，回声消除技术，音箱会预先有一个扬声器会发出什么声音的“感知副本”，当接收到声音的时候，会把“感知副本”的这部分声音分离开，以便更清楚的接收到环境声音。

我们走楼递的时候也是一样，只是这时候把声音换成了视觉传导，眼睛会目测一下台阶的高度，大脑给腿部下发指令，让其抬到预期的高度踩下去，这样我们可以一步一步很顺利的踩着每一阶台阶，然后中间有某一个台阶忽然高度不一致，而我们的眼睛没有识别出来的时候，大脑还会按原来的高度发送指令，这时候实际情况与下发的指令不匹配，我们就会趔趄或者直接摔了吧。

引入正题

我们日常使用大模型，问答、解题、重新整理内容等不同场景，这些场景的情况我们都需要给他输入信息内容，只是帮我们做了一个信息处理的工作，回到上面我们走台阶这个过程，睛眼接收台阶信息，大脑决策，腿执行这样一直重复，大模型的图形分析功能也越来越强势的情况下，我们能不能把图形分析当成大模型的眼睛呢？

假设一个场景：

现在空调都带了遥控的功能，我远程控制一个空调，夏天给其设定到制冷20度的温度，我们在APP上能知道空调的一些信息，如网络情况、电源、温度等，但开了一小时环境温度还是没有到20度，发现APP上的数据全部都是正常的，限入迷茫。这时候打开摄像头，发现门窗全开的。如果我把前面的描述和图片一起给AI，让AI自行决策呢？

也就是如果我们把AI大模型当成一个可以决策执行的智能体，通常情况下物联网平台都可以感知到实时的物联数据和操控，但有这些数据同时AI无法获取车间场景信息，如果我们用给AI装上眼睛和耳朵，也就是摄像头和音频设备，实时分析图像和音频信息，一起发送给AI，在有足够准确的知识库的加持下，AI是否可以也用负反馈的机制实时的控制系统，不停的微调来达到系统的最佳状态呢。

公司是处理工业水处理的，需要根据矾花的形状、颜色等信息，与其它的传感器信息一起分析，调整加药量。如果我们能准确及时的分析矾花抓拍的图片信息，结合其它传感器的实时数据和系统内的一些操作数据，AI根据知识库的知识、图片信息、系统数据进行推理调整方案，并对于这个方案给出预期的结果（感知副本），对于调整方案实施后的数据和预期的结果进行比较，再进一步微调，最终达到实际与预期相匹配。

半途而废的撸路

最开始的测试方案设想是：

撸一个简单的web页面，一个红色色块，用html2canvas截图发送给图形分析，告诉其，我需要红色色块占整个页面的0.618，给出调整数据，调整完再一次截图验证准确性，直到达到0.618为止。

然后因为调用模型困难，又不想本地装个OpenCV，换用了一个代替方案，只是想知道一下红色和整个页面的宽度嘛，直接截红色的dom和整个页面的dom，这样比例就出来了，借由这个发给大模型，发现算那么回事，红色在来回闪了几次之后最终到了正常比例。(下图不是啊)

短暂思索，这终归不是视觉方案啊。

接着重新换个思路，换ocr图片文字识别，这也算是视觉分析吧。

**更换设想：**初始化根据要求写一个500字的故事，然后用html2canvas发送给ocr识别故事的文字，和指定的要求给大模型，并要求其打分，如果分数不够，则提出修改后的版本。接着就是重复后面这一步。直到大模型打分达到要求为止。

第一步撸页面 ☑️
第二步装mac-ocr 启动服务 ☑️
第三步 ollama 拉一个小的模型并提供服务 ☑️
第四步把页面的事件和几个服务串起来 ☑️

结果这个破的小模型乱出牌，就是它gemma3:1b ，10+10=30 也告诉我是正确的那种。

实践方案跑到这里不高兴玩了

最后

还是觉得视觉方案联动大模型，在工业水处理里面有很大的空间，某能源车的行车路面，提前视觉感知减速带，系统指挥车身工作系统提前准确，无感过减速度。