负反馈机制--想给AI装个眼睛的破产方案

负反馈机制--想给AI装个眼睛的破产方案

去年看了一本书《协同进化》,里面提到的一个概念,负反馈。如果我们有录歌,或者微信听自己的语音信息的时候,特别是录歌,没听回放之前,感觉自己唱得非常棒,音色、音准、节奏绝了。结果回放的时候一听,就一个想法,这玩意是我的声音吗?我们对自己的声音有一种陌生感,跟我平时一直脑子里面感觉的那个声音完全不一样。

产生的原因一种是外在因素,我们说话的时候,声音不仅会通过空气传导到耳朵,还会通过颅骨和软组织直接传导到内耳。颅骨传导会强化低频声音,这种情况下,我们听到的自己声音更加浑厚、饱满,所以自己感觉自己唱歌都挺好听的。而录音只记录了空气传导的声音,缺少了这种"内部加工",因此听起来尖细,甚至令人陌生。

另一种是大脑的负反馈控制系统,当我们说话的时候,大脑首先会决定我们要说什么,然后指挥口、舌,让其发出声音。当然指令是大脑发出来的,大脑预先已经生成了一个“感知副本”,预测我们将听到的声音,当耳朵接收到了实际的声音之后,大脑会比较“听到的实际声音”和“预期的副本”之间的差异,如果遇到两者不符的,大脑便会发出指令进行微调,以便达到更好的匹配预期。我们在说话的时候,大脑基本上就是在持续不断,快速的重复上述的这个过程,不让说话产生延迟,让语言表达的顺畅。所以有听力障碍的人,则常常会口齿不清,或者上述的这个过程延迟过长,产生停顿类似磕巴的效果,神经紧张的时候也会影响大脑的负反馈控制系统。

正反馈和负反馈的区别

我们玩麦克风和音箱的时候,经常会遇到,在麦克风离着扬声器很近的情况下,扬声器就会发出那种尖锐的啸叫声,那声音是真难听啊。正反馈就是系统根据反馈信号朝着错误的方法进行调整。就是扬声器把麦克风收到的声音,不断放大放大,达到极限。

负反馈则是系统根据反馈的信息进行调整,减少误差。就是上面大脑控制说话的这个过程。

负反馈的作用

如今智能音箱越来越多,所谓智能,自然都会有语音交互功能,当环境安静的时候,“HI XXXX”很轻松的能唤起智能音箱,当智能音乐播放音乐的时候,“HI XXXX”我们还是能很轻松的给智能音箱下发指令,这就是用到了负反馈,回声消除技术,音箱会预先有一个扬声器会发出什么声音的“感知副本”,当接收到声音的时候,会把“感知副本”的这部分声音分离开,以便更清楚的接收到环境声音。

我们走楼递的时候也是一样,只是这时候把声音换成了视觉传导,眼睛会目测一下台阶的高度,大脑给腿部下发指令,让其抬到预期的高度踩下去,这样我们可以一步一步很顺利的踩着每一阶台阶,然后中间有某一个台阶忽然高度不一致,而我们的眼睛没有识别出来的时候,大脑还会按原来的高度发送指令,这时候实际情况与下发的指令不匹配,我们就会趔趄或者直接摔了吧。

引入正题

我们日常使用大模型,问答、解题、重新整理内容等不同场景,这些场景的情况我们都需要给他输入信息内容,只是帮我们做了一个信息处理的工作,回到上面我们走台阶这个过程,睛眼接收台阶信息,大脑决策,腿执行这样一直重复,大模型的图形分析功能也越来越强势的情况下,我们能不能把图形分析当成大模型的眼睛呢?

假设一个场景:

现在空调都带了遥控的功能,我远程控制一个空调,夏天给其设定到制冷20度的温度,我们在APP上能知道空调的一些信息,如网络情况、电源、温度等,但开了一小时环境温度还是没有到20度,发现APP上的数据全部都是正常的,限入迷茫。这时候打开摄像头,发现门窗全开的。如果我把前面的描述和图片一起给AI,让AI自行决策呢?

Image.png

也就是如果我们把AI大模型当成一个可以决策执行的智能体,通常情况下物联网平台都可以感知到实时的物联数据和操控,但有这些数据同时AI无法获取车间场景信息,如果我们用给AI装上眼睛和耳朵,也就是摄像头和音频设备,实时分析图像和音频信息,一起发送给AI,在有足够准确的知识库的加持下,AI是否可以也用负反馈的机制实时的控制系统,不停的微调来达到系统的最佳状态呢。

公司是处理工业水处理的,需要根据矾花的形状、颜色等信息,与其它的传感器信息一起分析,调整加药量。如果我们能准确及时的分析矾花抓拍的图片信息,结合其它传感器的实时数据和系统内的一些操作数据,AI根据知识库的知识、图片信息、系统数据进行推理调整方案,并对于这个方案给出预期的结果(感知副本),对于调整方案实施后的数据和预期的结果进行比较,再进一步微调,最终达到实际与预期相匹配。

半途而废的撸路

最开始的测试方案设想是:

撸一个简单的web页面,一个红色色块,用html2canvas截图发送给图形分析,告诉其,我需要红色色块占整个页面的0.618,给出调整数据,调整完再一次截图验证准确性,直到达到0.618为止。

然后因为调用模型困难,又不想本地装个OpenCV,换用了一个代替方案,只是想知道一下红色和整个页面的宽度嘛,直接截红色的dom和整个页面的dom,这样比例就出来了,借由这个发给大模型,发现算那么回事,红色在来回闪了几次之后最终到了正常比例。(下图不是啊)

Image.png

短暂思索,这终归不是视觉方案啊。

接着重新换个思路,换ocr图片文字识别,这也算是视觉分析吧。

**更换设想:**初始化根据要求写一个500字的故事,然后用html2canvas发送给ocr识别故事的文字,和指定的要求给大模型,并要求其打分,如果分数不够,则提出修改后的版本。接着就是重复后面这一步。直到大模型打分达到要求为止。

  • 第一步 撸页面 ☑️
  • 第二步 装mac-ocr 启动服务 ☑️
  • 第三步 ollama 拉一个小的模型并提供服务 ☑️
  • 第四步 把页面的事件和几个服务串起来 ☑️

结果这个破的小模型乱出牌,就是它gemma3:1b ,10+10=30 也告诉我是正确的那种。

实践方案跑到这里不高兴玩了

最后

还是觉得视觉方案联动大模型,在工业水处理里面有很大的空间,某能源车的行车路面,提前视觉感知减速带,系统指挥车身工作系统提前准确,无感过减速度。