第113章李晓军和方麟_第1页_神临地复盘

拇指阅读网>神临地复盘手机访问加入书架章节目录小说详情

手机浏览器扫描二维码访问

第113章李晓军和方麟（第1页）

对自由行走者的申请重新火热了起来，但命中率实在不高，而且审核时间被拖得越来越长。好在，现在的申请者大多是有专业背景的研究人员，都不缺乏等待的耐心。命中的研究工作五花八门，什么方向的都有，从小分子药物实验，到新架构的引力波探测器。从反重力材料，到大规模人体实验仿真环境。甚至有一个团队申请到了一款时间加速装置用于农作物育种研究。他们在神国里得到一栋几百层的大楼，每层都有两亩农田，并配有以假乱真的阳光模拟装置，和各种完全自动化的无人农机。其中最神奇的是，每层楼的时间流速都能被任意控制，甚至最高能加速上千倍之多。作物种下去，实验程序设定好，一键按下去，一天之后作物就有了收成。这个效率把全世界的农业研究人员都刺激得像打了鸡血一样。有些自由行走者开始往自己的团队里面塞外国研究人员，这些人竟然也都顺顺利利地进入了神国。这一现象让世界各主要国家内部都开始暗流涌动。当然，在命中的这些申请书中，还是计算机领域的研究工作最多。各种性能屌炸天的gpu集群和超算平台被人们幻想了出来，用于各种各样稀奇古怪的研究任务。--------------------早上，李晓军把手下的五名博士生都召集到自己的办公室。他是985高校计算机专业的教授，今天这个会议主题非常明确，让大家群策群力地规划一个自由行走的申请书出来。缺乏大规模gpu资源的他，面对各大公司如烈火烹油般热闹的大模型研究，早已经产生了一种深深地无力感和危机感。神国能够为自由行走者提供的计算资源，在他看来简直就是一根救命稻草。何况自己媳妇也催得紧，让他赶紧想办法给他们一家弄个自由行走的名额出来。大家现在都称那些申请成功的自由行走者为“王栋的宠儿”，称那些团队成员为“伙计”。好吧，他的确已经年近五十，但当一当这个“王栋的宠儿”又何妨？今天，他就准备启动这件事了，并且按照往常的工作习惯，遇事不决开会讨论。然而，出乎李晓军预料的是，当他把会议的目的交待清楚后，竟然无一人发言，办公室里长时间陷入到冷场的状态之中。现在的年轻人都学精了，如果真有好点子，为什么自己不去当“自由行走者”？实际上，现在已经获得成功的申请者，那些“王栋的宠儿”，还真以年轻人居多。年轻人头脑灵活，更容易想出超出常理的研究方向和研究设备出来。而且，第一位王栋的宠儿，那个“太空粒子对撞机”的申请者，已经用他悲催的经历给大家做了很好的示范，太在乎地球上的尊卑关系，脸皮不够厚，最后倒霉的只能是自己。不得不承认，王栋的这一举措，又把地球上讲人脉、讲资历的学术圈子冲击了个七零八落。李晓军后知后觉，此时才意识到问题所在，一时之间也面沉似水。大家在沉重的气氛中僵持了半天，终于有人开口说话了，“我们弄个连续学习方面的本子吧。”说话的人叫方麟，是一位平时很让李晓军头疼的学生。倒不是说方麟是个很笨的学生，他才华横溢，聪明得紧，应该是李晓明带过的学生中最聪明的一个。但就是太有个性，自己想研究什么就研究什么，不怎么听指挥。李晓军不止一次想劝退这个学生，或转到别的老师名下。不能给老师干活的博士生当然不是好博士生。李晓军迟疑道：“这算是通用人工智能的范畴了，有点太超前了吧？”方麟瘦瘦高高，顶着一脑袋的长头发，虽然还没长到尽显艺术家的风范，但也足以像鸡窝一样乱糟糟的。方麟：“王栋不就是想要超前的东西么，越超前越好。”余下的同学都点头赞同，表示深以为然。李晓军也觉得有理：“大家现在都在做自监督预训练，有大模型大算力加持，出现了智能涌现。”“这几年连续学习相关的研究工作的确进展缓慢，好像没有什么清晰的方向，不好做啊。”“不过，好做的都被申请完了，做连续学习也不错，但咱们得弄出一个具有可行性的解决方案来。”方麟：“连续学习面对的主要问题是灾难性遗忘。如果让深度神经网分多次学习，学了后面的知识，就把前面的知识忘掉了，或者说覆盖掉了。”“所以，这是个如何在深度模型中保留记忆的问题。”“已有方法大概采用了如下三种技术路线：”“一是保留以前学过的部分代表性样本作为记忆，这些样本要参与到后面的模型训练，从而把记忆转化为模型参数；”“二是在模型学习新知识时限制参数在一个限定的范围内变化，而这个范围是由旧知识决定的，所以就达到了不会遗忘它们的效果；”，！“三是每次弄出不同的网络分支以对应不同的知识。”“第三种方法性能最差，较少被关注到，但我反倒觉得最具合理性。”“仿真人类的情况，我们的记忆难道不应该是神经网络形式的，不同的记忆难道不应该是不同的子网络么？。”“以前遇到的困难是如何将这些分支融合以达到记忆选择的效果，然而不融合直接选择也是一种办法。”“假设面对一种任务，其所要学习的知识有一万种子模式，每种模式我们都可以保留三个模型：一个用于生成已习得数据的模型，大模型形式的生成模型现在就很好用；另一个用于对新到达样本做数据增强，达到将一个样本变成上千个内容相同但表示不同的样本的目的；最后一个才是这个子模式对应的处理模型。”“用这三个模型来代表对某种模式知识的记忆。”“训练时，先将新到达样本在每个记忆模式里分别做数据增强，然后用对应的生成模型生产大量记忆样本。把记忆样本与增强样本一起去重新训练处理模型”“如果该处理模型对各种生成样本仍旧有较高的准确率，该子模式就被选中，把处理模型更新为重训模型，当然，生成模型和增强模型也需要一起被重新训练。”“推理时，过程也是一样的，将待处理样本在每个知识子模式中都进行增强，然后与生成样本一起重训处理模型，根据重训模型对各种生成样本的准确率，决定是否接受其识别结果。”李晓军已经听得眉头紧皱：“有点道理，这是用模型训练来解决模型选择问题，或者说记忆选择问题。”“假如真有上万个知识子模式，每一个样本都要进行上万次模型训练才能完成对它的学习和推理。学习时还行，慢就慢了。但推理时必须经过上万次模型训练，这能忍受么？”方麟：“我看王栋已经提供的那些计算平台，算力也都高得离谱。我们可以大致估算出来，我们这个方案如果要达到实时的推理速度，大概需要什么样的算力，比现在最高算力还要高几千万倍。”“不过这不是我们的问题，是王栋的问题，如果他能提供这样的算力，我们就可以按照这一思路进行研究。”“现在这个世界已经很魔幻了，不妨更魔幻一些。说不定王栋就：（）神临地

热门小说推荐