正在生成图片...
正在生成图片...
今天做了没有进行考研的任务,下课回寝的过程中手机恰好没电了,刚好给了我个不去图书馆的理由吧。
不知怎么的,心里也憋的难受。想着学一些东西打发时间,想到昨天好友让我学习一下ai,这会是一个十分重要的事情。于是我便打开电脑开始学习deepseek-V3的相关内容。
我上GitHub官网,找到了deepseek-V3的开源项目,通过项目介绍,我罗列了林林总总的许多问题,我在ai这一块完全是零基础,但我打算从第一个问题入手:混合专家(MoE)语言模型,这是一个通过稀疏激活部分专家模型,并通过门控网络(决策模块)进行加权求和的模型,通过问deepseek-R1和查找相关资料,我学习到了一些皮毛,但想要深入学习一下Transformer的隐藏层是如何将文字转换为向量的?以及Softmax是如何转换为概率分布的?发现其中涉及的机器学习知识我还不熟悉,甚至可以说几乎空白,若想要细致学习,恐怕还得补充一些知识。
考虑到我以后的研究偏理论,因此我觉得比起ai语言模型的内部原理,更多的在意ai模型的使用会更有效果。而且在考研的关键时期,学习这些东西可能会花去大把时间。
不过也算有收获,我至少学习到了MoE的些许皮毛,为了方便我的理解,我也整理出来并发在知乎上了。我也逐步认识到,我需要利用解释的方法,来不断完善和强化我对知识的深刻理解,因此,对于自己想学习的内容,用latex做好解释和说明是十分必要的。
因此,以后若想学习一段陌生的领域,就需要遵循:学习基础知识——写日志(latex)——发知乎。来实现知识的学习和运用。