他的动态 还没有动态 认证与成就 认证信息 微软(中国)有限公司 员工 获得1,148 次赞同 获得1,064 次喜欢,2,834 次收藏 参与5 次公共编辑 知乎众裁官 关注了24 关注者1324 赞助的 Live ⚡️22关注的话题2关注的专栏0关注的问题80关注的收藏夹0 帮助中心 知乎隐私保护指引...
微软新出的模型GRIN,已经开源了。看起来和phy3.5差不多,其实是算法炒冷饭,GRIN的爽点是采用业界都不太用的MOE的训练求梯度方式STE(Straight-Through Estimator )来替换常用的gating gradient proxy来求梯度,众所周知,MOE是离散的所以是不可微的,因为不可微,就做不了反向传播。也就是BP。没BP,也就求不了梯度,动摇...
微软的我就不知道了 我尽量把能说的都说了,还是那句话,能说的说了,不能说的,也没法说,大家自己脑补吧,主要是好多人太好奇了,也私信说,硬件讲讲maia,否则我也不会选这个topic的...
先import库 Load dataset, 我特意挑大家都总能看到的sst2 ,和MMLU一样都算是打榜之王系列 然后它自动给你分训练集测试集 下载下来的数据样本 Load 模型 结构化提示词和mapping映射 导入认证体系,这块吐槽一下,微软自己的开源项目都不支持AOAI,因为没拿langchain写,改认证体系巨麻烦,我都直接改源码去了,贼麻烦....
周博洋 微软(中国)有限公司 员工 Phi-3出了,先看论文 pretrain一共3.3T token,但是玩了个2阶段,一阶段网络数据来学习一般知识, 二阶段,过滤过的一阶段数据+逻辑推理和其他能力的合成数据,模型大小为mini 3.8B,small 8B,medium 14B,链接
周博洋 微软(中国)有限公司 员工 Flow engineering 就是 multi-agent orchestration , 就是Metagpt,也是 Autogen,这东西本来是新处理范式结果出来个gpts mentions…以后rag能做的事越来越少了,唯一确认能用的上的就是私域知识的注入,其他真都用不上了,然而也不直挂模型了,作为agent的其中一个数据源而已...
答案就是小模型(我前面一直提20B,哈哈,各位应该也听过一篇微软漏出来的ChatGPT20B的论文)加Speculative Decoding即投机采样。 先说推理: 因为LLM都是Causal decoder自回归模式的,所以token都是一个一个的推,步骤也就是两个,一个是prefill 一个是decoding ...
人家是ASR啊,所以你要是想做A2A,也就是audio to audio,那你架构就得这样了,比如拿微软的Vall-E来做TTS 为啥中间还要加个chatGPT呢?因为两边的东西都不知道怎么回答你,上面的架构可以理解为之前的延迟好几秒的GPT语音版本。 延迟高体验效果就稍差一点,没那么沉浸,毕竟闲聊的每句话都思考,也不是个事 ...
, 我肯定公平啊,我后面写微软的Maia那个也400多,我也写和A100差不多(你们可以看我是不是公正...) 第三个概念 Tile: 台积电给它做的SoW方案的晶圆升级,每个Tile有25个D1被封装到这个Tile上,某种程度上可以理解为,Tile其实才是对外服务的最小单元,一个Tile包含io,计算,供电和液冷模块,功率15kw,刚才我说供电...