加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

DeepSeek又火啦,AI继续抱团!指数萎靡不振,怎么办?

(2025-01-27 13:57:00)
标签:

星座

股票

财经

365

娱乐


 

 

 

大盘:

 

https://mdn.alipayobjects.com/open_content/afts/img/A*kB9pS5lAMEMAAAAAAAAAAAAAfVx1AQ/original


 

创业板:

 

https://mdn.alipayobjects.com/open_content/afts/img/A*cAq4RZPzAYYAAAAAAAAAAAAAfVx1AQ/original


 

【大盘预判】

上证指数周一红盘震荡,春节前收阳线是板上钉钉,仔细看看股指期货的“运作”就明白了,不过节后怎么走依然还是“问号满天飞”!股市震荡走强,春季行情渐近。2024 年国内GDP 增长达5%,国内经济韧性有效对冲外部不确定性。特朗普揭幕“星际之门计划”,全球科技板块共振抬升,A 股情绪得以提振。长短期因素共振下A 股有望上行。接下来注意上证指数能否在3260点之上稳住。

 

 

创业板指数周一低开低走,盘中向下的调整,再加上部分“明星股”和强势股的回调,说明资金在节前仍然还是减仓持币为主,但是缩量行情也说明市场分歧而已,还不是单方面碾压的空头走势。经济基本面企稳向好,人民币汇率韧性十足。央行发行离岸人民币央票、暂停国债买入、上调跨境融资宏观审慎调节参数,汇率市场日趋稳定。特朗普政令签发有望降低美国通胀,为美联储带来降息空间。内外环境共同影响下,人民币汇率有望中枢稳定。接下来注意创业板指数能否在2100点之上稳住。

 

 

https://mdn.alipayobjects.com/open_content/afts/img/A*u3JaRrbkRDgAAAAAAAAAAAAAfVx1AQ/original


【淘金计划】    

A股共有2735家上市公司披露了2024年业绩预告,907家公司业绩预喜。其中,略增111家,扭亏291家,续盈10家,预增495家。从行业角度看,生物医药、半导体、化工等行业上市公司业绩表现较好。另外,聚灿光电、指南针发布了2024年年报,两家公司均实现业绩增长。从净利润规模看,预计2024年归属于上市公司股东的净利润下限超过1亿元的公司有634家,预计超过5亿元的公司有220家,预计超过10亿元的有117家,预计超过20亿元的有59家。贵州茅台、中国神华、中远海控、宁德时代、中国太保等公司预计2024年归属于上市公司股东的净利润规模居前。

 

题材板块中的DEEPSEEK、电力、家居用品等概念是资金净流入的主要参与板块,铜缆高速连接、通信设备、人形机器人等概念是资金净流出相对较大的板块。骑牛看熊发现根据技术报告披露,DeepSeek-V3 率先采用了无辅助损失的负载均衡策略,最大限度地减少了因鼓励负载均衡而导致的性能下降。在预训练阶段,模型设计了一个FP8 混合精度训练框架,通过算法、框架和硬件的协同设计,克服了跨节点MoE 训练中的通信瓶颈,实现了近乎完全的计算通信重叠。这显著提高了训练效率并降低了训练成本。在后训练阶段,将推理能力从DeepSeek R1 系列中的模型提取到DeepSeek-V3 中。

 

DeepSeek-R1-Zero在技术路线上实现了突破性创新,成为首个完全摒弃监督微调环节、完全依赖强化学习训练的大语言模型,证明了无监督或弱监督学习方法在提升模型推理能力方面的巨大潜力。在此基础上,DeepSeek-R1对R1-Zero进行了改进。通过引入冷启动数据,并历经推理导向强化学习、拒绝采样、监督微调以及全场景强化学习的多阶段训练,充分发挥了强化学习的自学习和自进化能力。

 

一方面,国产推理模型持续迭代,推理侧的scaling up将带来推理算力需求的显著提升;另一方面,通过利用DeepSeek-R1整理的80万个样本进行微调,小型模型推理能力显著提升,或加速垂类模型应用落地进程。华创证券也表示,AI大模型本质应落脚垂类应用,看好AI+应用产品力与商业化落地进程,细分包括办公、法律、医疗、教育、金融、传媒等。

 

DeepSeek-V3 优异表现源于其技术革新。基于其前身 DeepSeek-V2 的高效性,DeepSeek-V3 采用了用于高效推理的多头潜在注意力(Multi-head Latent Attention,MLA)和用于经济训练的DeepSeekMoE。同时,DeepSeek-V3 为DeepSeekMoE 额外引入了辅助无损耗负载平衡策略,以减轻因确保负载平衡而导致的性能下降,并采用了多Token 预测目标(Multi-Token Prediction,MTP)用于推理加速的推测解码,从而提高模型性能。在模型架构方面的创新有力的提升了DeepSeek-V3 的性能表现。

 

   低成本训练高性能输出,DeepSeek-V3 或将降低大模型准入门槛。此次DeepSeek-V3仅用277.8 万个H800 GPU 小时便完成了训练,并在性能上达到了世界领先的水平,说明了目前在数据和算法方面仍有大量优化空间,后续有望在有限的预算下开发强劲性能的大模型,从而降低大模型的准入门槛,推动AI 应用的落地进程。

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有