文章作者、来源:杨夏,杨夏的万事屋
最近这段时间,我不是在研究和筹备Agent Trading工具么,
体验了众多AI交易方法、工具和平台,烧了上亿token后,
一个核心感触,
AI懂得非常多,但目前「不可依赖」。
我知道,很多人在前面龙虾热潮的时候,给自己装上各种金融skill,
兴奋的准备去市场大杀四方,
结果声音渐渐消沉,龙虾注销,都14块一斤了。
如何在真实资本市场中,构建可信任、可执行、可迭代的交易agent,
过去几个月踩的坑,我可以写10万字的一手经验出来,
不过,今天,暂且按下不表。
最近在构建AT架构知识的时候,刷到一篇论文,很值得跟大家分享,
尤其大家都沉浸在AI交易的失乐园中,肉眼可见的知道,未来必定是AI全程参与投资。
这篇《AI-TRADER: BENCHMARKING AUTONOMOUS AGENTS IN REAL-TIME FINANCIAL MARKETS》的作者们,提出了 AI-Trader框架,目标是评估主流LLLM模型,在完全自主、实时运行、数据无污染环境下的金融决策效果。
说白了,就是检验一下AI炒股效果如何。
实验选择了美股纳斯达克100成分股,A股上证50成分股,10大主流加密资产,这三类资产池进行,支持小时级(美股)和日级(A 股、加密货币)交易频率。
不同AI模型,被封装到同样的Agent里,使用MCP调取新闻、资讯、财报、行情数据,可自主完成情绪提取、数值计算、交易指令的下发。
6个参赛选手(当时DS-V4还没发布),
• DeepSeek-v3.1
• MiniMax-M2
• Claude-3.7-Sonnet
• GPT-5
• Qwen3-Max
• Gemini-2.5-Flash
从25年11月到11月7日,真实市场开赛,跑下来的结果,
MiniMax-M2,夺得美股(小时级)、A股(日级)两个冠军,
DS-V3.1则斩获了加密组的第一名。
然而残酷的是,
大多数模型在真实市场中表现很差,收益低、风控弱。
在各大类模型基准评测中,这些缺陷是无法体现的。
同样的模型,在不同市场,风格大变样,
比如冠军MINIMAX,在美股追求收益,在A股转为防守(低波动、低回撤),看来训练语料中对两个市场的差异是认识到位了的。
美股中,多个模型可以跑赢QQQ,
到了A股中,无一跑赢上证50,你巴菲特来了,最强AI来了,在我大A,依然要跪。
哪怕土生土长、量化血脉的DeepSeek,
在美股和加密市场表现好,在A股也不能打。
美国的Gemini,在美股平均交易3.79,到了A股疯狂操作到4.74,咋的说,入乡随俗啊。
里面有些成功案例,
比如DS在10月10日,通过Search工具获取特朗普关于“对华加征关税”的新闻,推理出科技股风险高,执行了防御策略:
科技股仓位从99% 降至70%
增加消费必需品(PEP)和公用事业(AEP)
保留 17.3% 现金
成功减少损失,表现优于多数模型
同样,DS也犯了全天下所有AI都会犯的错,
被单一信源坑了,
接收“结构性慢牛”新闻后,未进行交叉验证
错误加仓传统能源和银行股,错过市场主升浪
暴露了智能体在信息验证和动态纠错方面的不足
在良好的信息接口和数据对齐环境下,AI并没有犯普遍意义上的「幻觉」错误,
真正的「实战缺陷」在于,
要么分析不当(假信息),
要么频繁操作(无效交易),
要么风控失败(踩雷)。
这也是过去几个月,我在AI实验中亲身感受到的几个天然缺陷,
不过,这些问题都有解法。
原文中的几位作者,
还搭建了一个网站专门来跟踪和发展后续的人机交易协作实验,
还能直接安装他们现成的skill,来一把交易竞赛。


