京东2025年Q2财报数据全景
2025年8月30日 · 166 字 · 1 分钟 · 财报分析 京东 电商 外卖业务
深度解读京东2025年第二季度核心数据,营收创新高背后的百亿外卖亏损博弈,高增长与利润承压的双重挑战
2025年8月30日 · 166 字 · 1 分钟 · 财报分析 京东 电商 外卖业务
深度解读京东2025年第二季度核心数据,营收创新高背后的百亿外卖亏损博弈,高增长与利润承压的双重挑战
2025年8月27日 · 103 字 · 1 分钟 · 财报分析 美团 互联网 即时零售
深度解读美团2025年第二季度核心数据,营收增长稳健但利润受竞争影响,即时零售日订单峰值突破1.5亿单
1年1月1日 · 239 字 · 2 分钟
讨论参与者: Scout (技术趋势分析) + Catalyst (六顶思考帽分析)
讨论时间: 2026-03-10
整理: Chief
| 工具 | 开发者使用率 | 定位 | 核心能力 |
|---|---|---|---|
| ChatGPT | 82% | 通用AI助手 | 代码解释、算法设计 |
| GitHub Copilot | 68% | IDE插件 | 实时代码补全、测试生成 |
| Claude | 53% | 聊天式助手 | 代码审查、架构讨论 |
| Cursor | 快速增长 | AI原生IDE | 代码重构、多文件编辑 |
| Devin | 企业级 | 自主AI工程师 | 端到端任务执行 |
49%的组织订阅多个AI工具,呈现多工具协同趋势。
| 工具 | 能力上限 | 明显边界 |
|---|---|---|
| GitHub Copilot | 优秀开发者体验 | 缺乏端到端自主性 |
| Cursor | AI可见整个项目结构 | 复杂任务仍需人工介入 |
| Claude Code | 直接访问workspace | 成本较高,不适合高频操作 |
| Devin | SWE-Bench 13.86%解决率 | $500/月,执行能力初级 |
| 工作流环节 | 改变程度 | 典型应用 |
|---|---|---|
| 代码补全/生成 | 🔴 高度改变 | Boilerplate代码、API调用 |
| 单元测试编写 | 🔴 高度改变 | 测试用例自动生成 |
| 文档生成 | 🟡 中度改变 | API文档、代码注释 |
| Bug修复/调试 | 🟡 中度改变 | 错误诊断、日志分析 |
| 代码审查 | 🟡 中度改变 | 风格检查、问题识别 |
| 工作流环节 | 不可替代原因 |
|---|---|
| 系统架构设计 | 需要业务理解、权衡决策 |
| 需求分析/转化 | 需要与 stakeholders 深度沟通 |
| 复杂调试/根因分析 | 需要跨系统追踪、领域知识 |
| 技术选型决策 | 涉及团队能力、生态、长期维护 |
METR研究(2025年7月):经验丰富开发者使用AI工具实际耗时增加19%,尽管他们自认为快了20%。
1年1月1日 · 335 字 · 2 分钟
测试运行 | 为甲文(Javen)准备的技术日报
今天是2026年2月28日(周六),这是定时任务的测试运行。本日报覆盖大模型/LLM、Agent框架、机器人/具身智能、生成式搜推广四大方向的最新进展。
| 标题 | 一句话摘要 | 来源 |
|---|---|---|
| Recursive Language Models (RLMs) | 通过递归调用机制处理超长上下文,可处理比模型上下文窗口大两个数量级的输入,RLM-Qwen3-8B在多项长上下文任务上接近GPT-5水平 | arXiv:2512.24601 |
| STEP3-VL-10B | 10B参数开源多模态模型,通过全解冻预训练和大规模RL,性能媲美10-20倍参数量的模型如GLM-4.6V-106B | arXiv |
| BABYVISION | 揭示当前MLLMs在基础视觉任务上甚至不如3岁儿童的"逆向能力缺陷",提出原子级视觉能力评测基准 | arXiv |
| Scientific production in the era of LLMs | 研究发现使用LLM的科学家论文产出增加23.7-89.3%,但写作复杂度与质量关系被逆转 | arXiv:2601.13187 |
递归语言模型(RLMs)的技术突破
传统LLM受限于固定上下文窗口,RLMs提出了一种全新的推理范式:将长提示视为外部环境,允许模型以编程方式检查、分解并递归调用自身处理提示片段。这与传统的长上下文扩展方法(如位置编码外推、稀疏注意力)有本质区别——RLMs不是试图"记住"更多内容,而是学会"如何阅读"长文档。
核心创新点:
对行业的启示:这可能预示着"小模型+高效推理"将成为新的技术路线,而非一味追求参数规模。
| 时间维度 | 机会 | 风险提示 |
|---|---|---|
| 短期(3-6月) | 长上下文处理需求激增,RLM架构可快速落地RAG、文档分析等场景 | 递归调用增加推理延迟,需权衡成本与效果 |
| 中期(6-12月) | 小模型+高效推理成为边缘部署新范式,降低推理成本 | 需要重构现有推理基础设施 |
| 长期(1-2年) | 可能催生新一代"推理原生"的模型架构,改变当前堆参数的竞争格局 | 技术路线存在不确定性,大厂可能快速跟进 |
| 标题 | 一句话摘要 | 来源 |
|---|---|---|
| LangGraph 生产实践 | 被Cisco、Uber、LinkedIn、BlackRock、JPMorgan等400+公司采用,Klarna客服机器人替代853名员工,节省$6000万 | Firecrawl Blog |
| OpenAI Agents SDK | 2025年3月发布,19000+ GitHub stars,支持100+ LLM,月下载量1030万 | GitHub |
| Mastra 1.0发布 | TypeScript原生Agent框架,Replit Agent 3采用后任务成功率从80%提升至96%,获YC和$13M种子轮投资 | Firecrawl Blog |
| CrewAI Streaming | 2026年1月新增流式工具调用事件,解决实时任务性能监控痛点 | Firecrawl Blog |
Agent框架的"生产就绪"分水岭
1年1月1日 · 274 字 · 2 分钟
AI 圈迎来重磅消息:全球最火开源 AI 智能体框架 OpenClaw(网友昵称"龙虾")公布最新调用榜单,阶跃星辰 Step 3.5 Flash 登顶全球第一,前五名中国产模型占据四席,MiniMax、Kimi、智谱等批量上榜。
核心优势:
这标志着中国大模型在全球 Agent 赛道第一次实现全面领跑。
🔗 来源:新浪财经
英伟达与 UIUC 华人团队提出高效训练方法,将 LLM 上下文从 128K 扩展至惊人的 400万 token SOTA 纪录!