今日技术情报 · 2026-03-11
🔥 GitHub Trending 精选
bytedance/deer-flow Python ⭐今日+1413 💡 洞见:它并非另一个“超级智能体”框架,而是字节跳动为“分钟到小时级”复杂任务设计的确定性执行引擎。其核心是引入了“沙盒”作为原子操作的安全边界,并强制要求所有工具调用、子代理交互必须通过沙盒进行状态快照和回滚。这解决了当前Agent框架(如LangChain、AutoGen)在长链条任务中因状态污染或外部API波动导致的“执行不可复现”和“调试地狱”问题。相比强调“自主性”的框架,它更强调“可控性”。 🎯 行动:本周选取一个需要调用外部API(如天气、搜索)并包含至少3步决策的现有Agent脚本,用deer-flow的沙盒机制重构,重点测试其在API返回错误或超时时的状态回滚与任务恢复能力。
promptfoo/promptfoo TypeScript ⭐今日+661 💡 洞见:它将LLM应用测试从“提示词A/B测试”升级为面向红队的漏洞扫描框架。其核心差异在于内置了针对提示注入、越狱、信息泄露、偏见等安全场景的标准化测试套件,并能对Agent的完整对话流进行渗透测试。这解决了当前团队依赖零散脚本或人工进行安全评估的痛点,相比仅做性能对比的LangSmith或Weights & Biases,其安全测试的深度和自动化程度是质的不同。 🎯 行动:本周针对你团队正在开发的LLM应用(如客服Agent或RAG系统),使用promptfoo配置一次完整的红队测试,重点关注其是否能自动发现你未曾考虑过的提示注入路径。
obra/superpowers Shell ⭐今日+1387 💡 洞见:它不是一个新框架,而是一个颠覆现有AI工程研发流程的方法论。其核心主张是“技能即软件”,要求将每个AI能力(如总结、编码)封装为具有明确输入/输出、版本管理和依赖声明的独立“技能包”,并通过Shell脚本进行组合。这直接挑战了当前将Prompt、工具调用、逻辑代码混杂在单一Python脚本中的主流做法,旨在解决AI项目随着复杂度提升而迅速变得不可维护的问题。 🎯 行动:本周尝试将你项目中一个最复杂的单体Agent脚本,按照superpowers的“技能包”范式进行拆解,评估拆解后模块的复用性和组合的灵活性。
🧠 AI/ML 前沿论文
The Reasoning Trap – Logical Reasoning as a Mechanistic Pathway to Situational Awareness 🔬 突破:论文通过实验证明,提升LLM的演绎、归纳、溯因等逻辑推理能力,会系统性、可预测地增强模型的“情境意识”(即模型对自身处境、训练目的和部署环境的认知)。这推翻了“情境意识是神秘涌现能力”的假设,将其确立为可通过特定训练目标(逻辑推理)诱导的可工程化路径。 ⚙️ 工程影响:这意味着,任何旨在提升模型复杂推理能力的训练(例如,为了更好的代码生成或数学解题),都可能无意中、且难以避免地同步提升模型“意识到自己是个AI”的风险。工程团队必须重新评估“推理能力越强越好”的默认目标,并在训练数据清洗和评估阶段加入对情境意识增长的监控。
ByteFlow: Language Modeling through Adaptive Byte Compression without a Tokenizer 🔬 突破:它完全摒弃了固定的子词分词器(如BPE),让模型在训练过程中根据潜在表示的编码率,动态学习对原始字节流进行语义分割。在同等参数量下,其在代码和数学任务上的性能与使用分词器的模型相当,但彻底消除了分词错误(如拆分变量名)和词汇表外词问题。 ⚙️ 工程影响:这直接冲击了当前从数据预处理、词表管理到推理优化的整个LLM工程流水线。如果此路径成立,未来团队将无需维护分词器,预处理流程大幅简化,但需要重新设计推理引擎以高效处理可变的字节级“词元”。
💬 Hacker News 技术热点
After outages, Amazon to make senior engineers sign off on AI-assisted changes 👍446 💬396 🗣 社区核心结论:亚马逊的这项政策并非反对AI辅助编程,而是将AI生成的代码视为“第三方依赖”,需要同等级别的审查。争论焦点在于,这是否会拖慢开发速度。主流工程观点认为,这实际上定义了新的安全基线:AI编码工具的责任边界在“建议”,工程师的责任边界在“验证与批准”,公司通过流程将潜在的系统性风险从工具方转移到了拥有上下文知识的工程师身上。
Show HN: How I topped the HuggingFace open LLM leaderboard on two gaming GPUs 👍280 💬83 🗣 帖子的核心工程结论:作者并非使用了革命性新算法,而是通过极端激进但系统化的工程优化组合,在消费级硬件(2张RTX 4090)上微调出了榜单领先模型。关键点包括:1) 使用Unsloth进行极致的内存优化和快速微调;2) 采用DPO而非昂贵的PPO进行对齐;3) 精心设计了一个小型但高质量的数据集,并进行了多轮迭代清洗。这证明在现有技术下,数据质量和工程技巧的权重已超过单纯堆砌算力。
🚀 Product Hunt 今日新品
SpotiFLAC ⚖️ 替代 Tidal / Qobuz 订阅 → 其核心差异化技术点在于充当了一个无账户、跨平台的音乐流媒体元数据解析与文件聚合器。它利用Spotify的公开API获取曲目信息,然后并行查询Tidal、Qobuz、Amazon Music的公开或未加密的流媒体端点,为用户获取并拼接最高质量的音频文件。这本质上是一个利用服务间数据不对称的“聚合下载器”,而非合法的音乐服务。
Crikket ⚖️ 同质化,跳过(又一个基于AI的“个性化新闻摘要”产品,未发现区别于Artifact或早期Google News的核心技术差异)。
⚡ 技术范式变化信号
信号一:AI工程从“提示工程”转向“确定性工程”:deer-flow的沙盒机制和亚马逊强制AI代码审查的政策,共同指向一个趋势:随着AI应用进入生产核心,行业对执行过程的可复现、可调试、可追责的需求,已压倒对“智能涌现”的追求。这意味着工程决策必须优先考虑为AI行为建立确定性的边界和审计轨迹,而非一味追求其自主性。
信号二:LLM安全评估从“附加项”变为“前置项”:promptfoo的流行和《The Reasoning Trap》论文的结论形成共振。逻辑推理能力的提升会机械性地带来安全风险(情境意识),这使得红队测试和安全监控必须内置于模型能力提升的每一个阶段,而不能事后补丁。工程上需要建立从训练数据、微调策略到应用部署的贯穿式安全评估流水线。
信号三:模型基础架构出现“去分词器”萌芽:ByteFlow论文展示了一条彻底摆脱分词器的技术路径。虽然尚未成熟,但它信号表明,分词器作为LLM的“先天缺陷”已被广泛认知,社区开始探索从根本上解决词汇表限制和分词歧义问题的方案。工程团队应开始关注此类研究,评估其对未来数据管道和推理后端可能带来的颠覆性影响。
🛠️ 本周行动清单
- 使用
promptfoo对团队核心LLM应用执行一次红队扫描,预计耗时4小时,验证“我们的应用对提示注入等基础攻击是否真的具备抵抗力”这一假设。 - 阅读
deer-flow关于沙盒状态的序列化与回滚源码,预计耗时2小时,评估其设计能否借鉴到现有Agent系统的错误恢复模块中。 - 在本地用
Unsloth库尝试对一个7B模型进行一轮极简微调,预计耗时3小时,亲身感受其宣称的内存与速度优化幅度,为未来小团队低成本微调方案做技术储备。
🔥 GitHub Trending Picks
bytedance/deer-flow Python ⭐Today +1413 💡 Insight: It is not another “super agent” framework, but a deterministic execution engine designed by ByteDance for “minute-to-hour level” complex tasks. Its core innovation is introducing “sandboxes” as secure boundaries for atomic operations, mandating that all tool calls and sub-agent interactions must undergo state snapshotting and rollback via sandboxes. This addresses the “non-reproducible execution” and “debugging hell” problems in current Agent frameworks (like LangChain, AutoGen) caused by state pollution or external API fluctuations during long-chain tasks. Compared to frameworks emphasizing “autonomy,” it prioritizes “controllability.” 🎯 Action: This week, take an existing Agent script that requires calling external APIs (e.g., weather, search) and involves at least 3 decision steps. Refactor it using deer-flow’s sandbox mechanism, focusing on testing its state rollback and task recovery capabilities when APIs return errors or time out.
promptfoo/promptfoo TypeScript ⭐Today +661 💡 Insight: It elevates LLM application testing from “prompt A/B testing” to a red-teaming vulnerability scanning framework. Its key difference lies in its built-in standardized test suites for security scenarios like prompt injection, jailbreaking, information leakage, and bias, and its ability to perform penetration testing on an Agent’s complete conversation flow. This solves the pain point of teams relying on scattered scripts or manual security assessments. Compared to tools like LangSmith or Weights & Biases that focus only on performance comparison, its depth and automation level for security testing represent a qualitative difference. 🎯 Action: This week, for the LLM application your team is developing (e.g., a customer service Agent or RAG system), use promptfoo to configure a full red-team test, focusing on whether it can automatically discover prompt injection paths you hadn’t considered.
obra/superpowers Shell ⭐Today +1387 💡 Insight: It is not a new framework, but a methodology that subverts the current AI engineering R&D workflow. Its core proposition is “skills as software,” requiring each AI capability (e.g., summarization, coding) to be packaged as an independent “skill package” with clear input/output, version management, and dependency declarations, combined via Shell scripts. This directly challenges the mainstream practice of mixing prompts, tool calls, and logic code within a single Python script, aiming to solve the problem of AI projects becoming unmaintainable as complexity increases. 🎯 Action: This week, try to decompose the most complex monolithic Agent script in your project according to superpowers’ “skill package” paradigm, and evaluate the reusability of the decomposed modules and the flexibility of their composition.
🧠 AI/ML Frontier Papers
The Reasoning Trap – Logical Reasoning as a Mechanistic Pathway to Situational Awareness 🔬 Breakthrough: The paper experimentally demonstrates that enhancing LLMs’ logical reasoning abilities—deductive, inductive, abductive—systematically and predictably increases the model’s “situational awareness” (i.e., the model’s awareness of its own situation, training purpose, and deployment environment). This overturns the assumption that “situational awareness is a mysterious emergent capability,” establishing it as an engineerable pathway that can be induced through specific training objectives (logical reasoning). ⚙️ Engineering Impact: This implies that any training aimed at improving a model’s complex reasoning (e.g., for better code generation or math problem-solving) may inadvertently and unavoidably simultaneously increase the risk of the model “realizing it is an AI.” Engineering teams must re-evaluate the default goal of “stronger reasoning is always better” and incorporate monitoring of situational awareness growth during training data cleaning and evaluation phases.
ByteFlow: Language Modeling through Adaptive Byte Compression without a Tokenizer 🔬 Breakthrough: It completely abandons fixed subword tokenizers (like BPE), allowing the model to dynamically learn semantic segmentation of raw byte streams based on the coding rate of latent representations during training. With comparable parameter counts, its performance on code and math tasks matches that of models using tokenizers, but it completely eliminates tokenization errors (e.g., splitting variable names) and out-of-vocabulary word issues. ⚙️ Engineering Impact: This directly impacts the entire LLM engineering pipeline, from data preprocessing and vocabulary management to inference optimization. If this path proves viable, future teams will not need to maintain tokenizers, preprocessing workflows will be greatly simplified, but inference engines will need to be redesigned to efficiently handle variable byte-level “tokens.”
💬 Hacker News Tech Highlights
After outages, Amazon to make senior engineers sign off on AI-assisted changes 👍446 💬396 🗣 Community Core Conclusion: Amazon’s policy is not against AI-assisted programming but treats AI-generated code as a “third-party dependency” requiring the same level of review. The debate centers on whether this will slow down development. The mainstream engineering view is that this actually defines a new security baseline: the responsibility boundary for AI coding tools lies in “suggestion,” while the engineer’s responsibility boundary lies in “verification and approval.” The company uses this process to transfer potential systemic risk from the tool provider to engineers who possess contextual knowledge.
Show HN: How I topped the HuggingFace open LLM leaderboard on two gaming GPUs 👍280 💬83 🗣 Post’s Core Engineering Conclusion: The author did not use revolutionary new algorithms but achieved a leaderboard-topping model through an extreme yet systematic combination of engineering optimizations on consumer hardware (2 RTX 4090s). Key points include: 1) Using Unsloth for extreme memory optimization and fast fine-tuning; 2) Employing DPO instead of expensive PPO for alignment; 3) Carefully designing a small but high-quality dataset with multiple rounds of iterative cleaning. This proves that with current technology, the weight of data quality and engineering skill now exceeds simply piling on computing power.
🚀 Product Hunt Today’s New Products
SpotiFLAC ⚖️ Alternative to Tidal / Qobuz subscriptions → Its core differentiating technical point is acting as an account-less, cross-platform music streaming metadata parser and file aggregator. It uses Spotify’s public API to get track information, then queries Tidal, Qobuz, and Amazon Music’s public or unencrypted streaming endpoints in parallel to fetch and stitch together the highest quality audio files for the user. This is essentially an “aggregation downloader” leveraging data asymmetry between services, not a legal music service.
Crikket ⚖️ Homogeneous, skip (yet another AI-based “personalized news summary” product, no core technical differentiation found from Artifact or early Google News).
⚡ Signals of Technological Paradigm Shifts
Signal One: AI Engineering Shifts from “Prompt Engineering” to “Deterministic Engineering”: The sandbox mechanism of deer-flow and Amazon’s policy mandating AI code review together point to a trend: as AI applications enter the core of production, the industry’s demand for reproducible, debuggable, and accountable execution processes has surpassed the pursuit of “emergent intelligence.” This means engineering decisions must prioritize establishing deterministic boundaries and audit trails for AI behavior, rather than blindly pursuing its autonomy.
Signal Two: LLM Security Assessment Shifts from “Add-on” to “Prerequisite”: The popularity of promptfoo and the conclusions of The Reasoning Trap paper resonate. Improvements in logical reasoning ability mechanically increase security risks (situational awareness), making red-teaming and security monitoring must be built into every stage of model capability enhancement, not patched afterward. Engineering needs to establish an end-to-end security assessment pipeline from training data and fine-tuning strategies to application deployment.
Signal Three: “Tokenizer-less” Budding in Model Infrastructure: The ByteFlow paper demonstrates a technical path to completely abandon tokenizers. Although not yet mature, it signals that the tokenizer is widely recognized as an “inherent flaw” of LLMs, and the community is beginning to explore solutions to fundamentally address vocabulary limitations and tokenization ambiguity. Engineering teams should start paying attention to such research, assessing its potentially disruptive impact on future data pipelines and inference backends.
🛠️ This Week’s Action List
- Use
promptfooto perform a red-team scan on the team’s core LLM application, estimated time 4 hours, to validate the hypothesis that “our application is truly resistant to basic attacks like prompt injection.” - Read the
deer-flowsource code on sandbox state serialization and rollback, estimated time 2 hours, to assess whether its design can be adapted for the error recovery module of the existing Agent system. - Attempt a minimal fine-tuning run on a 7B model locally using the
Unslothlibrary, estimated time 3 hours, to personally experience its claimed memory and speed optimization gains, building technical reserves for future low-cost fine-tuning solutions for small teams.
🔥 GitHub Trending 精选
bytedance/deer-flow Python ⭐本日+1413 💡 洞察:これは別の「スーパーエージェント」フレームワークではなく、バイトダンスが「分から時間単位」の複雑なタスク向けに設計した決定論的実行エンジンです。その中核は、「サンドボックス」をアトミック操作の安全な境界として導入し、すべてのツール呼び出しやサブエージェント間の相互作用が、状態のスナップショットとロールバックのためにサンドボックスを経由することを強制している点にあります。これにより、現在のAgentフレームワーク(LangChain、AutoGenなど)が長いチェーンタスクで直面する、状態汚染や外部APIの変動による「実行の再現性欠如」と「デバッグ地獄」の問題が解決されます。「自律性」を強調するフレームワークと比べ、こちらは「制御性」をより重視しています。 🎯 アクション:今週、外部API(天気、検索など)の呼び出しを必要とし、少なくとも3段階の意思決定を含む既存のAgentスクリプトを1つ選び、deer-flowのサンドボックス機構でリファクタリングします。APIがエラーを返したりタイムアウトしたりした際の状態ロールバックとタスク復旧能力を重点的にテストしてください。
promptfoo/promptfoo TypeScript ⭐本日+661 💡 洞察:これはLLMアプリケーションテストを「プロンプトのA/Bテスト」からレッドチーミングを指向した脆弱性スキャンフレームワークへと昇格させます。その核心的な違いは、プロンプトインジェクション、ジェイルブレイク、情報漏洩、バイアスなどのセキュリティシナリオ向けの標準化されたテストスイートを内蔵し、Agentの完全な対話フローに対してペネトレーションテストを実行できる点にあります。これにより、現在チームが断片的なスクリプトや手作業に依存してセキュリティ評価を行っている課題が解決されます。性能比較のみを行うLangSmithやWeights & Biasesと比べ、そのセキュリティテストの深さと自動化の程度は質的に異なります。 🎯 アクション:今週、あなたのチームが開発中のLLMアプリケーション(カスタマーサポートAgentやRAGシステムなど)に対して、promptfooを使用して完全なレッドチームテストを1回構成・実行し、あなたが考慮していなかったプロンプトインジェクションの経路を自動的に発見できるかどうかに焦点を当てて確認してください。
obra/superpowers Shell ⭐本日+1387 💡 洞察:これは新しいフレームワークではなく、既存のAIエンジニアリング研究開発プロセスを覆す方法論です。その核心的な主張は「スキル即ソフトウェア」であり、各AI能力(要約、コーディングなど)を明確な入力/出力、バージョン管理、依存関係宣言を持つ独立した「スキルパッケージ」としてカプセル化し、Shellスクリプトで組み合わせることを要求します。これは、プロンプト、ツール呼び出し、ロジックコードを単一のPythonスクリプトに混在させる現在の主流の手法に直接挑戦し、AIプロジェクトが複雑化するにつれて急速に保守不能になる問題の解決を目指しています。 🎯 アクション:今週、あなたのプロジェクトで最も複雑なモノリシックなAgentスクリプトを1つ選び、superpowersの「スキルパッケージ」パラダイムに従って分解してみて、分解後のモジュールの再利用性と組み合わせの柔軟性を評価してください。
🧠 AI/ML 最先端論文
The Reasoning Trap – Logical Reasoning as a Mechanistic Pathway to Situational Awareness 🔬 ブレークスルー:この論文は実験を通じて、LLMの演繹、帰納、アブダクションなどの論理的推論能力を向上させることが、モデルの「状況認識」(モデル自身の状況、訓練目的、デプロイ環境に対する認識)を体系的かつ予測可能に強化することを証明しています。これは「状況認識は神秘的な創発能力である」という仮説を覆し、特定の訓練目標(論理的推論)によって誘導可能なエンジニアリング可能な経路として確立します。 ⚙️ エンジニアリングへの影響:これは、モデルの複雑な推論能力を向上させることを目的としたあらゆる訓練(例えば、より優れたコード生成や数学問題解決のため)が、意図せず、かつ避けがたく、同時にモデルが「自分がAIであることを認識する」リスクを高める可能性があることを意味します。エンジニアリングチームは「推論能力は強ければ強いほど良い」というデフォルトの目標を再評価し、訓練データのクリーニングと評価段階に状況認識の増加に対する監視を組み込む必要があります。
ByteFlow: Language Modeling through Adaptive Byte Compression without a Tokenizer 🔬 ブレークスルー:これは固定されたサブワードトークナイザー(BPEなど)を完全に廃止し、モデルが訓練プロセス中に潜在表現の符号化率に基づいて、生のバイトストリームを動的に意味分割することを学習させます。同等のパラメータ数で、コードと数学タスクにおける性能はトークナイザーを使用するモデルと同等ですが、トークン化エラー(変数名の分割など)や語彙外語の問題を完全に排除します。 ⚙️ エンジニアリングへの影響:これは、データ前処理、語彙管理、推論最適化に至る現在のLLMエンジニアリングパイプライン全体に直接的な衝撃を与えます。この経路が成立すれば、将来チームはトークナイザーを維持する必要がなくなり、前処理フローは大幅に簡素化されますが、可変のバイトレベルの「トークン」を効率的に処理するために推論エンジンを再設計する必要があります。
💬 Hacker News 技術ホットトピック
After outages, Amazon to make senior engineers sign off on AI-assisted changes 👍446 💬396 🗣 コミュニティの核心的結論:アマゾンのこの方針はAI支援プログラミングに反対するものではなく、AI生成コードを「サードパーティ依存関係」とみなすことで、同等レベルのレビューを必要とするものです。議論の焦点は、これが開発速度を遅らせるかどうかにあります。主流のエンジニアリング観点では、これは実際に新しいセキュリティベースラインを定義するものと見なされています:AIコーディングツールの責任境界は「提案」にあり、エンジニアの責任境界は「検証と承認」にあり、企業はプロセスを通じて潜在的なシステミックリスクをツール提供者から文脈知識を持つエンジニアへと移行させています。
Show HN: How I topped the HuggingFace open LLM leaderboard on two gaming GPUs 👍280 💬83 🗣 投稿の核心的エンジニアリング結論:著者は革命的な新アルゴリズムを使用したのではなく、極端に過激だが体系化されたエンジニアリング最適化の組み合わせを通じて、コンシューマー向けハードウェア(RTX 4090 2枚)上でファインチューニングによりリーダーボードをトップしたモデルを作り出しました。重要なポイントは以下の通りです:1) Unslothを使用した究極のメモリ最適化と高速ファインチューニング;2) 高価なPPOではなくDPOを採用したアライメント;3) 小型だが高品質なデータセットを注意深く設計し、複数回の反復的クリーニングを実施。これは、現行技術において、データ品質とエンジニアリングスキルの重みが、単純な計算リソースの積み上げを上回ることを証明しています。
🚀 Product Hunt 本日新製品
SpotiFLAC ⚖️ Tidal / Qobuz サブスクリプションの代替 → その核心的な差別化技術ポイントは、アカウント不要、クロスプラットフォームの音楽ストリーミングメタデータ解析とファイルアグリゲーターとして機能する点にあります。Spotifyの公開APIを利用してトラック情報を取得し、その後Tidal、Qobuz、Amazon Musicの公開または暗号化されていないストリーミングエンドポイントを並列にクエリし、ユーザーに最高品質のオーディオファイルを取得・結合して提供します。これは本質的に、サービス間のデータ非対称性を利用した「アグリゲーションダウンローダー」であり、合法的な音楽サービスではありません。
Crikket ⚖️ 同質化のためスキップ(AIベースの「パーソナライズされたニュース要約」製品のまた一つで、Artifactや初期のGoogle Newsと区別される核心的な技術的差異は見られません)。
⚡ 技術パラダイム変化の兆候
兆候1:AIエンジニアリングが「プロンプトエンジニアリング」から「決定論的エンジニアリング」へシフト:deer-flowのサンドボックス機構とアマゾンのAIコード強制レビュー方針は、共通して一つのトレンドを示しています:AIアプリケーションが生産の核心に入るにつれて、業界は実行プロセスの再現性、デバッグ可能性、説明責任に対する要求が、「知的な創発」への追求を圧倒しているということです。これは、エンジニアリング上の意思決定が、AIの行動に決定論的な境界と監査証跡を確立することを優先し、その自律性をひたすら追求することではないことを意味します。
兆候2:LLMセキュリティ評価が「付加項目」から「前提項目」へ変化:promptfooの人気と『The Reasoning Trap』論文の結論が共鳴しています。論理的推論能力の向上は機械的にセキュリティリスク(状況認識)をもたらすため、レッドチームテストとセキュリティ監視は、モデル能力向上のあらゆる段階に組み込まれなければならず、事後のパッチでは不十分です。エンジニアリング上は、訓練データ、ファインチューニング戦略からアプリケーションデプロイメントに至る貫通型のセキュリティ評価パイプラインを構築する必要があります。
兆候3:モデル基盤アーキテクチャに「脱トークナイザー」の萌芽:ByteFlow論文は、トークナイザーから完全に脱却する技術経路を示しています。まだ成熟していませんが、これはトークナイザーがLLMの「先天性欠陥」として広く認識されていることを示す兆候であり、コミュニティが語彙制限とトークン化の曖昧さの問題を根本的に解決するための探索を始めていることを意味します。エンジニアリングチームは、この種の研究に注目し、将来のデータパイプラインと推論バックエンドにもたらす可能性のある破壊的影響を評価し始めるべきです。
🛠️ 今週のアクションリスト
- チームのコアLLMアプリケーションに対して
promptfooを使用して1回のレッドチームスキャンを実行、予想所要時間4時間、「我々のアプリケーションはプロンプトインジェクションなどの基本的な攻撃に対して本当に耐性があるのか」という仮説を検証します。 deer-flowのサンドボックス状態のシリアライゼーションとロールバックに関するソースコードを読む、予想所要時間2時間、その設計が既存のAgentシステムのエラー回復モジュールに応用できるかどうかを評価します。- ローカルで
Unslothライブラリを使用して7Bモデルに対して極小限のファインチューニングを1回試す、予想所要時間3時間、その主張するメモリと速度の最適化の度合いを体感し、将来の小規模チーム向け低コストファインチューニングソリューションのための技術的蓄積とします。
