关注我,记得标星⭐️不迷路哦~
✨ 1: SmolDocling-256M-preview
SmolDocling-256M-preview是一个用于高效文档转换的多模态Image-Text-to-Text模型,支持多种文档元素的识别和转换。 它快如闪电,使用 < 500MB VRAM ⚡ 在消费类 GPU 上以 0.35 秒处理一个页面

SmolDocling-256M-preview 是一个多模态的图像-文本到文本的模型,专为高效文档转换而设计。它保留了 Docling 的主要功能,并完全兼容 Docling,通过无缝支持 DoclingDocuments 实现。
主要特点包括:
- DocTags:
采用DocTags标签,这是一种高效且最小的文档表示方法,完全兼容 DoclingDocuments,更清晰地分离文本和文档结构。 - OCR:
准确地从图像中提取文本。 - 布局和定位:
保留文档结构和元素边界框。 - 代码识别:
检测并格式化代码块,包括缩进。 - 公式识别:
识别和处理数学表达式。 - 图表识别:
提取并解释图表数据。 - 表格识别:
支持列和行标题,进行结构化表格提取。 - 图像分类:
区分图形元素。 - 标题对应:
将标题链接到相关图像和图形。 - 列表分组:
正确组织和结构化列表元素。 - 整页转换:
处理整个页面,包括所有页面元素(代码、公式、表格、图表等)。 - 带边界框的OCR:
使用边界框进行OCR区域识别。 - 通用文档处理:
经过科学和非科学文档的训练。 - 无缝Docling集成:
导入Docling并导出为多种格式(MD, HTML 等)。 - 快速推理:
使用VLLM,在A100 GPU上平均每页0.35秒。
地址:https://huggingface.co/ds4sd/SmolDocling-256M-preview
✨ 2: OpenSearch-SQL
OpenSearch-SQL是一个无需额外训练的Text-to-SQL框架,它通过动态Few-shot和一致性对齐来增强文本到SQL的转换。

OpenSearch-SQL 是一个旨在将自然语言转换为 SQL 查询的框架,旨在降低用户对数据库专业技能的要求。它由预处理、提取、生成、优化和对齐等模块组成,无需额外训练,并可与 GPT、DeepSeek 和 Gemini 等模型配合使用。 它通过独特的架构设计和创新方法,实现了高性能和易用性,能够帮助用户更方便地从数据库中提取信息。 它在无需额外训练的情况下,利用大型语言模型,通过思维链和对齐方法,提升了SQL查询生成的准确性和可靠性。
地址:https://github.com/OpenSearch-AI/OpenSearch-SQL/blob/main/readme.md
✨ 3: MarkPDFDown
MarkPDFDown是利用多模态AI模型将PDF文件精准转为Markdown格式的强大工具。

MarkPDFDown是一个利用多模态大型语言模型将PDF文件转换成Markdown格式的工具。它能够精确地提取文本,保留格式,并处理复杂的文档结构,例如表格、公式和图表。
地址:https://github.com/jorben/markpdfdown
✨ 4: TxAgent
TxAgent是一个AI agent,利用多步骤推理和工具,为治疗性推理提供个性化治疗方案。

TxAgent 是一个用于治疗推理的人工智能智能体,它利用多步骤推理和实时生物医学知识,通过一个包含211个工具的工具箱来分析药物相互作用、禁忌症和患者特定的治疗策略。TxAgent 旨在提供个性化的治疗建议,通过评估药物在分子、药代动力学和临床层面的相互作用,识别基于患者合并症和同时用药的禁忌症,并根据患者的年龄、遗传因素和疾病进展等个体特征定制治疗策略。它集成了多步骤推理、实时知识以及工具辅助决策,确保治疗建议符合已建立的临床指南和真实世界的证据,从而降低不良事件的风险并改善治疗决策。
地址:https://github.com/mims-harvard/TxAgent
✨ 5: RDAgent
RDAgent旨在自动化数据驱动的研发过程,通过迭代改进模型和数据,提供数据挖掘和研究助手等功能。

RDAgent 是一个旨在自动化工业研发(R&D)流程的工具,特别是数据驱动的研发场景。它通过模仿人类专家进行研发的方式,能够:
- 阅读理解:
从报告、论文等材料中提取关键信息,如公式、特征描述、模型结构等。 - 代码实现:
将提取的信息转化为可运行的代码,例如实现特征、因子或模型。 - 迭代优化:
通过从反馈和知识中学习,不断改进代码的性能。 - 创新想法:
基于现有知识和观察,提出新的研发思路。
RDAgent 是一个强大的自动化研发工具,可以帮助数据科学家和研发人员更高效地进行数据驱动的创新。它具有广泛的应用场景,并提供了易于使用的界面和示例。通过自动化的研发循环,RDAgent 可以加速新方法和技术的探索与验证,从而推动创新。
地址:https://github.com/microsoft/RD-Agent
(文:每日AI新工具)