文档转换的终极武器来了!
微软又放大招了!这次他们开源了一个叫 MarkItDown 的神器,可以将各种文件轻松转换为Markdown格式。
对于经常与大语言模型打交道的开发者和研究者来说,这绝对是一个趁手神器。
什么是MarkItDown?
MarkItDown 是一个文件转换的全能工具,支持的文件类型简直让人惊叹:
-
PDF -
PowerPoint -
Word -
Excel -
图片(支持EXIF元数据和OCR) -
音频(支持EXIF元数据和语音转录) -
HTML(特别优化了维基百科等网站) -
各类文本格式(csv、json、xml等)
如何使用?
安装简单到令人发指:
pip install markitdown
代码也就几行:
from markitdown import MarkItDown
markitdown = MarkItDown()
result = markitdown.convert("test.xlsx")
print(result.text_content)
黑科技:大语言模型图像描述
MarkItDown 还支持调用大语言模型来描述图像,这可太酷了!
from markitdown import MarkItDown
from openai import OpenAI
client = OpenAI()
md = MarkItDown(mlm_client=client, mlm_model="gpt-4o")
result = md.convert("example.jpg")
print(result.text_content)
开源精神
作为微软开源项目,MarkItDown 遵循开放协作的理念。任何人都可以通过贡献许可协议(CLA)参与到项目中来。
想要了解更多?
快去 GitHub仓库 探索吧!
相关链接
[1] GitHub仓库: https://github.com/microsoft/markitdown
(文:AGI Hunt)