微软在 Github 上以 MIT 许可证开源 MarkItDown 项目,该项目可以将 PDF、Office 文档、图片、音频、JSON、HTML、XML 等转换为 Markdown 格式。MD 格式是开发者们常用的书写格式,微软开源的这个项目意义在于开发者可以批量将各种内容转换为纯文本内容,然后进行索引和分析。
MarkItDown 项目基于 Python 开发,用户既可以在本地构建项目也可以使用开发者搭建好的在线工具,比如开发者 Seimo 就已经搭建了在线工具 Turn2Markdown:https://md.seimo.cn/
目前该工具仅支持上传 Office 文档进行转换,这个原因倒是很容易猜到,因为要识别图片需要部署 OCR、要转录音频可能还需要部署相关 AI 服务。
使用方法也非常简单,只需要选择 Office 文档例如 PPTX、XLSX、DOCX 即可进行转换,转换后以 MD 格式输出可以复制或下载为.md 文件,之后文件会服务器上永久删除。
不过开发者也提到暂时只能处理一些简单的文档,如果是比较复杂的文档输出的内容可能会有些问题,具体大家可以随便上传文件进行测试。
后续估计也会有其他开发者推出类似工具并支持 OCR 和 AI 服务,当然这类服务要服务器支撑,所以后面就是有在线工具要收费的花各位也不必惊讶。