文档转换工具pandoc基本使用

misty 2021年01月09日 288次浏览

相关资料

官网: https://pandoc.org
官网文档:https://pandoc.org/demos.html

安装: Mac直接下载pkg包安装即可默认目录/usr/local/bin/pandoc

常用命令

word转换markdown

1. pandoc -s example30.docx -t markdown -o example35.md 将doc转换markdown但是不会带有图片
2. pandoc -o example35.md 【看行业】有色的机会目前并不在工业大金属!基金配置明显不足【20200803】.docx --extract-media=media 会将图片资源导入到当前目录的media目录下
-w867

3. 批量转换脚本 (mac上亲测运行)

因为有很多资料是doc格式的,需要转换成markdown,自己转换了一部分很难受,毕竟文档太多了,所以写了一个脚本;需要注意导入图片的路径,

  • 我用的MWeb,默认识别的图片路径为文档库下的media目录,所以输出到media下,然后导入文档,再将media文件夹下的图片全部移动到该目录下即可
    -w626
  • 确认输出文档的相对路径是否正确
    -w710
#!/bin/bash


for i in `ls *.docx`
do
# 使用时间毫秒数+'_'+随机数生成文件名
# 时间戳 $(date "+%Y%m%d%H%M%S")
pandoc -o ${i}.md  ${i}  --extract-media=media/_$RANDOM

done

注意

1. 文章一定要设置标题,不然就算预览没有问题,导出epub格式的文件依然会出现图片无法显示的问题
-w594

2. 最好使用本地图片打包,不然必须联网才能查看图片(MWeb打包Epub)