使用antiword读取word文档
作者: 郑晓 分类: Linux, Python 发布于: 2017-03-07 00:08 浏览:60,004 评论(5)
antiword是linux及其他RISC OS下免费的ms word文档读取器。使用它可以很方便的在Linux中读取word文档并输出为纯文本字符串。
下载地址:http://www.winfield.demon.nl
下载后解压、编译安装:
tar -zxvf antiword-0.37.tar.gz
cd antiword-0.37
make
make install
默认安装到当前账户下的bin目录中。
使用:
终端中
/home/pi/bin/antiword antiword-test.doc
其他语言中通过各自执行系统命令的方式来执行,比如Python中:
import subprocess
word_file = "antiword-test.doc"
content = subprocess.check_output(["/home/pi/antiword", word_file])
print content
比如我有个doc文件是这样的:
执行结果类似这样:
其中的非字符串部分被过滤了。
本文采用知识共享署名-非商业性使用 3.0 中国大陆许可协议进行许可,转载时请注明出处及相应链接。
本文永久链接: https://www.zh30.com/antiword-read-word-doc.html
使用antiword读取word文档:目前有5 条留言
unoconv-convert-document-openoffice.html 你说的这个地址不对啊
你可以看看这篇,unoconv-convert-document-openoffice.html 你说的这个地址不对啊
博主,你好!php读取word求助,按照这个教程,读取出来的word是纯文本的,能否保留原排版格式 呢
刚测了下,这个工具貌似不能带格式输出。
你可以看看这篇,unoconv-convert-document-openoffice.html