doc/docx文档批量转换成txt文档的方法

在语料库建设过程中,有时收集到的语料是Word格式的(doc或docx),需要转换成txt格式。

如果只有一个文档,只要打开Word文档,依次点击“文件”-“另存为”-选择保存地址-选择“保存类型”为“纯文本(*.txt)”-“保存”,即可。

但是如果有一大批文档,上述方法就太费事了。

下面介绍一个doc(x)批量转换txt的方法,具体步骤如下:

1、创建宏。视图,宏,录制宏,停止录制。

2、替换宏。视图,宏,查看宏,选中刚才新建的宏,编辑,用以下代码(见“附件:需要拷贝的代码”)替换自动生成的代码。

3、使用宏。视图,宏,查看宏,选中宏,运行,浏览你的文件。可以在之前把需转换的文件放在同一文件夹里。

附件:需要拷贝的代码:

Sub Doc2txt()
Dim myDialog As FileDialog
Dim oFile As Variant
Dim oDoc As Document

Set myDialog = Application.FileDialog(msoFileDialogFilePicker)

With myDialog
.Filters.Clear
.Filters.Add “WORD 97-03 文档”, “*.doc”, 1
.AllowMultiSelect = True

If .Show <> -1 Then Exit Sub

Application.ScreenUpdating = False

For Each oFile In .SelectedItems
Set oDoc = Word.Documents.Open(FileName:=oFile, Visible:=False)
oDoc.SaveAs FileName:=Left(oFile, Len(oFile) – 3) & “txt”, FileFormat:=wdFormatText
oDoc.Close
Next

Application.ScreenUpdating = True
End With
End Sub

 

Sub Docx2txt()
Dim myDialog As FileDialog
Dim oFile As Variant
Dim oDoc As Document

Set myDialog = Application.FileDialog(msoFileDialogFilePicker)

With myDialog
.Filters.Clear
.Filters.Add “WORD 文档”, “*.docx”, 1
.AllowMultiSelect = True

If .Show <> -1 Then Exit Sub

Application.ScreenUpdating = False

For Each oFile In .SelectedItems
Set oDoc = Word.Documents.Open(FileName:=oFile, Visible:=False)
oDoc.SaveAs FileName:=Left(oFile, Len(oFile) – 4) & “txt”, FileFormat:=wdFormatText
oDoc.Close
Next

Application.ScreenUpdating = True
End With
End Sub

资源下载: