在语料库建设过程中,有时收集到的语料是Word格式的(doc或docx),需要转换成txt格式。
如果只有一个文档,只要打开Word文档,依次点击“文件”-“另存为”-选择保存地址-选择“保存类型”为“纯文本(*.txt)”-“保存”,即可。
但是如果有一大批文档,上述方法就太费事了。
下面介绍一个doc(x)批量转换txt的方法,具体步骤如下:
1、创建宏。视图,宏,录制宏,停止录制。
2、替换宏。视图,宏,查看宏,选中刚才新建的宏,编辑,用以下代码(见“附件:需要拷贝的代码”)替换自动生成的代码。
3、使用宏。视图,宏,查看宏,选中宏,运行,浏览你的文件。可以在之前把需转换的文件放在同一文件夹里。
附件:需要拷贝的代码:
Sub Doc2txt()
Dim myDialog As FileDialog
Dim oFile As Variant
Dim oDoc As Document
Set myDialog = Application.FileDialog(msoFileDialogFilePicker)
With myDialog
.Filters.Clear
.Filters.Add “WORD 97-03 文档”, “*.doc”, 1
.AllowMultiSelect = True
If .Show <> -1 Then Exit Sub
Application.ScreenUpdating = False
For Each oFile In .SelectedItems
Set oDoc = Word.Documents.Open(FileName:=oFile, Visible:=False)
oDoc.SaveAs FileName:=Left(oFile, Len(oFile) – 3) & “txt”, FileFormat:=wdFormatText
oDoc.Close
Next
Application.ScreenUpdating = True
End With
End Sub
Sub Docx2txt()
Dim myDialog As FileDialog
Dim oFile As Variant
Dim oDoc As Document
Set myDialog = Application.FileDialog(msoFileDialogFilePicker)
With myDialog
.Filters.Clear
.Filters.Add “WORD 文档”, “*.docx”, 1
.AllowMultiSelect = True
If .Show <> -1 Then Exit Sub
Application.ScreenUpdating = False
For Each oFile In .SelectedItems
Set oDoc = Word.Documents.Open(FileName:=oFile, Visible:=False)
oDoc.SaveAs FileName:=Left(oFile, Len(oFile) – 4) & “txt”, FileFormat:=wdFormatText
oDoc.Close
Next
Application.ScreenUpdating = True
End With
End Sub