python批量转换文件编码

greatghoul

浏览: 143793 次
性别:
来自: 西安

最近访客更多访客>>

爱吃米饭的boy

zhangop99

pipifeiya

wangsq668

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Development

python 编码

今天在 eclipse 中导入了个之前的 swing 项目，结果跑起来后乱码，检查代码发现竟然一部分 java 文件是 utf-8编码，一部分却是 gb2312 的，而文件又比较多，一个一个去看显示太麻烦了，于是又该 python 出手了。

这里需要用到一个 python 的库 chardet 1.0.1 ，用于自动检测文件的编码，使用起来非常方便。

>>> import chardet
>>> chardet.detect(open(r'E:\Workspaces\java\GCHMCreator\main\g2w\app\gchm\gui\ContentElement.java').read())
{'confidence': 0.99, 'encoding': 'GB2312'}

detect文件返回的是一个字典，其中 encoding 的值为检测到的编码类型，confidence 为该编码的符合度，

我需要做这样的事：

遍历项目中所有的 .java 文件，并检测其编码
备份每个 .java 文件中 .java.bak 以便于恢复
将 .java 文件从检测到的编码格式转换成 utf-8 格式
提供一个恢复工具，在转换错误后能够恢复到原来的文件
提供一个清理工具，在确保文件转换正确后，可以清除备份的文件

其中最关键的部分在第二条，利用 chardet 检测出文件的编码 source_encoding，将文本内容通过source_encoding decode 成 unicode ，再利用 codecs 将文件输出成正确的编码格式。

完整代码

#-*- coding: utf-8 -*-

import codecs
import os
import shutil
import re
import chardet

def convert_encoding(filename, target_encoding):
    # Backup the origin file.
    shutil.copyfile(filename, filename + '.bak')

    # convert file from the source encoding to target encoding
    content = codecs.open(filename, 'r').read()
    source_encoding = chardet.detect(content)['encoding']
    print source_encoding, filename
    content = content.decode(source_encoding) #.encode(source_encoding)
    codecs.open(filename, 'w', encoding=target_encoding).write(content)

def main():
    for root, dirs, files in os.walk(os.getcwd()):
        for f in files:
            if f.lower().endswith('.java'):
                filename = os.path.join(root, f)
                try:
                    convert_encoding(filename, 'utf-8')
                except Exception, e:
                    print filename

def process_bak_files(action='restore'):
    for root, dirs, files in os.walk(os.getcwd()):
        for f in files:
            if f.lower().endswith('.java.bak'):
                source = os.path.join(root, f)
                target = os.path.join(root, re.sub('\.java\.bak$', '.java', f, flags=re.IGNORECASE))
                try:
                    if action == 'restore':
                        shutil.move(source, target)
                    elif action == 'clear':
                        os.remove(source)
                except Exception, e:
                    print source

if __name__ == '__main__':
    # process_bak_files(action='clear')
    main()

1
顶

0
踩

分享到：

Cognos开发笔记 | VIM中移动选中内容到备份文件

2012-02-07 00:38
浏览 3163
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

python批量转换文件编码

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

python批量转换文件编码

评论

发表评论

相关推荐

python发送文件夹内容到邮箱

Cognos开发笔记

VIM中移动选中内容到备份文件

yuser

Python的妙用，不解释

config.js

util.js

teamtalk.js

TeamTalk.hta

JavaScript目录遍历

巧用Scanner读取输入流中的所有内容

python备份表

Python DataViewListCtrl用法

python 对非规范化json的处理

encode py

HTA无标题窗口拖动

python db manager

pyodbc with statement

fdsafdsa

Eclipse中java不能自动编译问题

最近访客更多访客>>