Universal Encoding Detector

python Universal Encoding Detector
http://chardet.feedparser.org/


テキストの中に出現する文字コードのパターンを手がかりにテキストの文字コードを判別し、
最もそれっぽい文字コードを返す。
emacsでは、そういった文字コードの判定ができるらしく、高い確率で文字化けを防げるらしい。


で、ちょっと使えるか試して見たんだけど、
やっぱり文字が少ないと、どうしても判定に失敗することが多くなってしまうんですね。


あと、当たり前だけど、
日本語文書から日本語を取り除くと、asciiと判定する。


な訳で、vim文字コード判定に使えるか試してみたけど、
判定した文字コードの結果を吐く所まで作ったところで、作業停止です。
http://nanasi.jp/dist/download/chardet.zip


所詮、日本語で使われる文字コードのパターンなんて余り無いから、
vimエディタの場合は、現状のままの、ある程度決めつける方法の方が便利っぽいんですよね。