テキストファイルの文字コード

投稿者: | 2019-11-16

テキストファイルは汎用性が高く、どんなアプリケーションでも読み込めるとされてきたが、実際はテキストファイルにも幾つか制約、種類があって、それに対応していないとテキストファイルを開いても文字化けを起こしたりする。
その最たるものが文字コードで、これには時々悩まされたりもする。日本語環境のWindowsでは、長らくShift-JISが主流だった。それ以前はJISだったり、UNIX系からの流れなのかEUCが使われることもあった。これはWebのHTMLも同様で、自分が当初作成したようなWebサイトのHTMLでは、Shift-JISばかりを使っていて、たまにサーバ側の制約でEUCを使わざるを得なかったりという状況だった。
だが最近は、それがユニコード、UTF-8に移ってきて、もうだいたいそれが主流になってきている。テキストファイル、エディタの初期値もShift-JISからUTF-8に変わっていたりする。WZもそうである。
自分はそれでもしばらく、汎用性を考えてShift-JISばかりを使ってきていたが、もうさすがにUTF-8を標準で使うようになっている。
正直なところ、詳しい差異までは説明できないが、要は多くの文字を扱えるという程度の捉え方である。Shift-JISは漢字のコードは2バイトだが、UTF-8は3バイトになるようで、その分テキストファイルのサイズも大きくなるわけだが、この辺はまあ仕方の無い部分なのではないか。