「 UTF-8 は万能じゃない」—文字コード選定の落とし穴

こんにちは、阿久梨絵です！
「 UTF-8 にしておけば安心」
「文字化けはShift_JISのせい」
そんなふうに思っていませんか？

UTF-8は確かに、世界中の文字を扱える優れた文字コード。でも、それでも文字化けは起きるんです。この記事では、UTF-8でも文字化けが起きる理由と、その背景にある“落とし穴”をやさしく解説します。

そもそもUTF-8って何？

UTF-8は、Unicodeの文字を1〜4バイトで表現する可変長の文字コード。ASCIIと互換性があり、英語圏でも日本語圏でも広く使われています。

・「A」→ 1バイト（ASCII互換）
・「あ」→ 3バイト
・「𠮷」→ 4バイト（サロゲートペア）

この柔軟性がUTF-8の強みですが、それゆえにトラブルも起きやすいのです。

・UTF-8には「BOMあり」と「BOMなし」が存在します。
・一部のソフトはBOMありでないと正しく認識できず、文字化けが起きることがあります。

・ファイルはUTF-8で保存されていても、Webやメールのヘッダーで「Shift_JIS」などと誤って指定されると、受信側が間違った解釈をして文字化けします。

・UTF-8とCRLF（Windows）やLF（Unix）の組み合わせが合わないと、表示が乱れることがあります。

・Unicodeの一部（絵文字や特殊漢字など）は4バイトで表現されます。
・古いシステムやフォントが対応していないと、「�」などの文字化けが起きます。

・UTF-8に対応していない古いソフトやデバイスでは、文字化けが起きることがあります。
・特にメールやCSVファイルで顕著です。

・メールの件名が「=?UTF-8?B?…?=」で化ける
・Webページが「meta charset=Shift_JIS」になっていて、UTF-8の本文が化ける
・CSVファイルをExcelで開いたら「ã‚¢ãƒ‹ãƒ¡ãƒ¼ã‚·ãƒ§ãƒ³」になっていた

こうした現象は、UTF-8そのものの問題というより、周辺の設定や環境との“すれ違い”によって起きています。

UTF-8 は世界標準の文字コード。でも、「UTF-8にしたから安心」と思い込むと、思わぬ落とし穴にハマることも。
文字コードは、保存形式・指定方法・受信環境の3つが揃ってはじめて“読める”もの。
だからこそ、文字化けは単なる技術ミスではなく、「信頼の崩れ目」でもあるのです。
阿久梨絵でした！