こんにちは、阿久梨絵です!
SNS投稿やチャットログ、レビューコメントなど、 絵文字 が混ざったテキストを扱う機会は増えています。
でも「絵文字だけを抽出したい」「絵文字を含む文章だけを取り出したい」と思ったこと、ありませんか?
この記事では、Pythonを使って絵文字を検出・抽出する方法を、初心者向けにわかりやすく紹介します。
なぜ絵文字だけを検索できるの?
絵文字は、Unicodeという文字コードの中で特定の範囲に属しています。
つまり、プログラムで「この範囲にある文字だけを探す」と指定すれば、絵文字だけを抽出できるのです。
実用コード:絵文字を抽出するPythonスクリプト
以下のコードを使えば、テキストから絵文字だけを取り出すことができます。
python
import re
# 絵文字のUnicode範囲(簡易版)
emoji_pattern = re.compile(
“[\U0001F600-\U0001F64F” # 顔文字
“\U0001F300-\U0001F5FF” # 天気・場所・物
“\U0001F680-\U0001F6FF” # 乗り物・記号
“\U0001F1E0-\U0001F1FF” # 国旗
“\U00002700-\U000027BF” # その他記号
“\U000024C2-\U0001F251” # 囲み文字など
“]+”, flags=re.UNICODE)
---
# テスト用テキスト
text = “こんにちは🌸今日は☀️いい天気ですね!😊”
# 絵文字だけ抽出
emojis = emoji_pattern.findall(text)
print(emojis) # [‘🌸’, ‘☀️’, ‘😊’]
応用:絵文字を含む文章だけ抽出する
複数行のテキストから、絵文字を含む行だけを取り出すこともできます。
python
lines = [
“おはようございます!🌞”,
“今日は会議です。”,
“ランチ楽しみ🍱”,
“よろしくお願いします。”
]
---
emoji_lines = [line for line in lines if emoji_pattern.search(line)]
print(emoji_lines) # [‘おはようございます!🌞’, ‘ランチ楽しみ🍱’]
おすすめ活用例
・SNS投稿から「感情表現」を抽出して分析
・絵文字を含むレビューだけを抽出してUX評価
・絵文字を除去してテキストを整形
まとめ
・ 絵文字 はUnicodeの特定範囲にあるため、正規表現で抽出可能。
・Pythonなら数行のコードで、絵文字の抽出・判定ができる。
・SNS分析、UX調査、テキスト整形など、幅広い用途に応用できる。
絵文字は“感情の記号”とも言える存在。
だからこそ、絵文字だけを見つける技術は、ユーザーの気持ちを読み解くヒントになります。
阿久梨絵でした!
