絵文字 だけを抽出したい?──Pythonでできるシンプルな方法

こんにちは、阿久梨絵です!
SNS投稿やチャットログ、レビューコメントなど、 絵文字 が混ざったテキストを扱う機会は増えています。
でも「絵文字だけを抽出したい」「絵文字を含む文章だけを取り出したい」と思ったこと、ありませんか?

この記事では、Pythonを使って絵文字を検出・抽出する方法を、初心者向けにわかりやすく紹介します。

なぜ絵文字だけを検索できるの?

絵文字は、Unicodeという文字コードの中で特定の範囲に属しています。
つまり、プログラムで「この範囲にある文字だけを探す」と指定すれば、絵文字だけを抽出できるのです。

実用コード:絵文字を抽出するPythonスクリプト

以下のコードを使えば、テキストから絵文字だけを取り出すことができます。

python
import re

# 絵文字のUnicode範囲(簡易版)
emoji_pattern = re.compile(
“[\U0001F600-\U0001F64F” # 顔文字
“\U0001F300-\U0001F5FF” # 天気・場所・物
“\U0001F680-\U0001F6FF” # 乗り物・記号
“\U0001F1E0-\U0001F1FF” # 国旗
“\U00002700-\U000027BF” # その他記号
“\U000024C2-\U0001F251” # 囲み文字など
“]+”, flags=re.UNICODE)

---
# テスト用テキスト

text = “こんにちは🌸今日は☀️いい天気ですね!😊”

# 絵文字だけ抽出
emojis = emoji_pattern.findall(text)
print(emojis) # [‘🌸’, ‘☀️’, ‘😊’]

応用:絵文字を含む文章だけ抽出する

複数行のテキストから、絵文字を含む行だけを取り出すこともできます。

python
lines = [
“おはようございます!🌞”,
“今日は会議です。”,
“ランチ楽しみ🍱”,
“よろしくお願いします。”
]

---
emoji_lines = [line for line in lines if emoji_pattern.search(line)]

print(emoji_lines) # [‘おはようございます!🌞’, ‘ランチ楽しみ🍱’]

おすすめ活用例

・SNS投稿から「感情表現」を抽出して分析
絵文字を含むレビューだけを抽出してUX評価
絵文字を除去してテキストを整形

まとめ

絵文字 はUnicodeの特定範囲にあるため、正規表現で抽出可能
Pythonなら数行のコードで、絵文字の抽出・判定ができる
SNS分析、UX調査、テキスト整形など、幅広い用途に応用できる

絵文字は“感情の記号”とも言える存在
だからこそ、絵文字だけを見つける技術は、ユーザーの気持ちを読み解くヒントになります。
阿久梨絵でした!

上部へスクロール
Verified by MonsterInsights