コンソール上でひらがな、カタカナの文字を一括指定して置換する

release: 2021-01-05 update: 2021-01-04

前にgrepでひらがな・カタカナ・漢字を抽出する方法について書いてたことがあったけど、先日置換が必要になったので念の為残しておく。

PerlのUnicodeプロパティスクリプトを使った置換(perl)

置換と言ったらsedなのだけど、残念ながらPerlのUnicodeプロパティスクリプト(\p{Hiragana}みたいな指定)がsedでは使えない。なので、Perlで置換処理を実行する必要がある。

# perlでひらがなだけを置換する場合
command... | perl -C -ple 'use utf8;s/\p{Hiragana}/_/g'

$ cat a.txt
あaいbうcえdお
かeきfくgけiこ

$ cat a.txt | perl -C -ple 'use utf8;s/\p{Hiragana}/_/g'
_a_b_c_d_
_e_f_g_i_

使える指定方法はこれ。 \pを\Pにすると否定(ひらがな以外など)になる。

文字を範囲指定して置換する場合。

command... | sed 's/[ぁ-ん]/_/g'

使える指定方法を雑にまとめたのが↓の表。