日本語のドキュメントを対象にした Perl のプログラミングなんて久しぶりだから、忘れてたりして困った。のでメモ。
Perl 5.10.0 で、Ubuntu な俺様は UTF-8 な環境。んで重要なこと。
- とりあえず、ソースコードも対象にするドキュメントも UTF-8 にしちゃえ
- use utf8;
正規表現をバイト単位じゃなく、ちゃんと文字単位で区切らせてマッチさせるのに必要。 - binmode STDIN, “:utf8”; binmode STDOUT, “:utf8”;
まあ説明面倒なのでググれ。メモだからこれで十分。 - s/\p{InCJKUnifiedIdeographs}/foo/g;
Unicodeのクラスをまとめてマッチさせたいときは、こんな感じで。これだと漢字とマッチする。