からだのブログ

五体満足に生まれてきたことに感謝してブログの名前を「からだ」にしました。

からだのブログ header image 2

Perl 日本語正規表現メモ

6月 20th, 2009 · No Comments · programming

日本語のドキュメントを対象にした Perl のプログラミングなんて久しぶりだから、忘れてたりして困った。のでメモ。

Perl 5.10.0 で、Ubuntu な俺様は UTF-8 な環境。んで重要なこと。

  • とりあえず、ソースコードも対象にするドキュメントも UTF-8 にしちゃえ
  • use utf8;
    正規表現をバイト単位じゃなく、ちゃんと文字単位で区切らせてマッチさせるのに必要。
  • binmode STDIN, “:utf8”; binmode STDOUT, “:utf8”;
    まあ説明面倒なのでググれ。メモだからこれで十分。
  • s/\p{InCJKUnifiedIdeographs}/foo/g;
    Unicodeのクラスをまとめてマッチさせたいときは、こんな感じで。これだと漢字とマッチする。

Tags: