404 Blog Not Found

The requested blog was not found -- unless you requested that of Dan Kogai (小飼弾).

2010年09月01日18:30

カテゴリ: Lightweight Languages

regexp - to \b or not to \b

asin:4873113598

詳説正規表現第3版
Jeffrey Friedl
株式会社ロングテール / 長尾高弘訳
[原著:Mastering Regular Expressions (3rd Ed.)]

正規表現の単語境界\bは便利ですが、これでうまく行かない場合もあります。

gist: 52e8422175f25d982fd9 - GitHub

However when we have punctuation characters at the beginning or end of the keyword we add to the TRIE itself, like "#android", this \b gets in the way, since '#' is not a word character.

要するに、こういう場合に困ったぞということです。

#!/usr/bin/perl
use strict;
use warnings;
use Regexp::Trie;
my $rt = Regexp::Trie->new;

$rt->add($_) for qw( #mac #win #unix );
my $re = $rt->regexp;
warn $re;

my $text = "I'm watching #mac, #win and #unix.";
my @m = $text =~ /\b($re)\b/g;
printf "\@m = (%s)\n", join ', ', map { qq('$_') } @m;

しかしこれも、 lookaround assertion (先後読み) が使えるのであれば解決できます。

文字境界開始: (?<![chars])(?=[chars])
文字境界終了: (?<=[chars])(?![chars])

#!/usr/bin/perl
use strict;
use warnings;
use Regexp::Trie;

my $rt = Regexp::Trie->new;
$rt->add($_) for map {'#'.$_} qw( mac win unix );
my $re = $rt->regexp;
warn $re;

my $b = qr/(?<![\w#])(?=[\w#])/;

my $text = "I'm watching #mac, #win and #unix.";
my @m = $text =~ /$b($re)\b/g;
printf "\@m = (%s)\n", join ', ', map { qq('$_') } @m;

以上はPerlの例ですが、先後読み対応の正規表現エンジン搭載の言語であればいずれもいけるはず。

詳しくはフクロウ本のP.130あたりを参照のこと。

Dan the Regular Expressionist

コメントする

記事検索

Recent Entries

If you can't beat them, join them.

evalpark - Swift入園しました

ようこそevalparkへ

「「0÷0＝」を実行すると「エラー」になる理由」を見て割り切れない気持ちを抑えられない理由

Disowned by a Dysfunctional Family

YAPC::Asia does not welcome Dan Kogai

ブロマガ更新 - 404 SECRET Not Found #29 まだディスク処分で消耗してるんですか?

紹介 - 未来予測を嗤え!

ブロマガ更新 - 404 SPAM Not Found #28 I code therefore I am

ブロマガ更新 - 404 SPAM Not Found #27 大きなつづらと小さなつづら

ブロマガ発行遅延のお知らせ - 404 SPAM Not Found #27

ブロマガ更新 - 404 SPAM Not Found #26 大統一言語?

#yapcasia - Introducing Swift - and the Sunset of Our Culture?

ブロマガ更新 - 404 SPAM Not Found #25 こっち立てばあっち立たず

恐れのみを恐れよ - 書評 - リスクにあなたは騙される

ブロマガ更新 - 404 SPAM Not Found #24 博士の異常な劣情または私は如何にして心配するのを止めて少子化を愛するようになったか

石の模様 - 書評 - 思考する機械コンピュータ

why(matters(Swift) > matters(Yosemite + iOS[8]))

ブロマガ更新 - 404 SPAM Not Found #23 Owners Take All

来た、観た、呆れた - 品評 - Google Chromecast

俺のサム伯父さんがこんなにマヌケなわけがない - 書評 - 暴露

javascript - でiTunes Matchedなaacの出自を調べてみた

ブロマガ更新 - 404 SPAM Not Found #22 A Heartbleeding Story

FreeBSD - Jailは仮想化ではなく半仮想化と呼ぶべきではないか

書評 - The End of Poverty

Introducing FoolBSD 4.1

ブロマガ更新 - 404 SPAM Not Found #21 騙され上手になろう

Unicode - perl+javascript - にプログラムでよく使われる英語の記号の読み方を調べさせる

Windowsという名の薄皮一枚

Tips - 静的リソースのURIに?をつけるべからず

些末なゴミは出所を問わず拾うのが客商売

llevalに久しぶりに手を入れた

ブロマガ更新 - 404 SPAM Not Found #20 核心の問題

A Brief History of Guts - 紹介 - 図解・内臓の進化

備忘録 - FreeBSD 10 あれこれ

perl - func(tion()) considered harmful?

ブロマガ更新 - 404 SPAM Not Found #19 俺の幹細胞がそんなにちょろいなわけがない

ブロマガ#12より転載 - 日本の原子力に未来はあるか?

社会科学を真の科学に - 書評 - 偶然の科学

Tips - iMac 27-inch, mid 2011 を回春してみた

続報 - Windows 8.1 & Miix 2 8

ブロマガ更新 - 404 SPAM Not Found #18 器用貧乏

靖国神社に参拝することに賛成な方に、一つだけ質問

備忘録 - 仏の秘密も百度まで

備忘録 - MacでWindowsを使うには

Back to the Netbook - 品評 - Windows 8.1 & Miix 2 8

パンドラの箱 - 書評 - コンテナ物語

訃報 - Nelson Mandela, 1918-2013

ブロマガ更新 - 404 SPAM Not Found #17 一目不瞭然

品評 - VE-GDW03DL & スマートフォンコネクト for GDW03

注目エントリー@はてな

Archives

Categories

Art (413)

SOC2006 (1)

Ring Server Project (4)

LLの夏 (11)

Medicine (45)

Recruit (3)

ITPro (13)

Culture (69)

Code (96)

Rated R (10)

Site Review (2)

翻訳/紹介 (168)

アマグラマーのすすめ (12)

アルゴリズム百選 (26)

オレ格言 (2)

ダイヤモンド (33)

News (185)

弾本 (39)

twilog (27)

Software Design (40)

東日本大震災 (30)

Announcement (189)

Blogosphere (323)

Ecosystem (36)

iTech (322)

Lightweight Languages (955)

Living on the Edge (168)

Logos (169)

Math (209)

Love (237)

Media (248)

Moblog (83)

Money (355)

OSCON 2005 (26)

Open Source (87)

Psychoengineering (194)

SciTech (314)

Taxpayer (336)

Tips (202)

Tribute (32)

Value 2.0 (270)

WEB+DB PRESS (58)

YAPC::Asia (61)

書評/画評/品評 (1937)

一日一行野郎 (41)

♪替え歌 (80)

どつぼ - pitfall (20)

イタい格言 -- painful proverbs (17)

「バベル」撮影日記 (11)

1st Day of April (31)

ブロマガ (19)

evalpark (2)

VALU (1)

Profile

dankogai

Amazon.co.jp ウィジェット

QRコード

QRコード