Unicodeの隠れた功績として、こうした「何て呼べばいいの?」という文字に(はんば無理矢理)名前をつけてくれたこともあります。
例えば、
新方言時代〜「小さい“お”」って何?「々」はなんていえばいいのだろうか?
には
々 U+3005 IDEOGRAPHIC ITERATION MARK
といった具合に。
この手の調査は、Perl5.8以降が手元にあると簡単に出来ます。
例えば、
perl -Mencoding=utf8 -MHTML::Entities -Mcharnames=:full -ple \ '$o=ord; $_=sprintf"$_ U+%04X %s", $o, charnames::viacode($o)'
で、こんな具合にコードポイントとUnicode Consortiumが付けた名前を簡単に調べることが出来ます。
々 々 U+3005 IDEOGRAPHIC ITERATION MARK 〃 〃 U+3003 DITTO MARK [ctrl-Dで終了]
たくさん処理したい時には、以下のようにすると便利です。
my %ord2name = split /[\t\n\r]/, do "unicore/Name.pl"; # ここが決め手 binmode STDOUT, ":utf8"; for my $ord (sort keys %ord2name){ printf "%s U+%s %s\n", chr(hex($ord)), $ord, $ord2name{$ord}; }
ところが、残念なことに、漢字のほとんどはUnicode Nameを持っていません。仮に付けたとすると政治問題になってしまったでしょうね。どの国の読み方で名前をつけるかとかで。
Dan the Perl 5 Porter
「どう」って入力すれば選択できると思います。
同じ文字を続ける場合の省略文字として