| No.090 | 投稿日時: | 2003/08/24(日) 09:32 <↑親記事:No.083> |
| 投稿者: | 森山 将之 |
No.088 の内容で解決したようですが、以下の事をしたいのであれば、
CJK統合漢字 U+4E00〜U+9FFF かどうかをチェックするだけで良さそう
に思います。
> 私がやりたいことは
> ルビ付のshiftJISテキストを
> PerlでHTMLに変換することです。
> 処理の都合で内部でUTF-8に変換していますが、
> その状態で一文字ずつ漢字かどうかの判定をしたいのです。
■Unicode Home Page
http://www.unicode.org/
■関連JIS規格
JIS X 0208:1997 7ビット及び8ビットの2バイト情報交換用符号化漢字集合
http://www.webstore.jsa.or.jp/webstore/Com/FlowControl.jsp?lang=jp&bunsyoId=JIS+X+0208%3A1997&am...
JIS X 0221-1:2001 国際符号化文字集合(UCS) ― 第1部:体系及び基本多言語面
http://www.webstore.jsa.or.jp/webstore/Com/FlowControl.jsp?lang=jp&bunsyoId=JIS+X+0221-1%3A2001&...
■参考書籍
Unicode標準入門
http://www.seshop.com/detail.asp?pid=2276
JIS漢字字典
http://www.webstore.jsa.or.jp/lib/lib.asp?fn=/manual/mnl01_12.htm