1read 100read
2011年12月2期プログラム49: 文字コード総合スレ part7 (440)
TOP カテ一覧 スレ一覧 2ch元 削除依頼 ▼
・ 次のスレ
51: 雑談スレ 4 (185)
52: MFC、Win32++を超えるライブラリを作るスレ (825)
53: 【GUI】wxWidgets(旧wxWindows) その5【サイザー】 (330)
54: Objective-C [ObjC part:6]; (432)
文字コード総合スレ part7
1 :11/05/29 〜 最終レス :11/12/24 プログラマーなら一度は煩わされたことのある文字コードについてのスレ。 UTF-8、ShiftJIS、JIS、EUC、Uincode、 UCS、サロゲートペア、コードポイント、文字コード判定、 合成文字、ソート、TRON、外字コード、その他について語り合いましょう。 各言語での文字列の扱いについての質問もOKです。 基本マッターリ、ささ、茶でもどうぞ。 ■過去スレ 文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/ 文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/ 文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/ 文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/ (スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/ (隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/ 文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/ 文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
2 : ■参考サイト Unicode Home Page http://www.unicode.org/ Java Character Encodings http://www.ingrid.org/java/i18n/encoding/ euc.JP: tech docs, BeOS tools http://euc.jp/ ISO-IR - 2.8.1 Coding systems with Standard return http://www.itscj.ipsj.or.jp/ISO-IR/2-8-1.htm ISO-IR - 2.8.2 Coding Systems without Standard return http://www.itscj.ipsj.or.jp/ISO-IR/2-8-2.htm IANA: Character Sets http://www.iana.org/assignments/character-sets Legacy Encoding Project http://sourceforge.jp/projects/legacy-encoding/ CP50220 森山さんの説明 http://lists.sourceforge.jp/mailman/archives/legacy-encoding-talk-ja/2006-March/000002.html JISX4061 日本語文字列照合順番 http://www.jisc.go.jp/
3 : 漢字袋 http://kanji.zinbun.kyoto-u.ac.jp/~yasuoka/kanjibukuro/ 池田証寿 http://homepage3.nifty.com/shikeda/zatsubun.htm SJIS2004とかJISX213系の文字コード表 http://x0213.org/codetable/ ※JISCの奴は無料で閲覧できる奴じゃなくて購入したPDFでも手で書き取らされます Windowsで扱える文字一覧(コードページ毎で良ければ) http://www.microsoft.com/globaldev/reference/cphome.mspx docomoの携帯コンテンツ制作者向け文字コード情報 http://www.nttdocomo.co.jp/service/imode/make/ auの携帯コンテンツ制作者向け文字コード情報 http://www.au.kddi.com/ezfactory/ SoftBank携帯コンテンツ制作者向け文字コード情報 http://creation.mb.softbank.jp/ 漢字データベース http://kanji-database.sourceforge.net/index.html
4 : Google Standard Unicode Emoji Mapping http://unicode.org/~mdavis/08080r-emoji-proposal/ Proposal for Encoding Emoji Symbols/N3582 http://unicode.org/~scherer/emoji4unicode/snapshot/emoji.pdf Emoji Symbols: Background Data http://unicode.org/~scherer/emoji4unicode/snapshot/full.html Amd.7のドラフト http://std.dkuug.dk/jtc1/sc2/wg2/docs/n3580.pdf MacOSでのShift_JISとUnicodeとのマッピング ftp://ftp.unicode.org/Public/MAPPINGS/VENDORS/APPLE/JAPANESE.TXT MS-DOS 5.0〜WindowsXPまでのコードページ http://msdn.microsoft.com/en-us/goglobal/cc563921.aspx Supported Code Pages (コードページなしは変換) http://msdn.microsoft.com/en-us/library/aa288104(VS.71).aspx Code Pages Supported by Windows (コード表) http://msdn.microsoft.com/en-us/goglobal/bb964654.aspx
5 : リンク集も古くなっちまったな・・
6 : ■これまでに行われた議論 ・WinでCP50220 は Unicode からマルチバイト文字への変換でいわゆる半角カタカナを全角カタカナに置き換え 内部的には Unicode -> CP932 -> CP5022x って変換な気もする ・人名をソートかけたらバストサイズ順の並びになる? ・Shift JIS や EUC-JP や Big5 や GB なんかをUnicode に変換してしまうと、ラウンドトリップは保証されるか ・単一情報をソースの文字コード(or 言語)情報なしに元に戻したい (統計的に文字の出現確率なんかを調べる) ・PC-98x1シリーズのMS-DOSはShift_JISだが漢字ROMはJIS、変換は何処で行っていた? ・0x5cをUnicodeにするときにバックスラッシュに置き換えるか円マークに置き換えるかで、逆変換時に結果が変わるの問題 ・丸付き数字は機種依存文字か?。MSIME2007ではCP932に収録されてない文字は「環境依存文字」って表示。 Macではフォントによっては表示されないし、フォントによっては表示される ・Shift_JISと名乗っているCP932やISO-2022-JPと名乗っているCP50220を表示(Unicodeに変換)する際に 機種依存文字はサポートされるか? ・Safari文字コード変換のバグは ・Microsoft文字コード変換のバグは ・U+31F0..U+31FF(アイヌ語表記用小書きカタカナ)が入ってない件 ・なぜ携帯業界はunicode化しないのか? ・このスレへの書き込みはブラウザが2chへ送り出す時点でUnicodeからShift_JISに変換しているのか ・文字化けに強いishフォーマットでエロ画像を交換する場合、ssより、s7のほうが化けにくい
7 : ・中国語の簡体字では、へんやつくりが簡略化されるなら、その文字も自動的に簡略化して表記する国家規格が有る ・中国語の「噁心」簡化政策によると「恶(U+6076)」に統一。口偏+恶(U+6076)は普通に使われているがUnicodeにはない ・日本人のニーズが満たせないのも確かなので原規格分離(中国では「曾→曽」は簡体字と繁体字の違いとはみなされていないとか) ・UNICODEを扱うプログラムはサロゲートをぶったぎられた入力が渡されてくる場合にも備えろって→YES ・UnicodeとUTF-8の違いは? ・日本のCJK Ext.D Submissionに{魚針}が含まれてる件 U+9C75(魚箴)は強烈。いくら何でも違いすぎる。(魚針) ひょっとしたら後で実は別字だったとか日本では異体字だが中国では別字とかになるかも知れんぞ。 中国ではってレベルじゃねーぞ。 ・Windows Vista での「IME パッド - 文字一覧」の「JIS X 0213 (1面)」のバグ UTF-16: 0x304B 0x309A → Unicode: U+FD61809A (間違い) (ISO/IEC10646はU+10FFFFまで) サロゲートペアからコードポイントを引き出す計算を無理やり適用(間違い) ((0x304B - 0xD800) << 10) + (0x309A - 0xDC00) + 0x10000が 0xFD61809A になる。 ・文字コードではインドカレーは飲み物か否か。カレーパンうまうま。 ・CJK混在の漢字環境ってどうやって、切り分ければいいの? → ムリです。 ・Winzipで保存されるファイル名が文字化け→zipではコードページ情報が無い。直接zipファイルから切り出せ ・Unicodeは言語情報を直接扱わない。 多言語の混在表現は(unicodeでは)できないか ・Unicode文字列リストを各国言語を考慮してソートしたいんですが → ムリです。 ・Unicodeサニタイズが面倒になるのか
8 : ・SJISとUNICODEの判別はどのようにすればいいですか?BOM。無ければ、統計判断。 ライブラリを使うが吉 ・ところでケータイのUnicode対応度って実際どうよ? → マークもUnicodeに追加されるんだな。 ・WindowsXP で フォルダに使用できないフォルダ名はどうやって判定 → ちょっとアホな方法だけど、%TEMP% フォルダの下で実際に作ってみて。本当に作成できるかどうかで判断。 ・TwitterのWebインターフェイスからだと、サロゲートペアは2文字としてカウント。140字打てない 。 ・Unicode 5.2で追加されたUnicodeSMP(第1面)、Unicode 5.1で未定義だったSMPのコードポイントや第15、第16面が Windows7では表示されない。 → 和田研細丸ゴシック2004ARIBはARIB外字を含んでいる。 ・WindowsXP SP3でMicrosoftのJIS2004フォント環境でサロゲートペア文字が表示されない。→ コントロールパネル-地域と言語のオプション-[言語]タブで 「複合文字や右から左方向に書く言語 (タイ語を含む) のファイルをインストールする」にチェック ・URLの%で続く2桁の0-9、A-Fへの変換は、UTF-8→urlencodeによる。RFC1738を嫁。 ・菊紋、桐紋、葵紋などは文字か?海栗コードへの挿入は難しい。そこでTRONだ!! ・元号を安置する場所はJIS第三で確保済み。ウニコードでブロックを確保は政治力次第。 ・元号は個人名ではない。特定の時間軸基準に数える年号を漢字で指す文字。 陛下の崩御後必ずしも元号が追号になるわけではない。むしろ違う場合が多い。昭和54年法律43号の元号法参照。 ・文末でなければ"0"+ASCII7ビット、文末なら"1"+ASCII7ビットというエンコード。 → ヌル1バイトが貴重な時代からの負の遺産。 ・Windows7出荷時に未定義だったコードポイントはフォント入れても豆腐になる。Unicode5.2は表示しない。欝だ。 ・Unicode6ドラフトでPILE_OF_POO文字確定。ウニコードがもはやイミフ。SerifとSans-Serifで幅に違いは出る? ・shift-jisからUTF-8変換でサイズ1.5倍。でも圧縮すれば平均10%増加程度。用途に合わせて使うべし。 ・「wchar_tは>849の嫁。>849の許可無くしてUTF16だの32だの無理矢理突っ込むのは許さん。」 ・電子演算機では文字化けなんて飾りです。UTF-8/UTF16の人にはそれがわからんのですよ。
9 : ■ライブラリ IBM Globalization - ICU http://www-306.ibm.com/software/globalization/icu/ NKF32.DLL http://www.vector.co.jp/soft/win95/util/se020949.html http://www1.ttcn.ne.jp/~kaneto/dll/nkf32dll.html バベル http://tricklib.com/cxx/ex/babel/ バベルの文字コード判定で使ってる日本語文書内での各文字の出現頻度データです。 http://tricklib.com/cxx/ex/babel/scoremap.csv mlang http://msdn.microsoft.com/ja-jp/library/aa767865(en-us).aspx iconv http://www.gnu.org/software/libiconv/ ICU http://www.icu-project.org/
10 : ■単語一覧 ・UTF-16は16ビット単位にエンコードするけど、サロゲートペアがある 表現できる文字空間はUTF-8と同じく20ビットとちょっと ・丸付き数字は機種依存文字か?MSIME2007ではCP932に収録されてない文字は「環境依存文字」って表示。 MacJapaneseではフォントによっては表示されないし、フォントによっては表示される。 今のMac(内部Unicodeアプリ)は、フォント依存ではなくアプリ依存。 似非ISO-2022-JPや似非Shift_JISのドキュメント中の丸付き数字は、 素直にAppleのAPIを使ってるアプリならゲタ(U+FFFD)になる。 ・Mail.appではISO-2022-JPに収まらずCP932に収まるメールは、含まれる字種によって charset=CP932で送信される場合とISO-2022-JP(もどき)で送信される場合がある ・MSでのウニコードとSJIS変換のバグ。 U+007E TILDE <-> Shift_JIS 0x7E OVERLINE U+301C WAVE DASH -> Shift_JIS NA 【MSの問題】 U+FF5E FULLWIDTH TILDE <-> Shift_JIS 0x8160 WAVE DASH 【MSの問題】 ・SafariでのウニコードとSJIS変換のバグ。 U+007E TILDE -> Shift_JIS 0x8160 WAVE DASH 【Safariの問題】 U+301C WAVE DASH <-> Shift_JIS 0x8160 WAVE DASH U+FF5E FULLWIDTH TILDE <-> Shift_JIS NA ・winzipの規格ではファイル名のコードページ指定もしくは記録情報が存在しない。 解決策:取り合えず、MSWin+JPではShift-jisでファイル自体には保存されている。 MACOSX=Unicode,Unix=UTF/EUC/S-JISどれでもありえる。文字に関係なくLocalLangで 再変換しているので、それをしなければよい。 ・charlenでの文字列長の判定はプラットフォームにより返り値が違う(機種依存文字等)。マニュアル嫁。 ・JISのエスケープシーケンスが正しく認識されない本文とか。 '0x1b, 0x24, 0x42' という3バイトを先頭に、'0x1b, 0x28, 0x42' を末尾に追加汁。 あるいはhttp://masaka.dw.land.to/mr/jmr.php とか。
11 : 今となっては>>3-4 はもういらないんじゃないか あとWG2方面のリンクがないので追加 JTC1/SC2/WG2 - ISO/IEC 10646 - UCS http://std.dkuug.dk/JTC1/SC2/WG2/ ISO/IEC JTC1/SC2/WG2/IRG Ideographic Rapporteur Group http://appsrv.cse.cuhk.edu.hk/~irg/ 日本の委員 (JSC2) http://www.itscj.ipsj.or.jp/meibo/020000.pdf
12 : 前スレdat落ち
13 : 甲乙丙丁戊己庚辛壬癸 癸だけが第二水準
14 : ___ / ||>>1 .|| ∧_∧ | ||乙_|| (・ω・`) | ̄ ̄\三⊂/ ̄ ̄ ̄/ | | ( ./ /
15 : あちゃー前スレ落ちちゃったかー
16 : ほー、日本は小書きコに反対か。 汎用電子IVDに続いてアドビとしちゃ面白くないだろうな。
17 : 反対するのが生きがいのような連中がWG2に居座ってるからな。 つーかIRGN1757にも反対しろよ。普通なら真っ先に反対してるだろ。 返す刀で汎用電子の追加登録に何か言われたくないのか?
18 : 汎用電子で思い出したけど ttp://twitter.com/ogwata/status/48519614107357184 ↑これってMSやAdobeみたいな実装する側の意向すら差し置いて ああいう決定したってことでしょ よっぽど声のでかい理屈屋がいるんだろうな
19 : n4091 >some discussion in Japan on the possibility to have a standard set of hentaigana. おっ!?
20 : Japanって常々どうも理解しがたい主張ばかりしてる気がする
21 : 小書きコの運命やいかに
22 : もういっそ五十音全部小書き版作っちゃえよ
23 : http://slashdot.jp/%7Eyasuoka/journal/532369 「ネ申」と「示申」でいいよ
24 : ねもうす しめしもうす
25 : UTCは小書きこを受理済みなのね てことは日米での殴り合い確定か
26 : カゲながら米を応援したいと思ってる
27 : 日本が何らかの決断するまで変体仮名は前に進められなくなっちゃったかも
28 : ヘルシンキかあ。ちょうど白夜の時期なんだろうなあ。
29 : 377 :SIM無しさん:2011/06/09(木) 06:40:25.91 ID:7+dIaRVO Segoe UI Symbol を担当した Agfa Monotype の人間出てこい… 気になる点を調べたが… おでんの具の刺さり方がとんでもなかったり、ひな祭りの人形が百合祭り (性指向) の人形になってたり、 出来れば製品版で直っていてほしい。
30 : どこで見たんだろ。SDKには入っていなかった気がするけど。
31 : AppleはAppleで絵文字専用フォントフォーマット作っちゃったようだし 結局プラットフォームごとにバラバラな見え方することになるんだろうな
32 : うむ
33 : 安岡センセイ、文字コード関係で編集合戦の結果、ウィキペディア無期限ブロック ttp://ja.wikipedia.org/w/index.php?title=%E5%88%A9%E7%94%A8%E8%80%85%E2%80%90%E4%BC%9A%E8%A9%B1:%E5%AE%89%E5%B2%A1%E5%AD%9D%E4%B8%80&oldid=37835032
34 : 安岡先生どこで編集合戦したの?
35 : ttp://ja.wikipedia.org/wiki/QWERTY
36 : 直接ウィキペディアをいじっちゃ駄目だろ ウィキペディアの出典になりうる文書を書くほう(本業)を頑張ることだな
37 : お前ら反応する前に確認しろよ。濡れ衣だったとかで既に解除されてるぞ http://ja.wikipedia.org/wiki/%E5%88%A9%E7%94%A8%E8%80%85%E2%80%90%E4%BC%9A%E8%A9%B1:%E5%AE%89%E5%B2%A1%E5%AD%9D%E4%B8%80
38 : 自著を典拠にして自分でwikipediaの記事書いてた/るってこと?
39 : なにか問題あるの?
40 : アンチ安岡の病人がネットには何人かいるようだから、そのうちの一人だろ。 相手にすんな。
41 : >>39 別に問題はないけど>>36 と同じような感想は持った。
42 : 小書きこ入らなかったか…
43 : http://std.dkuug.dk/JTC1/SC2/WG2/docs/n4108.pdf > Moreover, Japan national body is not comfortable with the idea to encode such > ad-hoc inventions in UCS. Generally speaking, authors can do anything he/she > considered appropriate, and most of those novel usages are just forgotten > without any followers. We should not encode new characters unless they are > considered to have some established usages. JIS X 0213は吉本隆明のためだけにU+2A437「??」を収録したけどな。
44 : Janeから書いたら「𪐷」が文字化けした
45 : こんなにいっぱい矢印が入ることは見過ごせても ちっちゃいコが二つ入ることは容認できないのね
46 : Jane(笑) 俺のV2C△□×
47 : >>46 しかも>>44 がU+A437に文字化けして見えるんだぜorz
48 : >>45 一度入れたらなし崩しになるとでも思ってるのかね。 その観点ではもう手遅れもいいところだろ
49 : これが漢字なら、写研の文字セットにもある(キリッ って逆に典拠として使いそう
50 : 漢字はいろんな意味で特別扱いされてるよな 雪だるまとか包摂されまくりなのに
51 : 写研といえばBA-90のUnicode収録マダー? (AAry ログインとかうる星やつらで使用実績もあるぞ
52 : U+1F31Dに包摂されるんじゃないの
53 : (笑)が使われる以前はインタビュー記事とかでも結構使われてたな。
54 : 今見ると{ハハッ ワロス}って吹出しがつきそうな顔だ。
55 : ____ / \ / ─ ─\ / ⌒ ⌒ \ ハハッワロス | ,ノ(、_, )ヽ | \ トェェェイ / / _ ヽニソ, く よく雰囲気出てるな
56 : >>37 火のないところに煙は立たず
57 : ウィキペディアの管理者は一般利用者に対しては火のないところにも煙を立てるけど CheckUserの靴下疑惑は「同棲してました」で済ませる人格者ぞろいだからな
58 : 火のないところに火を付けて煙を立てる2ちゃんねらーが言うなw
59 : 先週のWG2で日本に関係ありそうなのは ・コンソーシアムがUTS37などを改訂する時はWG2の意見を尊重すること くらいかな あとは ・Wingdings/Webdingsの記号がいっぱい受理された ・線文字A受理 ・Amd8から先送りされ続けているA78Fがまた先送り ・USがこれ文字じゃないだろと言い続けて同じく先送りされてきた1BFA-1BFBがとうとう削除 ・三つ巴の提案で暗礁に乗り上げていたOld Hungarianがようやく決着 ・ミーティングの間隔が空きすぎているのでためしにオンライン会議を導入
60 : オンライン会議って動画をやりとりするの? チャットじゃなくて
61 : discussion list and teleconferencing facilities って書いてあるねぇ。
62 : >>57-58 マジレスするが2chと同等かそれ以上にdqnのスクツ
63 : 安岡センセイのWikipedia投稿記録、自著の宣伝ばっかり http://ja.wikipedia.org/wiki/%E7%89%B9%E5%88%A5:%E6%8A%95%E7%A8%BF%E8%A8%98%E9%8C%B2/%E5%AE%89%E5%B2%A1%E5%AD%9D%E4%B8%80
64 : 著書にすらできない脳内ソースを延々書き連ねるよりよっぽどマシだな
65 : >>59 UTS37の改訂って↓コレ? ttp://www.unicode.org/review/pri184/
66 : それも含めて10646からnormativeとして参照している文書すべて らしい
67 : 確かにUnicode側の都合だけで参照文書コロコロ変えられたらたまらんよな
68 : 一度手にした白紙委任状をコンソーシアムがそう簡単に手放すかな〜
69 : >>65 俺の英語力がないのか、内容がわからん 何のためにこんな改訂するの?
70 : glyphic subsetが集合であることを明確化するため
71 : 後から追加可能だったら閉集合にならないじゃん
72 : glyphic subsetに何が含まれないかはもともとはっきりしていない 何が含まれるかがより明確になるだけマシ
73 : 「私の知っているKen Lundeなら必ずやる」にワロタ
74 : 互いに素?
75 : 無理だろうな
76 : >>74 2つのglyphic subsetが共通部分を持たない、って意味じゃね?
77 : 向こうしばらくの主戦場はIVSか。
78 : PRI 183キター
79 : >互換漢字「氈v(U+FA20)はIVSの基底文字になれない IVSの基底文字になれなかったら 艸カンムリ3画・4画の差をどうやって分けるの?
80 : >>79 U+FA20はバグだと主張して新たに統合漢字として追加提案する
81 : >>79 U+8612に艸カンムリ3画・4画のIVSを両方追加する
82 : うむ
83 : U+2B789とU+2B78Eみたいなことになりそうなのが微妙
84 : 文字コードとRFC(2822)の関連性について、どなたか教えてください
85 : なんでRFC 5322に廃止された2822?
86 : UTS #37でdeprecationも規定してほしい
87 : >>85 すいません、今は更新されてRFC5322なんですね。 文字コードとRFC(5322)の関連についてのレポートを書かなければいけないのですが いまいち良く分からないので、こんなの書いたら良いよっていうのがあれば教えてほしいです。
88 : 文字コードのことわかってない土方大杉。
89 : >>87 質問が漠然としすぎててなあ。 ・RFC 5322ではContent-Typeヘッダフィールドで本文の文字コードを指定する ・日本ではRFC 1468に従いふつーISO-2022-JP ・最近はUTF-8も増えてる (とくにRFCに根拠はないが強いてあげればIMC勧告から参照されているRFC 2277) ・添付ファイルの内容の文字コードはMIMEのRFC(2045〜2047)に従う ・添付ファイル名の文字コードはRFC 2231に従う あとは適当にふくらませてくれ
90 : >>89 > ・添付ファイル名の文字コードはRFC 2231に従う ちょっと表現が微妙ですね。
91 : 2011年、Ruby,Perl,PHP,Pythonって並べたときにさ ここで、Ruby以外を選ぶ奴ってマジでなんなんだろうな ゴミグラマは社会底辺
92 : >>91 Rubyみたいに糞遅いもの使えるか。 どーせメンテしないなら、呪文みたいなperlのコード書く。
93 : 荒らしはともかくそれにコメントしようとする前にせめてスレタイをみてくれないか
94 : >>93 何お前まだ表示してるの? 人生無駄にしてるな
95 : 汎用電子第二陣もう来たのか。早かったなあ。
96 : >>95 安岡センセイが指摘したU+2B751 さっぱりわけわからん
97 : 文字エンコーディング変換を自前で作ってしまう人はあとをたたない http://fallabs.com/blog-ja/promenade.cgi?id=137
98 : 全員が職業プログラマーってわけじゃないから別にいいだろ。 でもこのセンスの無い糞コードは何とかしたほうがいい。
99 : コンバータが大きくて不恰好なのは、過去あんまりにもめいめいに勝手な変換が行なわれたせいだ だから、iconvが大きいと文句を言うのなら、変換にはiconvを使わなければならない 自分で文字コード変換なんて絶対にやってはいけない ましてや公開とかありえない
100read 1read
1read 100read
TOP カテ一覧 スレ一覧 2ch元 削除依頼 ▲
・ 次のスレ
51: 雑談スレ 4 (185)
52: MFC、Win32++を超えるライブラリを作るスレ (825)
53: 【GUI】wxWidgets(旧wxWindows) その5【サイザー】 (330)
54: Objective-C [ObjC part:6]; (432)