1read 100read
2012年3月プログラム165: UnicodeとUTF-8の違いは? その2 (711) TOP カテ一覧 スレ一覧 2ch元 削除依頼
■暗号技術【ROUNDsurea】■ (401)
【次世代】 Jxtaお勉強スレッド 【P2P】 (600)
【O3D】HTML5用 3D API WebGL 【Canvas:3D】 (367)
GCCについて part10 (167)
【Lisp】プログラミング言語 Clojure #2【JVM】 (397)
アプリケーションの国際化対応の話題スレ (234)

UnicodeとUTF-8の違いは? その2


1 :10/11/30
富士通だとデフォルトでは生成されない
frt -c -Am -M./ (なんとか.f90)
でいけるのではなかろうか。いずれにせよ、
frt -help | less
とかやって、"module"で検索を掛けるのが吉。

2 :10/11/30
アイちゃんによる誤爆スレ立てでした

3 :10/11/30
このスレッドは天才pンジー「アイちゃん」が
言語訓練のために立てたものです。
アイと研究員とのやり取りに利用するスレッドなので、
関係者以外は書きこまないで下さい。
                  京都大学霊長類研究所

4 :10/12/09
つ゚

5 :10/12/09
|                                      ,.-――――‐  、       ..|
|                                      /      ,.-――┴- 、     .|
| 以下                               /   |   /: : l、: : : ;l: : : : :\.   .|
| イカペディア創設者                      /   :! ./: : :、: :!_\;/ _V\ : |`     |
| イカ娘からの                        〈 ___V: : : :|∧|      __`|∨    |
| メッセージをお読みください                   ` ̄丁 |: |:l :| __   〃⌒V|     |
|                                         ヽ|: NV:!〃⌒__ //}|     |
|                                          /: :{_|: :|//f´   ヽ}  八    |
|                                          _/: :/:/ : ト .丶___,ノイ\_:\.  |
|                                   __,/: :_;/: /,.イ⌒ヽ!ヽ: ト、\  !: |__ |
 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄

6 :10/12/15
               ,. ――- 、_
                /         \`  、
           /     ___  \  \     人類よ、よく聞け!
            //   .  ´: : : : : : : :` 、 ヽ   \   今からこのスレを
           / / ./: : : : : : : : : : : : : : : \i:    〉  人類侵略の拠点に
          / / / : : : : : : : : : : : 八: : : : : : :ヽ./   させていただくでゲソ
.       /  :i/: : : :\: __: : : : :-/―}ハ‐ : : : : : i          __
      〈   /: : : : : /\: : : : / ,x≠ミx、: :∧|      / }
       \i: : : : :/ |:|  \:/   んィハ }}V:|):{     ./  /
         |: : : : : : ト|       弋ぅり  {: :、: \__/  /__   ,. ┐
        ∨\: : :|   ,x≠   ,       ハ: : \:__:/  /: : : : : :`ン'’ ノ
               \|ヘ〃   r    ̄}  /: : \:_____/  /´ ̄ ̄/  / \
               / : : ∧    \ __ノ/L.,ィ'⌒ヽ:_/  /: ̄`ン'  / ヽ: : : :!
             /: : :〃: :,>ー;‐┬  ´   /{{ /:/   ハ:>'´  /、   j: : : |
      ___,/: ://: : :{  〃 八    / ∨/        /ヽ: : ', /: : :/
    / : : : : : : ://: : :,ハ {{ |\  __/  V:f         '⌒ヽ }: :| \: :\
  / : :/´ ̄ ̄/ : : / j : ヽ}}:!   /   |: |   {    /  /},: : / _/: : /
  {: : :{    / />くつ/: : : :リ  '.  / /  :! : 、   V´ ̄   ,.イ/ : / | : : : :|
   、: : 、   |:{   r_〉}ヽ: : :{   ∨      \: \ \― ´ /' : 〈   ! : : : : |
   \: :\  、:\__): }\:、           ` ┬ヽ._}=一'´ 〉: : 〉 ! : : : : |

7 :10/12/16
524 名前:デフォルトの名無しさん [sage]: 2010/09/26(日) 02:22:11
BOMの扱いが決定不可能な問題について質問と言う形で出す

変な子が、ファイルサイズと文字長は違うよと言ってくる

知ってると返す

変な子が、人が扱う文字長とプログラムで扱う文字長は違うと言ってくる

知ってると返す

変な子が、いやおれの中では文字長と言えばこう定義されてるし別物なんだよと言ってくる

だから、そんな話はしていないからもうレスしなくていいよと返す

変な子が、人が扱う文字長とプログラムで扱う文字長は違うんだよ!昔からの当たり前の話だろうと言ってくる

開いた口がふさがらない

変な子が、コンピュータ処理で言う1文字と人が認識する1文字とは違うんじゃないのと、また繰り返してる

もうやだこの馬鹿 ←いまここ

8 :10/12/16
1 名前:デフォルトの名無しさん [sage]: 2007/04/30(月) 20:02:37
ビッグインディアンとかなんとかかんとか

9 :10/12/17
           皆様へのお願い
  このスレッドは高次機能障害をもたらす
病理の臨床実験のために立てたものです。
  被験者と研究員のやり取りに使うため、
書き込み等は自重されるようお願いいたします。
もし、書き込み等をすることで不愉快な思いをされましても、
当研究所は責を負いかねます。
                      (社)京都微生物研究所

10 :10/12/17
      ,.-―― 、
     /    ,.- ┴- 、
     /.|  /:´ : : : : : : : :ヽ
.    / :! i{: : : :/\;/ V }: :ゝ
   〈.__V l:l:V-‐ ´ ‐ ,'l:/ <人間ども、昔ETという映画があったことを知らなイカ?
.     ヽ|: l: l、  ヮ_.ノ:l    <ETという宇宙人によって地球が侵略される話でゲソ
.    _/:/`,}:`ス/ ̄ ̄ ̄ ̄/ <そして、次の瞬間、貴様はキーボードのEとTを見て驚愕するでゲソー
   /: : :(__::::つ/  FMV  / カタカタ
.. ̄ ̄ ̄ ̄ ̄\/____/ ̄ ̄

11 :10/12/17
うーん、EとTを見ても驚愕すべきものがなにも見つからない。
目の前にキーボードが2台並んでいるのだが……

12 :10/12/17
EとTの間にはRがある
Rと言えば思い出すのは
そう
Ruby

13 :10/12/18
1 名前:デフォルトの名無しさん [age]: 2010/05/27(木) 14:17:17
前スレでなんとなくわかったのですが、インディアンがどうとかいうあたりで
話について行けなくなりました。
2 名前:デフォルトの名無しさん [sage]: 2010/05/27(木) 14:20:27
次スレいるのかよw

14 :10/12/18
117 名前:デフォルトの名無しさん [sage]: 2010/06/22(火) 08:42:27
おかしい人は相手をせず放置するのがいちばんですよ。
でもここはおかしい人隔離スレかw

15 :10/12/18
173 名前:デフォルトの名無しさん [sage]: 2010/07/05(月) 21:18:23
>>164
文字コードと改行コードの話はキチガイ信者が集まるものだよ。
ネットニュースのうさげの時代からずっと。
そんな人達の隔離スレがここゆっくりしていってね

16 :10/12/19
<!-- 美 -->

17 :10/12/19
ここはシフトジスです。美はいりません。

18 :10/12/19
<!-- 入口 -->

19 :10/12/20
971 名前:デフォルトの名無しさん [sage]: 2010/05/24(月) 20:09:15
結局UnicodeとUTF-8の違いは何なのでしょうか。
符号化文字集合Unicodeにも各文字に符号が振られているのに
さらにUTF-8が符号化方式とかわけわかりません。
972 名前:デフォルトの名無しさん [sage]: 2010/05/24(月) 20:15:38
Unicodeは文字に番号を振っているだけ。ビットもバイトも関係ない。
そのUnicode番号を、バイト(正確にはオクテット)データの連続として
表現する方法の一つがUTF-8。
973 名前:デフォルトの名無しさん [sage]: 2010/05/24(月) 22:06:07
Unicode: 単なる「文字の表」で、あいうえお表のようなもの。
      便利にするために、文字ごとに番号がついてあるけど、
      その番号はコンピュータ上のデータとは何ら関係がない。単なる整理番号。
UTF-8, UTF-16など: Unicodeの表にある文字をコンピュータ上で表現したいとき、
      どういう手順で表せばいいかを定めた「決まりごと」。
      Unicode表の文字をコンピュータ上のデータに変換する規則、
      コンピュータ上のデータをUnicode表の文字に変換する規則が定められている。
Unicode系の規格では「文字の表」と「決まりごと」が一組そろってはじめて、文字とデータの対応付けができる。
ASCIIコードでは、表と決まりごとの区別はあんまり明確じゃない。
Shift_JIS, iso-2022-jp, euc-jpは全部「決まりごと」で、やっぱり「文字の表」がないと意味をなさない。
そいつらはUnicode表じゃなくて、JISコードって表のための決まりごと。

20 :10/12/20
977 名前:デフォルトの名無しさん [sage]: 2010/05/25(火) 09:34:36
>>975
VB6の動作は知らないが、インディアン付きってなんだw
BOM付きか、リトルエンディアンかどっちかの勘違いだと思うけど。
エンディアン: ガリバー旅行記に出てくる、卵を尖った方から割る種族、丸い方から割る種族に由来。
    データの格納順序。例えば、16ビットデータ0xFEFFを表すとき、
    FE FFのように、桁の大きい方から表すのがビッグエンディアン
    FF FEのように、8ビットずつ区切って桁の小さい方から表すのがリトルエンディアン
    CPUによって、どっちがやりやすいかはある程度決まってくる。
    例えばx86系(パーソナルコンピュータのCPUは全部これ、と思っても特に差し支えない)は
    リトルエンディアンなCPUなので、何も考えずにUTF-16テキストを作るとリトルエンディアンになる。
BOM(Byte Order Mark): ユニコード表のU+FEFFの文字のこと。
    UTF-16で、この文字を頭に入れておくと、あら不思議。エンディアン(バイトの並び順=Byte Order)が分かっちゃう。
    より具体的には、UTF-16でU+FEFFは0xFEFFなので、
    これがFE FFのように入っていたらビッグエンディアン、FF FEのように入っていたらリトルエンディアン。
    UTF-8には、エンディアンの違いはないので、Byte Orderを示す必要がない。
    けれども、これが頭に入ってたらUTF-8だって判別しやすいよね、ということでsignature(しるし)として
    入れることが認められている。

21 :10/12/25
>>1
本スレ>>1です。紛らわしいスレを立てないでください。
とはいえ、本スレが埋まったらまたここに来ますです。

22 :11/01/01
unicodeはfffeのボムつきutf-16リトルエンディアン
メモ帳がそうだ

23 :11/01/18
JIS漢字コードとシフトJISコードの違いは何でしょうか。
区点コードとシフトJISコードの違いは何でしょうか。

24 :11/01/18
http://msdn.microsoft.com/ja-jp/library/cwe8bzh0(v=VS.100).aspx
>Unicode は 16 ビットの文字セットで、すべての言語に対する十分な表現能力を持っています。
>すべての ASCII 文字は、拡張文字として Unicode の中に含まれます。
WindowsにおけるUnicode(の文字符号化方式)とはUTF-16(またはUCS-2)の意味。
>このドキュメントでは、MBCS は、Unicode でサポートされていないすべてのマルチバイト文字を指します。
>Visual C++ では、MBCS は常に DBCS を意味します。 2 バイトを超える文字セットはサポートされていません。
WindowsにおいてはUnicodeがUTF-16(またはUSC-2)の意味なので
UTF-7やUTF-8はサポートされない。
http://msdn.microsoft.com/en-us/library/dd317756(VS.85).aspx
>1200 utf-16 Unicode UTF-16, little endian byte order (BMP of ISO 10646); available only to managed applications
コードページ1200(UTF-16)はネイティブなVC++では使えない。
VC++でネイティヴアプリケーションを記述する限り、
Unicodeの全文字を利用する方法はない。
これでOK?^^;

25 :11/01/18
>>23
JIS漢字コードってなんですか。JIS X 0208 のことですか。
シフトJISコードってなんですか。シフト符号化表現のことですか。
区点コードってなんですか。区点番号のことですか。
勝手な用語を使われたら誰も何も答えられません。

26 :11/01/18
目指してる 未来が違うwwww byシャープ
http://twitter.com/ozawa_yuuki/status/6549767047872513  

27 :11/01/18
最近ようやくわかってきたんだ。つまり、Unicodeを扱えないのはコンソールなんだよ。

28 :11/01/18
ええ〜〜っ!JIS漢字コードを知らないひとがいるのぉ?
ええ〜〜っ!シフトJISコードを知らないひとがいるのぉ?
ええ〜〜っ!区点コードを知らないひとがいるのぉ?
ばっかみた〜い

29 :11/01/18
「コンソール」って何ですか?

30 :11/01/19
command.com のことかな

31 :11/01/19
chcp 65001

32 :11/01/19
cp65001はUTF-8なので今度はVC++が対応しないね。

33 :11/01/19
Windowsのシステムロケールを英語にしてからcp650001にするとける

34 :11/01/19
>>28 自分がバカを晒していることに気付かないバカ

35 :11/01/26
前スレが見当たらないんだが、物凄い勢いでDAT落ち?

36 :11/01/26
987で落ちたみたいだね
UnicodeとUTF-8の違いは? その2
http://hibari.2ch.net/test/read.cgi/tech/1274937437/

37 :11/01/26
980超えて24時間書き込みがないと自動的に落ちる、だっけ。

38 :11/01/28
隔離スレ浮上

39 :11/02/01
コンソールってのは辞書を引くと「慰める」。
つまりーのことだったんだよ

40 :11/02/01
確かに肌荒れしたところに塗ると痛みが引くよね

41 :11/02/01
  

42 :11/02/02
珍宝に塗るのがオヌヌメ

43 :11/02/02
>>39
琉球語で「いらっしゃい」の意味じゃなかったの?

44 :11/02/03
>>24
>VC++でネイティヴアプリケーションを記述する限り、
>Unicodeの全文字を利用する方法はない。
どれだけ無知なんだよ。Unicode(UTF-16)版API使うに決まってんだろ。
>>25
>シフトJISコードってなんですか。シフト符号化表現のことですか。
相変わらずJIS信者はキモいな。シフトJISはシフトJISだよ。

45 :11/02/03
それはWindows SDKであって、Visual C++ではないんじゃないか?
みたいなつっこみでどうでしょう。

46 :11/02/04
>>45
で、それが問題になるケースは?

47 :11/02/04
ないね。2003以降はSDKにVCコンパイラくっついてるし。逆もまた真だし。

48 :11/02/04
VC++ で BOM なしで UTF-8 通るようになったら
もう完全に引っ越すんだけどな

49 :11/02/04
引っ越さない理由がわからない。BOMありで何か問題が?

50 :11/02/04
> >シフトJISコードってなんですか。シフト符号化表現のことですか。
> 相変わらずJIS信者はキモいな。シフトJISはシフトJISだよ。
CP932 とか Windows-32J で混乱してばいいと思うよ。

51 :11/02/04
Unix - 「UTF-8にBOMはいらないんだよ糞が」派
Windows - 「BOMねえとエンコーディングの判別が面倒すぎるだろ糞が」派

52 :11/02/04
俺 - じゃあ、なんも悩まなくいいように全部何から何までBOMなしUTF-8にしようぜ!
   バイト列だからとかホザいてるFSもな!

53 :11/02/04
>>51
「shebang の次の行に書いておけばいいだろ」派

54 :11/02/04
Cのソースとかにまでshebang書いてたらアホだと思われるぞ
実際アホなんだろうけど

55 :11/02/04
もともとUTF-8の規格にはBOMないし
BOMがあるとUTF-8の利点である1バイト部分がLaten-1互換ってのも失われちゃうし
ぱいなんじゃなかったっけ?

56 :11/02/04
綴り間違ってるし互換性なんてないし
古いエンコードでバシッと表示できる可能性がミジンコくらい有るのはASCIIだけだよ

57 :11/02/04
>>56
バックスラッシュとチルダは?

58 :11/02/05
ASCIIだから問題ないでしょ。
JIS X 0201左面じゃないんだから。

59 :11/02/06
>>51
ファイル名に BOM 付ける訳にいかないしなぁ

60 :11/02/06
>>59
実はお前、馬鹿ですね

61 :11/02/06
>>54
shebang という事は TCC 使いなのかもね。
http://bellard.org/tcc/

62 :11/02/06
>>61
申し訳ございませんが
tcc と shebang の関係について私には分かり兼ねますので
ご高説賜りたく望む所存でございます

63 :11/02/06
>>61
TCCでコンパイルすると出来上がったexeにアンチウィルスソフトが反応してワロス
ここのひとも同じみたいだ
>ttp://www.mail-archive.com/tinycc-devel@nongnu.org/msg02244.html

64 :11/02/06
>>62
リンク先嫁

65 :11/02/06
>>64
># C script supported : just add '#!/usr/local/bin/tcc -run' at the first line of your C source, and execute it directly from the command line.
ありがとうございました

66 :11/02/06
>>61
TCC でも動作確認出来ました。
ttp://www1.axfc.net/uploader/Sc/so/202217.zip&key=tcc
ほんとうにありがとうございました。

67 :11/02/06
>>59-60
ファイル名に BOM 付けたければ付ければ?

68 :11/02/06
RFCは規格とイコールではないし、規格だって法とイコールでもない
Unicode関連が元々どうしようもないクソ規格なんだから、適当にならざるを得ないんだよ
四角四面に適用可能なほど出来のいい規格じゃねーし

69 :11/02/06
BOMって結局>>51の言うように、「美」の代わりなの?
BOMのバイト列が先頭に出現する符号化方式って他に無いの?

70 :11/02/06
>>69
> BOMのバイト列が先頭に出現する符号化方式って他に無いの?
Latin-1をはじめとするシングルバイト全部

71 :11/02/06
じゃあUTF-16って言う前提が無いとダメなの?
具体的に役立つ場面が想像付かない。
あまり聞くのも迷惑だろうし、判りやすいサイトがあれば誘導してほしいです

72 :11/02/06
たしかにBOM付いてると
UTF-8でもVC++通るな

73 :11/02/06
>>71
君の疑問は君の無知から来ているわけではなく、
BOMの矛盾がそのままあなたの頭の中のモヤモヤになってるだけ。

74 :11/02/06
>>70
確かに[FE FF 41 41]のファイルはLatin-1ともUTF-16とも。
(VC#で確認したけどデフォルトではEncoding無視してBOM優先なんですね。ちょっと驚いた)
前スレも見てきたけどBOMについては賛否あるみたいなんで、
あんまり関わらないようにします。

75 :11/02/09
>>71
偶然先頭にBOMが来ることは少ない、という前提の元では、
ファイルが、自身のエンコード方式を明確にする目的での利用にはそれなりに役に立つ。
けどBOMなしUTF-16というものもあるので、
アプリが、ファイルのエンコードを知るという目的では微妙。

76 :11/02/09
>>73
>BOMの矛盾
何も矛盾してないだろ。矛盾とは何?
エンコーディングを確実に判断するにはメタデータが必要に決まっているし、
BOMはUnicodeを他のエンコーディングと区別できることを保障している
わけではない。

77 :11/02/10
>>71>>73も同レベルの無知だと思うよ

78 :11/02/10
じゃあ俺も!

79 :11/02/10
だな
>>75も無知の部類

80 :11/02/10
うざいなあ
低能なネタ振りは無視すれいちいちツッコミ入れるな

81 :11/02/10
それも無視すれば良いんじゃないの

82 :11/02/10
>>75の認識で何が間違ってる?
無知じゃない人おしえて

83 :11/02/10
------ はいはい ここまで読んだ ------

84 :11/02/10
>>75はあれだろ。
「挨拶は人間同士のコミュニケーションを円滑にするが、
挨拶しない人もいるので、挨拶の必要性を感じない」ってレベル。

85 :11/02/10
コードポイントとスカラー値の違いは何でしょうか?

86 :11/02/10
コードポイントというのは抽象的な概念で、Unicode 以外の文字集合の
(たとえば JIX X 0208 の「何区何点」)も「コードポイント」。
スカラー値というのは Unicode の概念で、コードポイントを示す具体的な
整数値。

87 :11/02/10
>>86
そういうことなんだ。
d

88 :11/02/10
バカと無知の違いは何でしょうか?

89 :11/02/10
無知は知識を獲得すれば問題なくなる
バカは死ななきゃ治らない

90 :11/02/10
const int バカ = 0;
int 無知; // uninitialized

91 :11/02/10
人格的な理由によるバカならば、稀にconst_castが効くこともある

92 :11/02/10
ただし膨大なコストを伴う

93 :11/02/10
UTF-8 なファイルに BOM を付けるのは、渋谷の交差点ですれ違う人全員に挨拶するレベルかな

94 :11/02/10
的外れなたとえ話は要らん

95 :11/02/10
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=utf8">
これでじゅうぶんやん。何が不満なの?ワケがわかりません。

96 :11/02/10
<?xml encoding="UTF-8">
これでもいいし。まぁ煮たようなのは他にも
-*- coding: UTF-8 -*-
とか
vim:fileencoding=UTF-8
とか
use utf8;
とかあるらしいけど、実際に使った事がないから知らん。
なんでソレじゃダメなのさ?

97 :11/02/10
おそらく誰も明確には答えられんだろうな。

98 :11/02/10
<?xml encoding="UTF-8">
-*- coding: UTF-8 -*-
vim:fileencoding=UTF-8
これらは
coding="UTF-8"
coding: UTF-8
coding=UTF-8
の部分のマッチだけ見てるよ

99 :11/02/11
コーディングマッチ子先生

100read 1read
1read 100read
TOP カテ一覧 スレ一覧 2ch元 削除依頼
なぜ、 = が 代入 を 表す 記号 に なったか? (568)
Rubyについて Part46 (896)
☆Raspberry Pi☆でプログラム1 (143)
スレ立てるまでもない質問はここで 118匹目 (233)
くだすれC++Builder(超初心者用)その4 (974)
C++でXML(主にxerces)やろう! (671)
--log9.info------------------
恋ってどんな味がするんだろう? (111)
「疲れた」を理由に振られた男が復縁したいスレ (151)
失恋は苦しいけどここから新たな一歩 (264)
失恋 振られたけど前向きな人 (224)
(∩∩)ほぉ〜ら、いないない・・ (206)
たった今4年付き合った彼女と別れた、死にたい (339)
今から使える失恋から立ち直る為の深イイ話 (294)
【まで】時間戻んねえかなあ・・【戻したい】 (100)
★失恋した相手にお金を貸している人★ (351)
失敗した (169)
7色の野菜「カラダ革命」 (112)
ただでさえ体調悪いのに失恋した人 (204)
今頃、君の元カノは、他の男に抱かれているフォーエヴァー (210)
新たな恋に旅立ちたい人達のスレ (257)
お願いしても叶わないスレ (216)
過去の自分を恥じるスレ (263)
--log55.com------------------
【8時間】サンデーSUPERキンキン【生放送】
くりぃむしちゅーのオールナイト Part87
☆★★放送事故総合スレ
よゐこのヤンタンを讃えるスレ
もっと!ときめきメモリアル
【TBS】ヤングタウン東京
伊集院光 日曜日の秘密基地
玉置宏の笑顔でこんにちは