ASCIIエンコーディング:初心者、初心者…。ここで必要な情報をすべて入手しました。

開示: あなたのサポートはサイトの運営を維持するのに役立ちます!このページで推奨する一部のサービスについては、紹介料を稼ぎます.


ASCIIは、コンピュータが文字(文字、数字、記号、スペース、インデントなど)をビットパターンとしてメモリおよびハードドライブに格納するために使用する文字エンコーディングの一種です。.

高レベルの「文字エンコード」とは、記号を2進数に変換し、「文字マップ」を使用して2進数を文字のタイプとして読み取ることを意味します.

また、MIMEタイプにより、ユーザーは画像やビデオなどの文字を超えてデータを送信できます.

ASCII、文字エンコーディング、MIMEタイプ

文字コード

文字エンコーディングの最も初期の形式は、電信にまでさかのぼります。実際、モールス符号、後にバウドット符号は、これまでに作成された最初の標準化された文字コードの一部でした。.

暗号化または暗号化と呼ばれるエンコードの2番目のレイヤーも当時の軍事組織によって確立されましたが、それはかなり異なるトピックです.

ASCIIに向けた現代的なプロセスを開始したのは、1950年代まででした。 IBMは、7000シリーズコンピュータで使用するためのエンコーディングスキームを開発することからこれを開始しました.

IBMのBinary Coded Decimal(BCD)は、パンチカードで4ビットエンコーディングを使用していました。 10進数をバイナリ形式で格納する方法でした。.

したがって、0000(0)から1111(15)までの数字の代わりに、0000(0)から1001(9)までの数字を実行しました。各4ビットは1桁を表します.

その後、IBMは、Extended Binary Coded Decimal Interchange Code(EBCDIC)と呼ばれるBCDの拡張バージョンを作成しました。これは、すべての標準の印刷可能な文字用の8ビットエンコーディングシステムでした.

同じ年、1963年にASCIIが導入されました.

7ビットエンコーディング方式を使用します。それは128の異なる数を表します.

この7ビットの数値形式は奇妙に見えるかもしれません。結局のところ、コンピュータはすべて8ビット、16ビット、32ビットなどではありません。?

今日はそうです。しかし、初期のコンピュータはそのように構築されていませんでした.

さらに、コンピュータのメモリは貴重であり、必要がなければ余分なビットを使用する理由はありませんでした。 6ビットのコード(既存のコード)では、大文字、小文字、数字、および基本的な句読点のすべてがカバーされるわけではありません。しかし、7ビットのコードには、余裕がありました.

コンピューターが8ビット(1バイト)構造に落ち着くにつれて、ASCIIは徐々に非公式の8ビットコードになり、他の128文字は標準化されませんでした。.

この状態はしばらく続きました。 1991年に、8ビットは、UTF-8のISO(国際標準化機構)によって維持されている公式のフォーマットになりました。.

しかし、現時点で浮かび上がってきたのは、7ビットまたは8ビットのエンコーディングでは1つのアルファベットしかサポートできないということでした。.

幅広い言語範囲をサポートするために、Unicodeエンコーディングスキーマとユニバーサル文字セットが考案されました。 Unicodeにはいくつかのエンコーディングタイプがあります。UTF-8は、ASCIIと互換性のある8ビットエンコーディングであり、今日のWebの主要な文字エンコーディング規格としてASCIIに置き換わっています。.

UTF-8の成長

さらに、UTF-16およびUTF-32は、多くの文字を含む言語で使用されるようになりました。ただし、中国語、日本語、アラビア語はすべてUTF-8で表示できます。.

その結果、UTF-8はWebで最も一般的なエンコード形式です。そして英語を話す人にとって、ASCIIの最初の128文字はUnicodeのものと同じであるため、物事は特に簡単です。.

したがって、HTMLで使用する場合、ASCIIテーブルを参照して文字を作成すると、使用しているエンコード形式に関係なく機能します.

ASCIIが適合する場所

ASCIIは「American Standard Code for Information Interchange」の略で、American Standards Association(後にAmerican National Standards Instituteに改名)によって作成されました。.

ASCII標準は1960年に開始され、1963年にリリースされました。これは電信コードの拡張であり、Bellデータサービスによって最初に使用されました.

長年にわたって大幅な改訂が行われました。 2007年まで、Webで最も広く使用されている文字エンコーディングでしたが、UTF-8に置き換えられました.

ASCIIおよびMicrosoftのANSIからUTF-8へのWebの切り替えは、インターネットの使用がより国際的になり、ASCIIがラテン文字のみを表示できるようになったため、主にGoogleのイニシアチブに起因する可能性があります。.

注意すべき重要な点は、UTF-8はエンコーディングの一種であり、Unicodeは文字セットであることです。 Unicodeの最初の128文字はASCIIと同じであるため、HTMLで文字を生成するときにASCIIテーブルを参照することは許容されます.

ASCIIには、代替のアルファベットを表示する際に「エスケープシーケンス」を使用する機能があります。これにより、国際標準になることができますが、Unicodeはこれをより直接的に処理します。.

Unicodeは1987年にAppleから始まり、1991年にUnicodeコンソーシアムのプロジェクトになりました。ASCIIはASAによって作成されましたが、ISOからの宣言の一部としてさらに洗練されました。.

UTF-8のエンコーディング名は、すべてのHTML、CSS、およびXMLを意味するInternet Assigned Numbers Authority(IANA)に準拠するすべての標準で使用されます。 IANAは、インターネットプロトコルとドメイン名を決定する非営利団体である、より大きなICANNの一部門です。.

要約すると、ASCIIは60年代の電信コードから進化し、成長し、Unicode文字セットの一部になりました。これは、Webで最も支配的なエンコード形式であるUTF-8で使用されています。.

ドメイン名とWebページコードは、この統一された文字マップが適切に機能するかどうかに依存します.

つまり、現代のインターネットの根源には、1870年代に発明され、1960年代にASCIIとしてコンピュータ化され、1990年代にUnicodeでウェブ用に近代化され、2007年にUTF-8の大多数の使用を通じて広く採用された文字フォーマットが存在します。.

制御文字と印刷可能な文字

ASCIIには、印刷可能な文字と制御文字の2種類の文字があります。.

制御文字は0〜31と127の番号を定義します。制御文字には、新しい段落、タブ、行末、ファイル区切り、および主に透明な多くの部分を可能にする書き込みのすべての部分が含まれます.

これらの制御文字は、印刷されたカードがコンピューティングプロセスの大部分を占めていたときに作成されました。これらの機能の一部は置き換えられていますが、多くの線の書式設定部分がまだ残っています。コード127は実際には削除のコードです(ANSIやUnicodeではなく、実際のASCIIのみ)。.

印刷可能な文字はすべて、期待どおりのものです。すべての小文字(a-z)と大文字(A-Z)に加えて、数字、記号、句読点があり、基本的に典型的なキーボードで見られるすべてのものです。これらの主要な文字はすべての書かれた単語を構成します.

XMLおよびHTMLでのASCIIの使用

すべてのHTMLページには、文字エンコード形式が割り当てられています.

特に指定がない限り、HTMLエンコーディングはデフォルトでUTF-8になります。純粋なASCII、ANSI、または特殊な独自の形式を使用する場合、メタタグで宣言するだけで実行できます。.

HTML 4の場合:

HTML5の場合:

charsetタグでは、charset =を使用してUTF-8、ANSI、またはASCIIを使用できます。"us-ascii" または、通常はISO番号を宣言して、使用する特定の文字セットを検索することもできます。完全なリストはIANA文字セットのページにあります.

文字コード挿入形式

ただし、一般に、ASCIIコードの使用について誰かが言及する場合は、メタタグを付けたTRUE US-ASCIIを意味するのか、それとも特別な文字を表示するように求めているのかを明確にする必要があります。.

HTMLでは、セント記号(¢)や逆疑問符(¿)などの特殊文字を使用したい場合はいつでも、通常、Unicode記号またはUS-ASCII(8ビット)を使用できます。このような参照を入力することにより、文字:

HTML HTMLでは次のようになります:¢

HTML HTMLでは次のようになります:¿

だからあなたは &#セミコロン(;)で終わる4桁の数字.

このようにして、ASCII / Unicode番号に基づいて文字を表示できます。.

もちろん、制御文字は、使用するものとメタタグにリストした実際の文字セットに応じて、フォーマット機能を実行するか、まったく機能しません。.

したがって、HTMLには「&#”番号ですが、ブラウザに表示すると文字が表示されます.

HTML特殊エンティティ文字

ここで、たとえば、 & ページ上のシンボル.

HTMLに入力するだけでなく、対応するASCIIまたはUnicodeを入力できます.

HTMLはマークアップ言語であるため、通常の文字は問題なく機能しますが、特殊文字、特に < > ブラケット—ブラウザがHTMLを読み取って表示する方法にとって非常に重要です.

ただし、Unicode / ASCIIの参照番号を常に入力する必要はありません。 HTML 4.0以降には、Unicode参照と同様に機能する特別なエンティティがありますが、数字を覚える代わりに単語を覚えます.

¢ HTMLでは次のようになります。 ¢

¿ HTMLでは次のようになります。 ¿

これらの文字参照の完全なリストは、W3コンソーシアムにあります。.

参照表

このすべての情報が揃っていれば、ASCIIまたはUnicodeの参照を見つけやすい場所を探しているだけかもしれません。もう探す必要はありません。ここには000〜127の参照があります。ウィキペディアで完全なUnicode形式を見つけることができます。.

文字000-032と127は通常印刷できないため、「NA」で示されていることに注意してください。

ASCII

table.wiht002 {
border-spacing:0px;
border-collapse:collapse;
margin-left:auto;
margin-right:auto;
margin-bottom:1.5em;
text-align:中央;
}

テーブル、tr、td
{
パディング:0px;
マージン:0px;
}
td.bor
{
border-left:1px solid#000;
padding-left:1em;
margin-right:1em;
}
td.break
{
margin-left:2em;
margin-right:2em;
}
td.sep
{
border-bottom:1px solid#000;
}
td.sepbor
{
border-bottom:1px solid#000;
border-left:1px solid#000;
padding-left:1em;
margin-right:1em;
}

0NA32NA64@@96``
1NA33!!6597aa
2NA34""66BB98bb
NA3567CC99cc
4NA36ドルドル68DD100dd
5NA3769EE101ee
6NA38&&70FF102ff
7NA3971GG103gg
8NA4072HH104hh
9NA4173105
10NA42**74JJ106jj
11NA43++75KK107kk
12NA44,,76LL108ll
13NA4577MM109メートルメートル
14NA46..78NN110
15NA47//79OO111oo
16NA480080PP112pp
17NA491181QQ113qq
18NA502282RR114rr
19NA5183SS115ss
20NA524484TT116tt
21NA535585UU117あなたあなた
22NA546686VV118vv
23NA557787WW119ww
24NA568888バツバツ120バツバツ
25NA579989YY121yy
26日NA5890ZZ122zz
27日NA59;;91[[123{{
28NA60<<92\\124||
29日NA61==93]]125}}
30NA62>>94^^126
31NA63??95__127NA

ASCIIツールとリソース

文字コードがどのように進化したか、そして私たちの残りの部分のためにこれらの標準をまとめている組織には多くの歴史があります。ほとんどのインターネット開発者とW3CがUTF-8を採用しているため、少なくとも当面の間は、このようにページがエンコードされます.

他のフォーマットで手動でエンコードを開始した場合や、包括的な参照があると便利な場合もありますが、いくつかのリソースが必要になります。.

リソースのリスト

  • IANA文字セットページ

  • W3コンソーシアムによるHTML特殊文字

  • ウィキペディアの完全なUnicode形式

  • 0130-0255だけのASCIIテーブル

  • ASCII-WorldにおけるASCIIの歴史

  • ウィキペディアのUnicode文字のリスト.

アスキーアート

ASCIIアートへの参照がなければ、ASCIIの要約は完全ではありません。.

特別なソフトウェアを使用するか、シンボルを手動でコード化して、シンボルのみを使用して画像の形をとることができます。このタイプの効果は1980年代から存在しており、Commodore Amiga Computerなどのシステムで人気を博しています。.

コマンドラインで純粋なASCIIを使用する「Oldskool」ASCIIアートと、Unicodeで特殊文字を使用してさらに複雑な芸術作品を作成する「Newskool」の間にも違いがあります。.

シマウマの頭の写真は次のとおりです。

アスキーアートゼブラ

ISO-8859-1

ISO-8859-1は文字エンコーディング規格です。 ASCIIの拡張機能として1998年に国際標準化機構(ISO)によってリリースされました。.

ASCIIおよびISO-8859-1

最も有名な文字エンコーディング規格はASCIIです。 ASCIIは、英語の記述に使用される最も基本的な128文字をエンコードするために、8ビットバイトの7ビットを使用しました。 8番目の(高位)ビット用に、システム固有の使用法がいくつか開発されました.

たとえば、あるシステムでは、ローマ字と イタリック 印刷スタイル。他のシステムはそれを使用して追加の文字をエンコードしました。 8バイトすべてを使用して、256文字をエンコードできます。.

元のASCIIセットには、英語以外の一般的な言語(発音区別符号付きの文字など)で記述するために必要な文字数が含まれていなかったため、文字セットを256に拡張すると、機能が大幅に向上しました.

IS0-8859-1はそれらの拡張機能の1つです。これは、国際的なクロスプラットフォーム標準になることを目的としています。標準の8ビットASCIIのスーパーセットであるため、下位互換性があります。ASCIIでエンコードされたドキュメントは、ISO-8859-1を使用して簡単にデコードできます。.

ISO-8859-1およびHTML

標準によると、HTML 4ではISO-8859-1がデフォルトの文字エンコーディングでしたが、ほとんどのブラウザはANSIと呼ばれるISO-8859のスーパーセットをサポートしていました.

ANSIには、ISO-8859-1では空であった余分な32文字が含まれています。 (ほとんどの場合、ISO-8859-1文字のリストを表示すると、それは実際には完全なANSIリストです。)

現在、HTML5標準はUTF-8を使用しています。これは、元のASCII、ISO-8859-1、ANSIエンコーディングを含む非常に大きなスーパーセットです。.

ただし、ほとんどの英語のHTMLドキュメントは、ISO-8859-1またはUTF-8を文字セットとして明示的に宣言している場合でも、実際には小さいASCII文字セットを使用します。これには2つの理由があります。

  • ASCIIは、標準のQWERTYキーボードで入力できます。.

  • HTMLの生成に使用されるテクノロジーの多くはASCIIのみをサポートしています.

ISO-8859-1とUTF-8はどちらもASCII互換であるため、通常これは問題を引き起こしません.

ISO-8859-1と文字エンティティ

ISO-8859-1で使用可能な拡張文字セットは、HTML文字エンティティを使用して、ASCIIのみのドキュメントで作成できます。これらは、アンパサンド(「&”)およびセミコロン(“;”)で終了します.

たとえば、著作権記号(「C」が入った円)は、ISO-8859-1またはUTF-8を使用して直接エンコードできます。しかし、ほとんどのキーボードには「©」キーがないため、多くの人がタイプしやすいと感じています©.

これは、6つのASCII文字としてファイルに保存されます。 &, c、o、p、y、および..次に、Webブラウザーは適切なISO-8859-1文字をユーザーに表示します.

非ASCII ISO-8859-1文字のほとんどは、名前付きHTML文字エンティティを持っています。ないものは、数値コードで入力できます。数値コードは、実際にはバイナリエンコーディングの10進数(base 10)バージョンです。.

たとえば、著作権記号は2進数で10101001としてエンコードされ、10進数では169です。したがって、「©」または「©」と入力できます。.

ISO-8859-1およびANSIの非ASCII文字

このチャートの文字128〜159は、ISO-8859に含まれていないANSI文字です。 ISO-8859-1 / ANSIの最初の127コードは、上記のASCIIと同じであるため、ここには含まれていません。.

キャラクター
HTML名
HTML番号
説明
ユーロ記号
単一の低9引用符
ƒƒƒフック付き小文字f
二重の低9引用符
水平省略記号
短剣
ダブルダガー
ˆ修飾文字サーカムフレックスアクセント
ミル記号
ŠŠŠキャロン付き大文字S
<<単一左向き角度引用
ŒŒŒ大文字合字OE
ŽŽキャロン付き大文字Z
左単一引用符
右単一引用符
左二重引用符
右二重引用符
弾丸
en dash
全角ダッシュ
˜チルダ
TM商標記号
šššキャロン付き小文字S
右向きの引用符
œœœ小文字合字oe
žžキャロン付き小文字z
ŸŸŸウムラウト付きの大文字Y
 非破壊スペース
¡ ¡ ¡逆感嘆符
¢ ¢ ¢セント記号
£ £ £ポンド記号(通貨)
¤ ¤ ¤通貨記号
¥ ¥円/元記号
¦ ¦ |壊れた縦棒
§ § §断面記号
¨ ¨ ¨ウムラウト
© © ©著作権記号
ª ª ª女性の序数インジケーター
« « «左二重角引用符(ギルメット)
¬ ¬ ¬署名しない(ロジック)
­ ­ソフト/任意のハイフン
® ® ®登録商標記号
¯ ¯ ¯間隔マクロン/上線
° ° °度記号
± ± ±プラス/マイナス記号
² ² ²上付き2(四角)
³ ³ ³上付き3(立方)
´ ´ ´鋭いアクセント
µ µ µマイクロサイン
段落記号(ピルクロウ)
· ·中点
¸ ¸ ¸セディーユ
¹ ¹ ¹上付き
º º º男性の序数インジケーター
» » »直角二重引用符(ギルメット)
¼ ¼ ¼4分の1(4分の1)
½ ½ ½半分の割合(1オーバー2)
¾ ¾ ¾4分の3(4に3)
¿ ¿ ¿逆疑問符
À À Àアクサングラーブ付きの大文字A
Á Á Á鋭アクセント付きの大文字A
  Âサーカムフレックス付きの大文字A
à à Ãチルダ付き大文字A
Ä Ä Äウムラウト付きの大文字A
Å Å Å上のリング付きの大文字A
Æ Æ Æ首都AE合字
Ç Ç Çセディーユ付き大文字C
È È Èアクサングラーブ付きの大文字のE
É É É鋭アクセント付きの大文字E
Ê Ê Ê曲折アクセント付き大文字E
Ë Ë Ëウムラウト付きの大文字E
アクサングラーブ付きの大文字I
鋭アクセント付きの大文字I
サーカムフレックス付きの大文字I
ウムラウト付きの大文字I
Ð Ð Ð大文字ETH(Dogecoinシンボル)
Ñ Ñ Ñチルダ付き大文字N
Ò Ò Òアクサングラーブ付きの大文字O
Ó Ó Ó鋭アクセント付きの大文字O
Ô Ô Ô曲折アクセント付き大文字O
Õ Õ Õチルダ付き大文字O
Ö Ö Öウムラウト付きの大文字O
× × ×乗算記号
Ø Ø Ø大文字Oスラッシュ
Ù Ù Ùアクサングラーブ付きの大文字U
Ú Ú Ú鋭アクセント付きの大文字U
Û Û Û曲折アクセント付き大文字U
Ü Ü Üウムラウト付きの大文字U
Ý Ý Ý鋭アクセント付きの大文字Y
Þ Þ Þ大文字THORN
ß ß ß小文字シャープs(エゼット / シャルフS
à à àアクサングラーブ付きの小文字a
á á á鋭アクセント付きの小文字a
â â âサーカムフレックス付きの小文字a
ã ã ãチルダ付き小文字a
ä ä äウムラウト付きの小文字a
å å å小文字のaと上のリング
æ æ æ小文字の合字
ç ç çセディーユ付き小文字c(セセジル
è è èアクサングラーブ付きの小文字e
é é é鋭アクセント付きの小文字e
ê ê êサーカムフレックス付きの小文字e
ë ë ëウムラウト付きの小文字e
アクサングラーブ付きの小文字i
鋭アクセント付きの小文字i
サーカムフレックス付きの小文字i
ウムラウト付きの小文字のi
ð/ td> ðコード> ð小文字eth
ñ ñ ñチルダ付き小文字n
ò ò òアクサングラーブ付きの小文字のo
ó ó ó鋭アクセント付きの小文字o
ô ô ôサーカムフレックス付きの小文字のo
õ õ õチルダ付き小文字o
ö ö öウムラウト付きの小文字のo
÷ ÷ ÷除算記号
ø ø øスラッシュ付きの小文字のo
ù ù ùアクサングラーブ付きの小文字のu
ú ú ú鋭アクセント付きの小文字のu
û û ûサーカムフレックス付きの小文字のu
ü ü üウムラウト付きの小文字のu
Ý Ý Ý鋭アクセント付きの小文字y
þ þ þ小文字のとげ
ÿ ÿ ÿウムラウト付きの小文字のy

Unicode

Unicodeは、Unicodeコンソーシアムが管理する文字エンコーディングの標準です.

これまでに説明したように、コンピュータシステムは文字(文字、数字、記号)を文字どおりに保存しません。ハードドライブ上のドキュメントの各文字の小さな絵はありません。ご存知のとおり、各文字は一連のバイナリビット(1と0)としてエンコードされます。たとえば、小文字の「a」のコードは01100001です。.

しかし、01100001は恣意的であり、その文字列を「a」にする特別なことは何もありません。コンピュータ業界は、「a」を意味することに集合的に同意しています。それでは、業界全体がどのようにしてすべての可能なキャラクターを表現するかについて合意するのでしょうか?文字エンコード標準を使用します。エンコーディング標準は、利用可能なすべての可能な文字を指定し、それぞれにビットの文字列を割り当てます.

過去数十年間のコンピューティングで、世界中でいくつかの文字エンコード標準が使用されてきました。長い間、最も広く受け入れられている標準はASCIIでした。 ASCIIの問題は、比較的限られた数の文字(最大256文字)のみをエンコードすることです。これにより、ラテン語以外の言語、多くの重要な数学および科学記号、さらにはいくつかの基本的な句読点も除外されました.

英語およびラテンアルファベットを使用する他の言語でのASCIIの使用を除いて、他のアルファベットを使用する言語グループは独自の文字エンコーディングを使用する傾向がありました。これらのエンコーディングスキームは互いに分離して定義されていたため、競合することがよくありました。同時に複数の言語に対して単一のエンコード方式を使用することは不可能でした.

Unicodeはもともと考案され、特にこれらの課題を克服することを目的として開発が続けられています。 Unicodeの目標は、 ユニersal, ユニ燃え、そして ユニ世界のすべての言語と書記体系のすべての書記素のコード識別子.

UTF-8

Unicodeはいくつかの文字エンコード方式で実装されていますが、現在最も広く使用されている標準はUTF-8です。 UTF-8は、あらゆるタイプの最新のコンピューティングでほぼ普遍的なものになっています.

UTF-8は、最大4つの8ビットコードブロックを使用して文字をエンコードします。 ASCIIは文字ごとに8ビットのみを使用しました。以前ASCIIに含まれていたUnicode文字は、ASCIIで使用されていたのと同じ8ビットである単一の8ビットチャンクによってUTF-8で表されます。これにより、ASCIIテキストはUTF-8で前方互換になります。 (これは、UTF-8が世界標準になった多くの理由の1つです。移行は比較的簡単でした。)

8×4スキームは、UTF-8に100万を超えるコードポイントを提供し、Unicodeが129のスクリプトおよびライティングシステムからの文字をエンコードできるようにします。.

Unicodeを理解するためのリソース

  • ライティングシステムとUnicodeの概要は、文字エンコーディング全般、特にUnicodeについて、非常に徹底的で雄弁な説明です。 Unicodeで1つしか読み取ることができない場合、これは読み取るものです
  • Unicode標準:技術的紹介はUnicode標準の公式説明です
  • BMPを超えて! Unicodeに関するチュートリアルで、classromのプレゼンテーションや独習に適しています
  • Unicodeチュートリアルでは、文字の組み合わせなどの興味深い詳細を含む、Unicodeの仕組みと、Unicode解析エンジンの機能について説明しています。.

Unicodeに関する書籍

  • Jukka KorpelaによるUnicode Explainedは、Unicodeの概要と、Unicodeの実装に伴うさまざまな開発課題を提供します。
  • Unicode Demystified:Practical Programmer’s of the Encoding StandardによるRichard Gillamによる、Javaに焦点を当てた実装固有の多くのUnicodeの説明です。
  • Yannis HaralambousによるFonts and Encodingsは、Unicodeだけに関するものではなく、最も読む価値のある本かもしれません。コンピューターでのテキストのエンコードと表示の歴史をカバーし、Unicodeと多くの密接に関連する主題を理解するための理論的および実用的な基盤を提供します.

Unicode参照資料

Unicodeの基本を理解すると、ほとんどの場合、特定の文字の正確なエンコーディングなど、特定の詳細を調べる必要があります。.

  • C / C ++ Unicodeチートシートは、Microsoft C / C ++からUnicodeへの変換に関する情報を提供します
  • XML and Unicode Technology Reportsは、XMLとUnicodeを一緒に使用するさまざまな側面をカバーする技術レポートのリストです。
  • Decode Unicodeは、オンラインのUnicode辞書に美しいUIを提供し、ローカルフォントのサポートがなくても、定義されたすべてのUnicode文字を表示できます。
  • 言語に関するデータは、さまざまな言語でのUnicode文字セットの使用に関する検索可能な情報を提供します
  • Unicodeナビゲーターは、すべてのUnicode文字の整理されたリストを提供します

Unicodeツール

  • Unicodeアナライザーは、WebページおよびドキュメントのUnicodeテキストに関する情報を提供するChromeブラウザー拡張機能です。
  • 文字識別子は、選択したUnicode文字に関する詳細情報を検索するためのコンテキストメニューを提供するFirefoxプラグインです。
  • ウェブ上のテキストフィールドにUnicode文字を挿入するには、ChromeのUnicodeシンボルまたはFirefoxのUnicode入力ツールをお試しください
  • UnicodeDataBrowserは、UnicodeData.txtファイルを簡単に読み取るためのGUIを提供します
  • Polyglot 3000はテキストの言語を自動的に識別します
  • Unicodeは、さまざまなUnicode対応のスクリプト用のUnicode文字キーボードレイアウトのリストを提供します
  • Babelは、幅広い国際化およびローカリゼーションタスク用のPythonライブラリです。
  • D-Type Unicode Text Engineは、あらゆるデバイス、プラットフォーム、またはオペレーティングシステムで高品質のUnicodeテキストをレイアウト、レンダリング、および編集するためのC ++ライブラリです。
  • Nunicodeは、UTF-8文書のエンコードおよびデコード用のCライブラリです。
  • ポータブルUTF-8はPHP文字列のUnicodeサポートを提供します
  • Tesseract OCRはUnicodeテキストに光学式文字認識を提供します
  • Popcharは改善された文字マップで、Unicode空間の全範囲から文字を簡単に見つけて入力できます。
  • Unicode Utilitiesは、Unicodeを操作するための興味深い便利なオンラインツールを多数提供しています
  • Edicodeは、さまざまな国際的なスクリプトを使用してテキストを入力するための柔軟なオンラインUnicodeキーボードを提供します
  • Quickkeyは、最初の65,000個の定義済みUnicode文字を入力するための柔軟なキーボード拡張機能です
  • Unicodeコードコンバーターは、入力された文字コードを同じ文字のいくつかの異なるエンコーディングに変換します
  • CharFunkは、Unicode文字に対していくつかの興味深いチェックと操作を実行するためのJavaScriptユーティリティです。
  • Kreative Recodeは、テキストファイルをさまざまなエンコーディングからUnicodeに変換します
  • BabelMap Onlineはブラウザ内のUnicodeキーボードを提供し、表示文字と16進数または10進数のエンコーディングで出力します。

テキストおよびコードエディター

今日のほとんどのテキストエディター、コードエディター、およびIDEは、デフォルトでUnicodeを使用するか、簡単にUnicodeを処理できます。 Sublime、Notepad ++、Atom、およびEclipseはすべて、デフォルトの文字エンコーディングとしてUTF-8に設定されています。 VimとEmacsでは、UTF-8を使用するために設定の変更が必要になる場合があります。

  • EmacsでのUnicodeの使用
  • VimでUnicodeを使用する

また、拡張Unicode文字セットを処理するように特別に設計されたコードおよびテキストエディターもいくつかあります。

  • MinEdは、Unicode文字スペースの全範囲から文字を挿入するためのコンテキストサポートを備えたUnicodeテキストエディターです。
  • Classical Text Editorは、幅広いUnicode文字セットを使用する多言語テキストを含む、テキストの重要なエディションと学術版を扱うための高度なエディターです。

Unicodeフォント

フォントとUnicodeの関係は少し斜めです。 Unicodeは、ASCIIとの下位互換性のために作成されました。ASCIIでフォーマットされたテキストは、実質的に問題なくUnicodeとしてデコードできます。また、ASCIIで表示される文字の小さなセットのみが使用されている限り、Unicodeエンコードされたテキストは、ASCIIフォントを使用して表示できます。.

現在、ほとんどのコンピューターで使用できるほとんどのフォントはUnicodeでエンコードされています。したがって、その観点から、ほとんどのフォントは「Unicodeフォント」です。ただし、ほとんどのフォントは、完全なUnicode標準の特に大きなセットをサポートしていません.

通常、これは問題ではありません。複数の言語または拡張文字セットを使用してテキストを作成するユーザーは、いくつかの異なるフォントを使用する場合があります。1つはラテン文字用、もう1つは各CJK言語用、もう1つは数学記号(例)です。ただし、Unicode文字スペースの大部分を含む単一のフォントを使用すると便利な場合があります。これは、複数のフォントを使用することが不可能なプレーンテキストおよびソースコード環境で作業する場合、または複数のスクリプト間の視覚的な統一が特に重要な場合に必要になることがあります。.

以下は、拡張Unicodeサポートを提供する最も注目すべきフォントプロジェクトです。廃止されたフォントや廃止されたフォントを含む、より完全なリストについては、Unicodeフォントのこのページを参照してください。アジア言語の組版については、このCJKフォントのリストを参照してください。.

  • Everson Monoは、Unicode標準の創始者の1人によって作成されたモノスペースフォントです。その明記された目的は、可能な限り多くのユニコード文字スペースにグリフを提供することであり、(これを書いている時点では)92個のユニコード文字ブロックがサポートされています.
  • Notoは、Googleによって開発された大規模なディスプレイフォントのセットです。これらのフォントは、大部分のUnicode文字セットをサポートし、最終的にUnicode標準全体をサポートすることを目的としています。.
  • Deja Vu Fontsは、Serif、Sans、およびMonospaceバージョンで、Unicode標準を幅広くカバーするフォントファミリーです。.
  • GNU FreeFontは、37の書記体系と12のUnicodeシンボル範囲にSerif、Sans、Mono書体を提供するフォントファミリーです。.
  • GNU Unifontは、Unicode 8.0 Basic Multilingual Planeを完全にカバーするモノスペースのビットマップフォントで、Supplemental Multilingual Planeを幅広くカバーしますが不完全です。.

特別な使用のためにUnicode標準の特定のサブセットをエンコードする興味深いフォントもいくつかあります.

  • ユニコードは中世主義者のためのフォントのセットです
  • ラストリゾートは「ラストリゾートのフォント」です。従来の文字グリフの代わりに、各グリフは実際にUnicode文字自体に関する情報を表示します
  • 古代スクリプト用のUnicodeフォントは、いくつかの古代および古典的なアルファベットのフォントセットを作成するプロジェクトです。
  • Unimath Plusは、科学および数学記号の拡張セットを提供します

さらに、探しているものが見つからない場合の追加のUnicodeフォントリソースを次に示します。

  • SIL Fontsは、少数言語のコミュニティにサービスを提供するグローバルな非営利団体であるSIL Internationalが作成した、サポートが不十分なさまざまな言語用の多数のフォントです。
  • Unicode文字範囲とそれらをサポートするUnicodeフォントは、あらゆる範囲のUnicode文字のフォントを見つけるのに役立ちます.

絵文字リソース

絵文字とは、テキストメッセージに挿入できる面白い小さなスマイリーフェイスと親指のサインです。それらは実際にはUnicode標準の一部です。 Unicodeの絵文字部分は普遍的にサポートされているわけではないため、絵文字をアプリまたはWebサイトに組み込む場合は、いくつかの助けが必要になる場合があります。 Unicode絵文字の使用と構築に役立つリソースを以下に示します.

絵文字リファレンス

  • Emojipediaは、絵文字の検索可能なデータベースです。
  • 絵文字は使えますか? iOS、Android、OS X、Windows、および主要なブラウザーでのUnicode絵文字のネイティブサポートに関する情報を提供します
  • WTF Emoji Foundationは、絵文字の進歩を専門とする少し深刻な組織です。彼らは絵文字辞書を実行します.
  • 絵文字チートシートは絵文字入力コードのクイックリファレンスを提供します

絵文字ライブラリ

  • このPHP絵文字ライブラリを使用して、アプリに絵文字を含め、いくつかのベンダー標準間で翻訳します。または、コード内で名前で絵文字を参照できるこのPHP7絵文字ライブラリを試してください
  • Python用絵文字は、公式のUnicode絵文字といくつかのエイリアスセットの両方をサポートしています。 Django開発者はdjango-emojiパッケージも使用できます
  • 絵文字Golangは、Goプログラミング言語の絵文字サポートを提供します
  • Rubyの絵文字サポートにはいくつかの宝石がありますが、Githubによるものがおそらく使用するのに最適です。
  • Emoji-JavaはJavaで絵文字サポートを提供します
  • Coloremoji.styにより、LaTeXドキュメントにフルカラーの絵文字を簡単に含めることができます
  • Node.jsのパッケージ管理システムであるNpmには、いくつかの絵文字パッケージがあります。
    • 絵文字とノード絵文字は絵文字の基本的なサポートを提供します,
    • Ember-cli-emojiはEmojify.jsと連携して、Ember.jsアプリに絵文字ヘルパーを提供します
    • Markdown-it-emojiは、emdownを追加して、markdown-it Markdownパーサーをサポートします
  • Emoji Syntaxは、Atomテキストエディタ用の愚かなライブラリであり、意味に基づいてコード行に絵文字を追加します.

絵文字キーボードとコレクション

  • EmojiXpress for iOSは、iPhoneの絵文字コレクションとキーボードです。
  • Emojioneは、クロスプラットフォームの絵文字コレクションで、クリエイティブコモンズライセンスのアートワークが開発者に無料で提供されています
  • iDiversiconsは、多様な絵文字とiPhoneキーボードを幅広く提供します.

MIMEタイプ

MIMEは「Multipurpose Internet Mail Extensions」の略です。これは、オンラインで送信されるさまざまなファイルタイプを識別するために使用されるインターネット標準です。もともとは、電子メール送信のインターネット標準であるSMTP(Simple Mail Transfer Protocol)を介して送信される電子メール用に開発されました。現在、MIMEはHTTPなどの他の通信プロトコルで非常に重要です.

MIMEの歴史

ASCIIと文字エンコーディングの歴史についてはすでに説明しました。しかし、情報を送信するという話には、これよりもはるかに多くのことがある.

時間の経過とともに、メッセージはより複雑になり始め、この標準形式では不十分であることが明らかになりました。オーディオファイルまたはビデオファイルを含むマルチメディア画像はまったく定義されていません。英語のアルファベットを使用しない言語にも同じことが当てはまります。ナサニエルボレンシュタインとネッドフリードの2人が力を合わせたとき、状況はようやく変わり始めました.

彼らの提案は、電子メールが単一のメッセージに複数のオブジェクトを含むことができるようにメッセージのフォーマットを再定義しました。非ASCII文字および非英語言語の使用。画像、オーディオ、ビデオの使用。これが1993年に公式標準となったMIMEの誕生です.

この提案では、7ビット、8ビット、base64、バイナリ、quoted-printableのエンコード規格も定義されています。これらのエンコード標準は、すべてのデータが実際に送信されることを保証するためのものでした。送信されるデータのタイプを正しく識別するために必要なContent-Typeヘッダーの使用に関する情報も含まれています.

MIMEタイプとは?

MIMEタイプは、インターネット上で毎日送信される多くのファイル形式を識別するために使用される識別子です。それらはIANA(Internet Assigned Numbers Authority)によって標準化されています。 MIMEタイプは、BorensteinおよびFreedによって提出された公式提案であるIETF(Internet Engineering Task Force)によって発行されたRequest for Comments:2045(RFC 2045)で最初に定義され、そのように命名されました.

構造

MIMEタイプは、タイプとサブタイプで構成されます。タイプとサブタイプは、スラッシュで区切られた2つの文字列です。タイプはカテゴリを表し、個別またはマルチパートにすることができます。各タイプには特定のサブタイプがあります。従来、MIMEタイプは小文字で記述されていました.

離散型には、テキスト、イメージ、オーディオ、ビデオ、およびアプリケーションが含まれます。マルチパートタイプは、ドキュメントのカテゴリを表し、個別のパートに分割され、さまざまなMIMEタイプが含まれることがよくあります。フォームデータとバイト範囲が含まれます.

一部のMIMEタイプには、xまたはvndが前に付いています。 xプレフィックスは、IANAに登録されていないことを意味し、vndはベンダー固有のプレフィックスを示します.

一般的なMIMEタイプ

応用:

  • application / msword(.doc)
  • application / vnd.openxmlformats-officedocument.wordprocessingml.document(.docx)
  • application / vnd.openxmlformats-officedocument.wordprocessingml.template(.dotx)
  • application / vnd.ms-powerpoint(.ppt)
  • アプリケーション/ ecmascript(.es)
  • application / x-javascript(.js)
  • application / octet-stream(.bin、.exe)
  • application / pdf(.pdf)
  • アプリケーション/ポストスクリプト(.ps、.ai、.eps)
  • application / rtf(.rtf)
  • application / x-gtar(.gtar)
  • application / x-gzip(.gz)
  • application / x-java-archive(.jar)
  • application / x-java-serialized-object(.ser)
  • application / x-java-vm(.class)
  • application / x-tar(.tar)
  • application / zip(.zip)
  • application / x-7z-compressed(.7z)
  • application / x-rar-compressed(.rar)
  • application / x-shockwave-flash(.swf)
  • application / vnd.android.package-archive(.apk)
  • application / x-bittorrent(.torrent)
  • application / epub + zip(.epub)
  • application / vnd.ms-excel(.xsl)
  • application / x-font-ttf(.tff)
  • application / rss + xml(.rss、.xml)
  • application / vnd.adobe.air-application-installer-package + zip(.air)
  • application / x-debian-package(.deb)
  • application / json(.json)

オーディオ:

  • audio / x-midi(.mid、.midi)
  • audio / x-wav(.wav)
  • audio / mp4(.mp4a)
  • オーディオ/ ogg(.ogg)
  • オーディオ/ mpeg(.mp3)

画像:

  • image / bmp(.bmp)
  • image / gif(.gif)
  • image / jpeg(.jpeg、.jpg、.jpe)
  • image / tiff(.tiff、.tif)
  • image / x-xbitmap(.xbm)
  • image / x-icon(.ico)
  • image / svg + xml(.svg)
  • image / png(.png)

テキスト:

  • text / html(.htm、.html)
  • テキスト/プレーン(.txt)
  • テキスト/リッチテキスト(.rtf、.rtx)
  • テキスト/ css(.css)
  • text / csv(.csv)
  • テキスト/カレンダー(.ics)

ビデオ:

  • video / mpeg(.mpg、.mpeg、.mpe)
  • ビデオ/ ogg(.ogv)
  • ビデオ/クイックタイム(.qt、.mov)
  • video / x-msvideo(.avi)
  • video / mp4(.mp4)
  • video / webm(.webm)

資源

MIMEタイプを使用することで、電子メールのエクスペリエンスが向上し、より豊かになりました。以下のリソースのリストは、それらがどのように、そしてなぜそのようになったのか、およびMIMEタイプをサポートするためにWebサーバーを適切に構成する方法などについて、さらに詳しく学ぶのに役立ちます。.

オンライン資料

次のリストには、MIMEの標準草案となった5部構成の提案へのリンクが含まれています.

  • RFC 2045(PDF):提案の最初の部分では、MIMEメッセージの構造を説明するために使用されるさまざまなヘッダーを指定しています.
  • RFC 2046(PDF):2番目のドキュメントは、MIMEメディアタイピングシステムの一般的な構造とメディアタイプの初期セットを定義しています.
  • RFC 2047(PDF):提案の3番目の部分では、インターネットメールヘッダーフィールドで非US-ASCIIテキストデータを許可する拡張について説明しています.
  • RFC 2048(PDF):4番目の部分では、新しいMIMEタイプをIANAに登録する方法について説明しています.
  • RFC 2049(PDF):5番目の文書は、MIMEメッセージ形式の例を含むMIME適合基準について説明しています.
  • メディアタイプ:すべてのメディアタイプの完全なリスト。新しいメディアタイプを登録するためのアプリケーションへのリンクも含まれます.
  • MIMEガイズ:2人のインターネットグルが電子メールを永久に変えた方法:ナサニエルボレンシュタインとネッドフリードへのインタビューに基づいた記事で、彼らの仕事に興味深い洞察を与えています.

チュートリアル

以下のリソースは、MIMEタイプの処理、適切なサーバー構成などに関する役立つチュートリアルを提供します.

  • サーバーMIMEタイプの適切な設定:特にGeckoベースのブラウザーの場合、新しいMIMEタイプが追加されるときにWebマスターがWebサーバーを適切に設定する必要がある理由について説明します.
  • HTMLオーディオおよびビデオ要素によってサポートされるメディア形式:HTML5の新しいオーディオおよびビデオ要素によってサポートされるMIMEタイプのリストを提供します
  • MIMEスニッフィングとは:この記事では、MIMEスニッフィングと、それに関連する脆弱性を回避する方法について詳しく説明しています。.
  • 説明されるMIMEタイプ:LinuxとMac OS Xにファイル拡張子が不要な理由:WindowsコンピューターとLinux / Mac OS Xコンピューターの違いの1つを説明する興味深い記事.
  • JavaScriptに適したMIMEタイプの選択:現在、JavaScriptには複数のMIMEタイプがあります。このチュートリアルでは、それぞれの使用例について説明します.

MIMEタイプのみに特化した書籍はありませんが、密接に関連するトピックに関する書籍がまだいくつかあり、それらにいくつかの章が記載されています。.

  • Lawrence Hughesによるインターネット電子メールプロトコル、標準および実装(1998):より高度なユーザーを対象とするこの本は、電子メールソフトウェアの開発に必要な重要な概念の知識を強化し、SMTP、POP3、IMAPなどの主要なインターネット電子メールプロトコルと拡張機能について完全に説明しています、MIME、およびDSN.
  • プログラミングインターネット電子メール(1999)、デビッドウッド:電子メール機能の上にアプリケーションを構築するために必要なすべての重要な概念をカバーする重要なガイド。取り上げるトピックには、さまざまな電子メールプロトコル、MIMEタイプを含む電子メール形式、および多くの例が含まれます.
  • Peter LoshinによるEssential Email Standards(1999):この本は、電子メールの標準を深く理解したいと考えている人にとって必携の本です。これは、IETFによって発行された最も重要なRFCとそれらの潜在的な使用の徹底的な分析を提供します。完全に検索可能な本のデジタル版もCDに含まれています.
  • MH & xmh(2006)by Jerry Peek:この本はオンラインで無料で入手でき、GNU-GPLライセンスの下で公開されています。第3章では、MIMEタイプとマルチパートメッセージについて詳しく説明します

ツール

以下のリンクは、MIMEタイプの有効性をチェックするためのいくつかの便利なツールを備えています.

  • ブラウザがサポートするMIMEタイプ:ブラウザがページをロードするとすぐに、ブラウザがサポートするMIMEタイプを通知するオンラインツール.
  • MIMEバリデーター:MIMEメッセージのIETF標準への準拠をチェックする無料のオンラインMIMEバリデーター.
  • どのようなMIME:任意のファイル用の別の無料オンラインチェッカー.

MIMEタイプに関する知識を深める

MIMEタイプは表面上は重要ではないように見えるかもしれませんが、電子メールメッセージングの動作に大きな変更をもたらしました。このリソースのリストは、あなたの好奇心を刺激し、インターネットを介して送信された電子メールとファイルが長年にわたってどのように変化したかについてより深い理解を提供するはずです.

概要

ほとんどの人はタイプするだけで、何が起こっているのかについてあまり考えません。フォントデザインとタイポグラフィの優れた点について考える面倒な選択.

しかし、さらに少ないのは、舞台裏で何が起こっているかを知っている、または知りたがっている人々の数です。つまり、キーを押すと、コンピュータ画面上で文字になるのです。.

他のすべての人にとって、それは透過的または取るに足らない.

しかし、これまでに示したように、言語を表現するプロセスは簡単なものではありません。また、言語をそのままの透明度にするために膨大な作業が行われています。 Unicodeコンソーシアムは、無数の開発者、デザイナー、言語学者と共に、誰でも、あらゆる言語、あらゆるスクリプト、あらゆるコンピュータであらゆる文字を書くことを可能にしました.

これは注目すべき成果であり、普遍的なリテラシーとコンピューターとインターネットへの普遍的なアクセスに向けた必要なステップです.

よくある質問

Q. ASCII、Unicode、UTF-8の違いは何ですか?

あ. ASCIIは1960年代の古い規格ですが、Unicodeは1980年代後半に登場しました。.

ASCIIは128文字または256文字のみですが、Unicodeは10,000文字を超えています.

Unicodeは文字テーブル、UTF-8(またはUTF-16またはUTF-32)はエンコードのレベルです。 Unicode 0-256とASCIIはほぼ同じですが、制御文字にわずかな違いがあります.

現在、UTF-8はWebで最も一般的なエンコーディングであり、デフォルトです.

Q. Webページに使用しているエンコードタイプを宣言する必要がありますか??

あ. 一意のエンコードタイプを使用する必要があることがわかっている場合のみ.

宣言しない場合、ほとんどのブラウザーはデフォルトでUTF-8になります。外国語、特に非ラテン語でウェブページを作成する場合は、UTF-8を使用しているか、特別な文字セットを選択してください.

Q. HTMLを記述するためにASCIIコードを記憶する必要がありますか??

あ. 非常に効率的になりたい場合のみ.

今日のほとんどのWebサイトは動的で、コンテンツ管理システム(CMS)などのシステムを介してHTMLを生成します。あなたが開発者であれば、おそらくHTMLに加えて他のプログラミング言語を使用しているでしょうし、それらの言語はそれらのASCIIシンボルを生成する特別な方法を持っているかもしれません.

最後に、上記のように、これらのコードの多くは、ASCII番号の代わりにHTMLで特殊文字名を使用します。.

Q.文字コードはオペレーティングシステムによって異なりますか??

あ. 幾分.

Unicodeは、WindowsとUnix / Linuxで若干異なります。たとえば、WindowsはUTF-16LEを使用しますが、Linuxは通常UTF-8を使用します.

もちろん、オペレーティングシステムで使用されるエンコードはWebページのエンコードとは異なる場合がありますが、OSとWebブラウザーが連携して、文字コードをコンピューターが表示できるものに変換します.

古いオペレーティングシステムでは、この変換が機能せず、空白文字が表示される場合があります。 (たとえば、Windows XPで外国のWebサイトにアクセスすると表示されることがあります。)

Q. ASCIIアートは最高です!どこで自分で作れますか?

あ. AsciiWorld.comのソフトウェアセクションには、コンバーターや「ペインター」などの素晴らしいギャラリーやツールがいくつかあります。楽しんで!

その他の興味深いもの

コーディングとウェブサイトの開発に関連するガイド、チュートリアル、およびインフォグラフィックが他にもあります。

  • CSS3 —イントロ、ガイド、リソース:Webページのレイアウトについて学ぶのに最適な場所です。.

  • PostScript入門とリソース:世界を変えたページ表示言語についてすべて学んでください。.

  • Lorem Ipsum:コンテンツが作成される前に、「ダミーテキスト」を使用してデザインする方法を学びます.

初心者のためのHTML —究極のガイド

あなたが本当にHTMLを学びたいのであれば、私たちは本の長さの記事、HTML for Beginners — Ultimate Guideを作成しました。そしてそれは本当に究極のガイドです。最初から習得する.

初心者のためのHTML-究極のガイド
初心者のためのHTML —究極のガイド

忘れられないWebデザインのトレンド

Unicode以前は、すべてのテキストが空のボックスで表されているWebサイトにアクセスするのが一般的でした。物事は大きく変わりました。インフォグラフィックのWeb Design Trendsでは、Webがどのように使用されていたかを忘れることはありません。.

忘れられないWebデザインのトレンド
忘れられないWebデザインのトレンド

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me
    Like this post? Please share to your friends:
    Adblock
    detector
    map