Pengekodan ASCII: Pemula, Pemula … Kami telah Mendapatkan Semua Maklumat yang Anda Perlu Di Sini.

Pendedahan: Sokongan anda membantu mengekalkan laman web ini! Kami memperoleh bayaran rujukan untuk beberapa perkhidmatan yang kami cadangkan di halaman ini.


ASCII adalah sejenis pengekodan watak yang digunakan untuk komputer untuk menyimpan dan mengambil watak (huruf, angka, simbol, ruang, lekukan, dll) sebagai corak bit untuk penyimpanan dalam memori dan pada cakera keras.

“Pengekodan karakter” pada tahap tinggi bermaksud penukaran simbol menjadi nombor binari dan menggunakan “peta karakter” untuk membaca nombor binari sebagai jenis huruf.

Dan jenis MIME membolehkan pengguna menghantar data di luar watak, seperti gambar dan video.

ASCII, Pengekodan Karakter, Jenis MIME

Pengekodan Watak

Bentuk pengekodan watak paling awal adalah seperti telegraf elektrik. Sebenarnya, kod Morse, dan kemudian kod Baudot adalah beberapa kod watak standard pertama yang pernah dibuat.

Lapisan pengekodan kedua yang disebut enkripsi atau penyisipan juga dibentuk oleh tentera pada masa itu, tetapi itu adalah topik yang agak berbeza.

Tidak sampai tahun 1950-an kita memulakan proses moden menuju ASCII. IBM memulakannya dengan mengembangkan skema pengekodan untuk digunakan dalam komputer Seri 7000 mereka.

Bimal Coded Decimal (BCD) IBM menggunakan pengekodan empat-bit pada punchcard. Itu adalah cara menyimpan nombor perpuluhan dalam bentuk binari.

Oleh itu, bukannya nombor yang berlari dari 0000 (0) hingga 1111 (15), angka itu berlari dari 0000 (0) hingga 1001 (9) – masing-masing empat bit mewakili satu digit.

Kemudian, IBM membuat versi Extended BCD yang disebut Extended Binary Coded Decimal Interchange Code (EBCDIC). Ia adalah sistem pengekodan 8-bit untuk semua watak yang boleh dicetak standard.

Pada tahun yang sama, 1963, ASCII diperkenalkan.

Ia menggunakan skema pengekodan 7-bit. Itu mewakili 128 nombor yang berbeza.

Format nombor 7-bit ini mungkin kelihatan ganjil. Lagipun, bukankah komputer semuanya 8-bit atau 16-bit atau 32-bit dan sebagainya?

Hari ini mereka. Tetapi komputer awal tidak dibina dengan cara itu.

Terlebih lagi, memori di komputer sangat berharga dan tidak ada alasan untuk menggunakan sedikit tambahan jika anda tidak memerlukannya. Kod 6-bit (yang ada) tidak akan merangkumi semua huruf besar, kecil, dan tanda baca asas. Tetapi kod 7-bit – dengan ruang kosong.

Sebagai komputer untuk menetap ke dalam struktur 8-bit (1-byte), ASCII secara beransur-ansur berubah menjadi kod 8-bit tidak rasmi, di mana 128 aksara lain tidak diseragamkan.

Keadaan ini berterusan untuk beberapa lama. Pada tahun 1991, 8-bit menjadi format rasmi seperti yang dikendalikan oleh ISO (International Organisation for Standardization) untuk UTF-8.

Cabaran yang muncul pada masa ini adalah bahawa hanya satu abjad yang dapat disokong oleh pengekodan 7 atau 8-bit.

Untuk mendukung rangkaian bahasa yang lebih luas, skema pengekodan Unicode dirancang, bersama dengan Set Karakter Universal. Unicode mempunyai beberapa jenis pengekodan, UTF-8 adalah pengekodan 8-bit yang mempunyai keserasian dengan ASCII, dan yang telah meningkat untuk menggantikan ASCII sebagai standard pengekodan watak utama di web hari ini.

Pertumbuhan UTF-8

Selain itu, UTF-16 dan UTF-32 telah digunakan untuk bahasa dengan banyak watak. Walau bagaimanapun, bahasa Cina, Jepun dan Arab semuanya boleh dipaparkan di UTF-8.

Hasilnya, UTF-8 adalah format pengekodan yang paling biasa di web. Dan bagi penutur bahasa Inggeris, perkara-perkara sangat mudah kerana 128 watak pertama ASCII sama dengan yang terdapat di Unicode.

Jadi untuk penggunaan dalam HTML, merujuk jadual ASCII untuk membuat watak akan berfungsi tanpa mengira format pengekodan yang anda gunakan.

Tempat ASCII Sesuai

ASCII bermaksud “American Standard Code for Information Interchange” dan dicipta oleh American Standards Association (kemudian dinamakan semula sebagai American National Standards Institute).

Piawaian ASCII dimulakan pada tahun 1960 dan dikeluarkan pada tahun 1963. Ini merupakan perpanjangan kod telegrafik dan pertama kali digunakan oleh perkhidmatan data Bell.

Penyemakan semula dibuat selama bertahun-tahun. Sehingga tahun 2007 ia merupakan pengekodan watak yang paling banyak digunakan di web, tetapi digantikan dengan UTF-8.

Peralihan web dari ASCII dan ANSI Microsoft ke UTF-8 sebahagian besarnya disebabkan oleh inisiatif oleh Google, kerana penggunaan internet menjadi lebih antarabangsa dan ASCII hanya mampu menampilkan watak Latin.

Yang penting diperhatikan, ialah UTF-8 adalah jenis pengekodan, sementara Unicode adalah set aksara; kerana 128 watak pertama Unicode sama dengan ASCII, boleh diterima untuk merujuk jadual ASCII ketika menghasilkan watak dalam HTML.

ASCII memang memiliki kemampuan untuk menggunakan “urutan melarikan diri” dalam menampilkan abjad alternatif, yang memungkinkannya menjadi standard antarabangsa, tetapi Unicode menangani ini secara lebih langsung.

Unicode berasal dari Apple pada tahun 1987, dan menjadi projek Unicode Consortium pada tahun 1991. ASCII diciptakan oleh ASA, tetapi penyempurnaan selanjutnya diteruskan sebagai sebahagian daripada pernyataan dari ISO.

Nama pengekodan UTF-8 digunakan oleh semua standard yang mematuhi Internet Assigned Numbers Authority (IANA) yang bermaksud semua HTML, CSS, dan XML. IANA adalah jabatan ICANN yang lebih besar, yang merupakan organisasi nirlaba yang menentukan protokol internet dan nama domain.

Sebagai kesimpulan, ASCII berkembang dari kod telegraf pada tahun 60-an, dibesarkan, dan menjadi sebahagian daripada set watak Unicode, yang digunakan oleh UTF-8, format pengekodan paling dominan di web.

Nama domain dan kod halaman web bergantung kepada agar peta aksara bersatu ini berfungsi dengan baik.

Ini bermaksud bahawa pada inti internet moden, terdapat format watak yang diciptakan pada tahun 1870-an, dikomputerkan sebagai ASCII pada tahun 1960-an, dimodenkan untuk web dengan Unicode tahun 1990-an, dan diadopsi secara meluas melalui penggunaan majoriti UTF-8 pada tahun 2007.

Karakter Kawalan vs Karakter yang Boleh Dicetak

Terdapat dua jenis watak dalam ASCII, watak yang boleh dicetak dan watak kawalan.

Karakter kawalan menentukan nombor 0-31, dan 127. Karakter kawalan merangkumi semua bahagian penulisan yang memungkinkan untuk perenggan baru, tab, hujung baris, pemisah fail, dan banyak bahagian yang terutama telus.

Karakter kawalan ini dibuat pada masa kad dicetak adalah sebahagian besar dari proses pengkomputeran. Beberapa ciri tersebut telah diganti, tetapi banyak bahagian pemformatan baris masih ada hingga sekarang. Kod 127 sebenarnya adalah kod untuk dihapus (hanya dalam ASCII sebenar, bukan ANSI atau Unicode).

Semua watak yang boleh dicetak adalah perkara yang anda harapkan. Terdapat semua huruf kecil (a-z) dan huruf besar (A-Z), bersama dengan nombor, simbol, dan tanda baca – pada dasarnya semua yang dilihat pada papan kekunci biasa. Karakter prinsip ini merangkumi semua perkataan bertulis.

Menggunakan ASCII dalam XML dan HTML

Setiap halaman HTML mempunyai format pengekodan watak yang diberikan kepadanya.

Kecuali dinyatakan sebaliknya, pengekodan HTML akan lalai ke UTF-8. Untuk menggunakan ASCII murni, atau ANSI, atau format khusus yang unik, semua yang perlu dilakukan adalah mempunyai deklarasi dalam tag meta.

Untuk HTML 4:

Untuk HTML5:

Dalam tag charset, anda boleh menggunakan UTF-8, ANSI, atau ASCII dengan menggunakan charset ="kita-ascii" atau anda dapat mencari kumpulan karakter tertentu untuk digunakan, biasanya dengan menyatakan nombor ISO. Senarai lengkap boleh didapati di halaman set watak IANA.

Format Penyisipan Kod Watak

Namun, secara umum, ketika seseorang merujuk kepada menggunakan kod ASCII, anda ingin mereka menjelaskan apakah maksudnya BENAR AS-ASCII dengan meta-tag, atau jika mereka hanya meminta anda untuk menampilkan watak khas.

Dalam HTML, bila-bila masa anda mahu menggunakan watak khas, seperti sebut simbol cent (¢) atau watak tanda tanya terbalik (¿) – anda biasanya dapat menggunakan simbol Unicode atau US-ASCII (8-bit) watak, dengan menaip rujukan seperti ini:

¢ dalam HTML kelihatan seperti: ¢

¿Dalam HTML kelihatan seperti: ¿

Oleh itu, anda mulakan dengan &# diikuti dengan nombor empat digit, diakhiri dengan titik koma (;).

Dengan cara ini, anda dapat memaparkan watak berdasarkan nombor ASCII / Unicode mereka.

Sudah tentu, watak kawalan akan melakukan fungsi pemformatan atau tidak berfungsi sama sekali, bergantung pada mana yang anda gunakan dan set watak sebenar yang telah anda senaraikan dalam tag meta anda.

Jadi dalam HTML anda melihat “&# “Nombor, tetapi apabila dipaparkan di penyemak imbas anda, anda akan melihat wataknya.

Watak Entiti Khas HTML

Sekarang, katakan misalnya anda hanya mahu menunjukkan & simbol di halaman anda.

Anda tidak boleh memasukkannya ke dalam HTML, tetapi anda boleh memasukkan ASCII atau Unicode yang sesuai.

HTML adalah bahasa markup, jadi sementara huruf biasa berfungsi dengan baik, watak khas dan terutama < > kurungan – sangat penting untuk bagaimana penyemak imbas membaca dan menunjukkan HTML.

Anda tidak perlu selalu memasukkan nombor rujukan Unicode / ASCII. Untuk HTML 4.0 dan yang lebih baru, ada entiti khas yang berfungsi serupa dengan rujukan Unicode, tetapi bukannya menghafal nombor, anda menghafal satu perkataan.

¢ dalam HTML kelihatan seperti: ¢

¿ dalam HTML kelihatan seperti: ¿

Senarai lengkap rujukan watak ini boleh didapati di konsortium W3.

Jadual Rujukan

Dengan semua petunjuk ini, anda mungkin hanya mencari tempat yang mudah untuk mencari rujukan ASCII atau Unicode. Tidak perlu melihat lagi, kami mempunyai rujukan 000-127 di sini, dan anda boleh mendapatkan format Unicode lengkap di Wikipedia.

Perhatikan bahawa watak 000-032 dan 127 umumnya tidak dapat dicetak dan dengan itu ditunjukkan dengan “NA”.

ASCII

jadual.wiht002 {
jarak sempadan: 0px;
sempadan-runtuh: runtuh;
margin-kiri: automatik;
margin-right: automatik;
margin-bottom: 1.5em;
text-align: tengah;
}

jadual, tr, td
{
pembalut: 0px;
margin: 0px;
}
td.bor
{
sempadan-kiri: 1px pepejal # 000;
padding-kiri: 1em;
margin-kanan: 1em;
}
td.pecah
{
margin-kiri: 2em;
margin-right: 2em;
}
td.sep
{
sempadan-bawah: 1px pepejal # 000;
}
td.sepbor
{
sempadan-bawah: 1px pepejal # 000;
sempadan-kiri: 1px pepejal # 000;
padding-kiri: 1em;
margin-kanan: 1em;
}

0NA32NA64@@96
1NA?33!!65AA97aa
2NA?34""66BB98bb
3NA?35##67CC99cc
4NA?36$$68DD100dd
5NA?37%%69EE101ee
6NA?38&&70FF102ff
7NA?3971GG103gg
8NA?40((72HH104hh
9NA41))73SayaSaya105ii
10NA42**74JJ106jj
11NA43++75KK107kk
12NA44,,76LL108ll
13NA4577MM109mm
14NA?46..78NN110nn
15NA?47//79OO111oo
16NA?480080PP112hlmhlm
17NA?491181QQ113qq
18NA?502282RR114rr
19NA?513383SS115ss
20NA?524484TT116tt
21NA?535585UU117awakawak
22NA?546686VV118vv
23NA?557787WW119ww
24NA?568888XX120xx
25NA?579989YY121yy
26NA?58::90ZZ122zz
27NA?59;;91[[123{{
28NA?60<<92\\124||
29NA?61==93]]125}}
30NA?62>>94^^126~~
31NA?63??95__127NA?

Alat dan Sumber ASCII

Terdapat banyak sejarah mengenai bagaimana kod watak berkembang, dan organisasi yang memegang piawaian ini bersama-sama untuk kita semua. Dengan kebanyakan pembangun internet dan W3C menetap di UTF-8, sekurang-kurangnya dalam waktu dekat, begitulah halaman akan dikodkan.

Anda akan memerlukan beberapa sumber untuk menolong anda sekiranya anda memulakan pengekodan secara manual dalam format lain, atau lebih baik jika anda mempunyai rujukan yang komprehensif.

Senarai Sumber

  • Halaman set watak IANA

  • Watak Khas HTML oleh konsortium W3

  • Format Unicode penuh di Wikipedia

  • Jadual ASCII hanya 0130-0255

  • Sejarah ASCII di ASCII-World

  • Senarai watak Unicode di Wikipedia.

Seni ASCII

Tiada ringkasan ASCII yang akan lengkap tanpa merujuk kepada seni ASCII.

Perisian khas boleh digunakan, atau simbol dengan kod tangan, untuk mengambil bentuk gambar tanpa menggunakan simbol. Jenis kesan ini telah wujud sejak tahun 1980-an dan menjadi popular pada sistem seperti Commodore Amiga Computer.

Bahkan terdapat perbezaan antara seni “Oldskool” ASCII yang menggunakan ASCII murni di baris perintah, dan “Newskool” yang menggunakan watak khas dalam Unicode untuk membuat karya seni yang lebih kompleks.

Berikut adalah gambar kepala zebra:

Zebra Seni ASCII

ISO-8859-1

ISO-8859-1 adalah standard pengekodan watak. Ia dikeluarkan oleh Organisasi Antarabangsa untuk Standardisasi (ISO) pada tahun 1998 sebagai lanjutan kepada ASCII.

ASCII dan ISO-8859-1

Piawai pengekodan watak yang paling terkenal adalah ASCII. ASCII menggunakan 7 bit bait lapan-bit untuk mengekod 128 aksara paling asas yang digunakan untuk menulis bahasa Inggeris. Sejumlah penggunaan khusus sistem dikembangkan untuk bit kelapan (pesanan tinggi).

Sebagai contoh, satu sistem menggunakannya untuk menukar antara huruf rumi dan miring gaya percetakan. Sistem lain menggunakannya untuk mengekod watak tambahan. Dengan menggunakan semua lapan bait, 256 aksara dapat dikodkan.

Oleh kerana set ASCII yang asli tidak memasukkan sebilangan aksara yang diperlukan untuk menulis dalam bahasa bukan Inggeris yang sama (seperti huruf dengan tanda diakritik), memperluas set watak menjadi 256 sangat meningkatkan kemampuannya.

IS0-8859-1 adalah salah satu pelanjutan tersebut. Ini bertujuan untuk menjadi standard lintas platform antarabangsa. Oleh kerana ia adalah superset ASCII 8-bit standard, ia serasi dengan belakang: dokumen yang dikodkan dalam ASCII dapat dengan mudah didekod menggunakan ISO-8859-1.

ISO-8859-1 dan HTML

Menurut standard, ISO-8859-1 adalah pengkodan watak lalai dalam HTML 4. Namun, kebanyakan penyemak imbas menyokong superset ISO-8859, yang disebut ANSI.

ANSI mengandungi 32 aksara tambahan yang kosong dalam ISO-8859-1. (Selalunya, apabila anda melihat senarai watak ISO-8859-1, sebenarnya senarai ANSI penuh.)

Hari ini, standard HTML5 menggunakan UTF-8, superset yang sangat besar yang merangkumi pengekodan ASCII, ISO-8859-1, dan ANSI yang asal.

Namun, kebanyakan dokumen HTML berbahasa Inggeris, bahkan yang secara eksplisit menyatakan ISO-8859-1 atau UTF-8 sebagai set aksara mereka, sebenarnya menggunakan set aksara ASCII yang lebih kecil. Terdapat dua sebab untuk ini:

  • ASCII boleh ditaip pada papan kekunci QWERTY standard.

  • Sebilangan besar teknologi yang digunakan untuk menghasilkan HTML hanya menyokong ASCII.

Oleh kerana ISO-8859-1 dan UTF-8 sama-sama serasi dengan ASCII, ini biasanya tidak menimbulkan masalah.

ISO-8859-1 dan Entiti Karakter

Kumpulan watak yang tersedia dalam ISO-8859-1 dapat dihasilkan dalam dokumen ASCII sahaja dengan menggunakan entiti watak HTML. Ini adalah rentetan yang dimulai dengan ampersand (“&”) Dan diakhiri dengan titik koma (“; “).

Sebagai contoh, simbol hak cipta (lingkaran dengan huruf “C” di dalamnya) dapat dikodkan secara langsung menggunakan ISO-8859-1 atau UTF-8. Tetapi kerana tidak ada kekunci “©” pada kebanyakan papan kekunci, banyak orang merasa lebih mudah untuk menaip ©.

Ini disimpan dalam fail sebagai enam watak ASCII: &, c, o, p, y, dan ;. Penyemak imbas web kemudian memaparkan watak ISO-8859-1 yang sesuai kepada pengguna.

Sebilangan besar watak bukan ASCII ISO-8859-1 telah menamakan entiti watak HTML. Yang tidak boleh ditaip dengan kod berangka mereka. Kod berangka sebenarnya adalah versi perpuluhan (asas 10) pengekodan binari.

Sebagai contoh, simbol hak cipta dikodkan sebagai 10101001 dalam binari, yang 169 di pangkalan 10. Oleh itu, anda boleh menaip © atau ©.

Watak Bukan ASCII dalam ISO-8859-1 dan ANSI

Karakter 128-159 pada carta ini adalah aksara ANSI yang tidak termasuk dalam ISO-8859. 127 kod pertama dalam ISO-8859-1 / ANSI tidak disertakan di sini, kerana sama dengan ASCII, yang telah kami senaraikan di atas.

Perwatakan
Nama HTML
Nombor HTML
Penerangan
tanda euro
tanda petik rendah 9 tunggal
ƒƒƒhuruf kecil f dengan cangkuk
tanda petik rendah-9 berganda
elipsis mendatar
keris
keris berganda
ˆˆˆhuruf pengubah aksen circumflex
per tanda mille
ŠŠŠhuruf besar S dengan karon
petikan sudut kiri tunggal
ŒŒŒligatur modal OE
ŽŽhuruf kapital Z dengan karon
tanda petik kiri tunggal
tanda petik tunggal yang betul
tanda petik berganda kiri
tanda petik ganda betul
peluru
en lari
em pusing
˜˜˜tilde
Tanda tanda perdagangan TM
šššhuruf kecil S dengan karon
tanda petik sudut tepat
œœœligatur huruf oe
žžhuruf kecil z dengan karon
ŸŸŸhuruf besar Y dengan diaeresis
 ruang tidak pecah
¡ ¡ ¡tanda seru terbalik
¢ ¢ ¢tanda sen
£ £ £tanda paun (mata wang)
¤ ¤ ¤tanda mata wang
¥ ¥ ¥tanda yen / yuan
¦ ¦ ¦palang menegak yang patah
§ § §tanda bahagian
¨ ¨ ¨diaeresis
© © ©tanda hak cipta
ª ª ªpenunjuk ordinal feminin
« « «tanda petik sudut dua kiri (guillemet)
¬ ¬ ¬bukan tanda (logik)
­ ­kata hubung lembut / budi bicara
® ® ®tanda tanda perdagangan berdaftar
¯ ¯ .jarakkan makron / garis atas
° ° °tanda darjah
± ± ±tanda tambah / tolak
² ² ²superskrip dua (kuasa dua)
³ ³ ³superskrip tiga (dadu)
´ ´ ´loghat akut
µ µ µtanda mikro
tanda perenggan (pilcrow)
· · ·titik tengah
¸ ¸ ¸cedilla
¹ ¹ ¹superskrip satu
º º ºpenunjuk ordinal maskulin
» » »tanda petik sudut berganda kanan (guillemet)
¼ ¼ ¼pecahan satu perempat (1 lebih 4)
½ ½ ½satu setengah pecahan (1 lebih 2)
¾ ¾ ¾pecahan tiga perempat (3 lebih 4)
¿ ¿ ¿tanda tanya terbalik
À À Àhuruf besar A dengan loghat serius
Á Á Áhuruf besar A dengan loghat akut
  Âhuruf besar A dengan circumflex
à à Ãhuruf besar A dengan tilde
Ä Ä Ähuruf besar A dengan diaeresis
Å Å Åhuruf besar A dengan cincin di atas
Æ Æ Æligatur modal AE
Ç Ç Çhuruf besar C dengan cedilla
È È Èhuruf besar E dengan loghat serius
É É Éhuruf besar E dengan loghat akut
Ê Ê Êhuruf besar E dengan circumflex
Ë Ë Ëhuruf besar E dengan diaeresis
Ì Ì Ìhuruf besar I dengan loghat serius
Í Í Íhuruf besar I dengan loghat akut
Î Î Îhuruf besar I dengan circumflex
Ï Ï Ïhuruf besar I dengan diaeresis
Ð Ð Ðhuruf besar ETH (simbol Dogecoin)
Ñ Ñ Ñhuruf besar N dengan tilde
Ò Ò Òhuruf besar O dengan aksen kubur
Ó Ó Óhuruf besar O dengan loghat akut
Ô Ô Ôhuruf besar O dengan circumflex
Õ Õ Õhuruf besar O dengan tilde
Ö Ö Öhuruf besar O dengan diaeresis
× × ×tanda pendaraban
Ø Ø Øhuruf besar O garis miring
Ù Ù Ùhuruf besar U dengan loghat serius
Ú Ú Úhuruf besar U dengan loghat akut
Û Û Ûhuruf besar U dengan circumflex
Ü Ü Ühuruf besar U dengan diaeresis
Ý Ý Ýhuruf besar Y dengan loghat akut
Þ Þ Þhuruf besar THORN
ß ß ßhuruf kecil tajam s (Eszett / skarf S )
à à àhuruf kecil a dengan aksen kubur
á á áhuruf kecil a dengan loghat akut
â â âhuruf kecil a dengan circumflex
ã ã ãhuruf kecil a dengan tilde
ä ä ähuruf kecil a dengan diaeresis
å å åhuruf kecil a dengan cincin di atas
æ æ æhuruf kecil ae kecil
ç ç çhuruf kecil c dengan cedilla (cédille)
è è èhuruf kecil e dengan aksen kubur
é é éhuruf kecil e dengan aksen akut
ê ê êhuruf kecil e dengan circumflex
ë ë ëhuruf kecil e dengan diaeresis
ì ì ìhuruf kecil i dengan aksen kubur
í í íhuruf kecil i dengan loghat akut
î î îhuruf kecil i dengan circumflex
ï ï ïhuruf kecil i dengan diaeresis
ð / td> ðkod> ðhuruf kecil et
ñ ñ ñhuruf kecil n dengan tilde
ò ò òhuruf kecil o dengan aksen kubur
ó ó óhuruf kecil o dengan aksen akut
ô ô ôhuruf kecil o dengan circumflex
õ õ õhuruf kecil o dengan tilde
ö ö öhuruf kecil o dengan diaeresis
÷ ÷ ÷tanda pembahagian
ø ø øhuruf kecil o dengan garis miring
ù ù ùhuruf kecil u dengan aksen kubur
ú ú úhuruf kecil u dengan aksen akut
û û ûhuruf kecil u dengan circumflex
ü ü ühuruf kecil u dengan diaeresis
ý ý ýhuruf kecil y dengan aksen akut
þ þ þhuruf kecil duri
ÿ ÿ ÿhuruf kecil y dengan diaeresis

Unikod

Unicode adalah standard untuk pengekodan watak yang dikendalikan oleh The Unicode Consortium.

Seperti yang telah kita bahas, sistem komputer tidak menyimpan aksara (huruf, angka, simbol) secara harfiah – tidak ada gambar kecil setiap huruf dalam dokumen pada cakera keras anda. Seperti yang anda sedia maklum, setiap watak dikodkan sebagai rangkaian bit binari – 1s dan 0s. Contohnya, kod untuk huruf kecil “a” adalah 01100001.

Tetapi 01100001 adalah sewenang-wenang – tidak ada yang istimewa tentang rentetan bit yang seharusnya menjadikannya huruf “a” – industri komputer secara kolektif telah menyetujui bahawa itu bermaksud “a.” Oleh itu, bagaimana seluruh industri dapat menyetujui bagaimana mewakili setiap watak yang mungkin? Dengan standard pengekodan watak. Standard pengekodan hanya menentukan semua watak yang mungkin ada, dan masing-masing memberikan rentetan bit.

Terdapat beberapa standard pengekodan watak yang digunakan di seluruh dunia selama beberapa dekad terakhir pengkomputeran. Untuk masa yang lama, standard yang paling diterima secara universal adalah ASCII. Masalah dengan ASCII adalah bahawa ia hanya mengekodkan bilangan watak yang agak terhad – maksimum 256. Ini tidak termasuk bahasa bukan Latin, banyak simbol penting matematik dan sains, dan bahkan beberapa tanda baca asas.

Selain penggunaan ASCII dalam bahasa Inggeris dan bahasa lain yang menggunakan abjad Latin, kumpulan bahasa yang menggunakan huruf lain cenderung menggunakan pengekodan watak mereka sendiri. Oleh kerana skema pengekodan ini didefinisikan terpisah antara satu sama lain, mereka sering bertentangan; mustahil untuk menggunakan skema pengekodan tunggal untuk pelbagai bahasa pada masa yang sama.

Unicode pada awalnya dikandung, dan terus dikembangkan, dengan tujuan untuk mengatasi cabaran ini. Matlamat Unicode adalah untuk menyediakan a uniersal, uniberpusing, dan unipengecam kod que untuk setiap grafik dalam setiap bahasa dan sistem tulisan di dunia.

UTF-8

Unicode telah dilaksanakan dalam beberapa skema pengekodan watak, tetapi standard yang paling banyak digunakan hari ini adalah UTF-8. UTF-8 telah menjadi hampir universal untuk semua jenis pengkomputeran moden.

UTF-8 mengekod watak menggunakan sehingga 4 blok kod 8-bit. ASCII hanya menggunakan 8 bit setiap watak. Watak unicode yang sebelumnya dimasukkan dalam ASCII diwakili dalam UTF-8 oleh potongan 8-bit tunggal, 8 bit yang sama yang digunakan dalam ASCII. Ini menjadikan teks ASCII serasi ke hadapan dalam UTF-8. (Ini adalah salah satu daripada banyak sebab bahawa UTF-8 menjadi standard universal – peralihan agak mudah.)

Skema 8 × 4 menyediakan UTF-8 dengan lebih dari satu juta titik kod, yang membolehkan Unicode menyandikan watak dari 129 skrip dan sistem penulisan..

Sumber untuk Memahami Unicode

  • Pengenalan Sistem Penulisan dan Unicode adalah penjelasan yang sangat teliti, walaupun fasih, dan jelas mengenai pengekodan watak, dan Unicode khususnya; jika anda hanya dapat membaca satu perkara di Unicode, inilah yang boleh dibaca
  • Standard Unicode: Pengenalan Teknikal adalah penjelasan rasmi mengenai standard Unicode
  • Ke BMP dan Di Luar! adalah tutorial mengenai Unicode, sesuai untuk persembahan kelas atau belajar sendiri
  • Tutorial Unicode menerangkan bagaimana Unicode berfungsi, termasuk perincian menarik seperti menggabungkan watak, dan bagaimana mesin penghuraian Unicode harus berfungsi.

Buku di Unicode

  • Unicode dijelaskan, oleh Jukka Korpela, memberikan gambaran keseluruhan yang baik mengenai Unicode dan pelbagai cabaran pembangunan yang disertakan dengan melaksanakannya
  • Unicode Demystified: Panduan Pengaturcara Praktikal untuk Piawaian Pengekodan, oleh Richard Gillam, adalah penjelasan Unicode yang bermanfaat, jika agak tanggal, dengan banyak spesifik pelaksanaan yang difokuskan pada Java
  • Font dan Pengekodan, oleh Yannis Haralambous, bukan hanya mengenai Unicode, tetapi mungkin buku yang paling sesuai untuk dibaca; ini merangkumi sejarah pengekodan dan mewakili teks dalam komputer, menyediakan asas teori dan praktikal untuk memahami Unicode dan beberapa subjek yang berkait rapat.

Bahan Rujukan Unicode

Sebaik sahaja anda memahami asas Unicode, kebanyakan anda perlu mencari butiran khusus – seperti pengekodan watak tertentu.

  • Cheatsheet C / C ++ Unicode memberikan maklumat mengenai menukar Microsoft C / C ++ ke Unicode
  • Laporan Teknologi XML dan Unicode adalah senarai laporan teknikal yang merangkumi pelbagai aspek penggunaan XML dan Unicode bersama-sama
  • Decode Unicode menyediakan kamus Unicode dalam talian dengan UI yang indah, yang membolehkan anda melihat setiap watak Unicode yang ditentukan, walaupun tanpa sokongan fon tempatan
  • Data on Languages ​​memberikan maklumat yang boleh dicari mengenai penggunaan set watak Unicode dengan pelbagai bahasa
  • Unicode Navigator menyediakan senarai teratur dari semua watak Unicode

Alat Unicode

  • Unicode Analyzer adalah pelanjutan penyemak imbas Chrome yang memberikan maklumat mengenai teks Unicode di halaman web dan dokumen
  • Character Identifier adalah plugin Firefox yang menyediakan menu konteks untuk mencari lebih banyak maklumat mengenai watak Unicode yang dipilih
  • Untuk memasukkan watak Unicode dalam bidang teks di web, cuba Unicode Symbols untuk Chrome atau Unicode Input Tool untuk Firefox
  • UnicodeDataBrowser menyediakan GUI untuk memudahkan membaca fail UnicodeData.txt
  • Polyglot 3000 mengenal pasti bahasa teks apa pun secara automatik
  • Unicode menyediakan senarai susun atur papan kekunci watak Unicode untuk pelbagai skrip yang disokong Unicode
  • Babel adalah perpustakaan Python untuk pelbagai tugas pengantarabangsaan dan penyetempatan
  • D-Type Unicode Text Engine adalah perpustakaan C ++ untuk meletakkan, membuat, dan mengedit teks Unicode berkualiti tinggi pada perangkat, platform, atau sistem operasi apa pun
  • Nunicode adalah pustaka C untuk pengekodan dan penyahkodan dokumen UTF-8
  • Portable UTF-8 memberikan sokongan Unicode untuk rentetan PHP
  • Tesseract OCR memberikan pengecaman watak optik untuk teks Unicode
  • Popchar adalah peta watak yang diperbaiki yang membolehkan anda mencari dan menaip watak dengan mudah dari seluruh ruang Unicode
  • Unicode Utilities menyediakan sebilangan alat dalam talian yang menarik dan berguna untuk bekerjasama dengan Unicode
  • Edicode menyediakan papan kekunci Unicode dalam talian yang fleksibel untuk menaip teks menggunakan pelbagai skrip antarabangsa
  • Quickkey adalah peluasan papan kekunci yang fleksibel untuk menaip 65,000 watak Unicode pertama yang ditentukan
  • Unicode Code Converter menukar kod aksara yang dimasukkan ke dalam beberapa pengekodan watak yang sama
  • CharFunk adalah utiliti JavaScript untuk melakukan sejumlah pemeriksaan dan operasi menarik pada watak Unicode
  • Kreative Recode mengubah fail teks dari pelbagai pengekodan menjadi Unicode
  • BabelMap Online menyediakan papan kekunci Unicode dalam penyemak imbas, dengan output dalam watak paparan serta pengekodan hex atau perpuluhan

Penyunting Teks dan Kod

Sebahagian besar editor teks, editor kod, dan IDE hari ini menggunakan Unicode secara lalai, atau dapat menangani Unicode dengan mudah. Sublime, Notepad ++, Atom, dan Eclipse semuanya ditetapkan ke UTF-8 sebagai pengekodan watak lalai. Vim dan Emacs mungkin memerlukan perubahan tetapan untuk menggunakan UTF-8:

  • Menggunakan Unicode dengan Emacs
  • Menggunakan Unicode dengan Vim

Terdapat juga sebilangan kecil penyunting kod dan teks yang direka khusus untuk menangani set watak Unicode yang diperluas:

  • MinEd adalah editor teks Unicode dengan sokongan kontekstual untuk memasukkan watak dari pelbagai ruang watak Unicode
  • Pengarang Teks Klasik adalah penyunting lanjutan untuk bekerja dengan edisi teks yang kritis dan ilmiah, termasuk teks pelbagai bahasa menggunakan pelbagai set watak Unicode

Fon Unicode

Hubungan antara fon dan Unicode agak serong. Unicode diciptakan agar serasi dengan ASCII – teks yang diformat dalam ASCII dapat di-decode sebagai Unicode dengan hampir tidak ada masalah. Dan teks yang dikodkan Unicode dapat ditampilkan menggunakan fon ASCII, asalkan hanya sekumpulan karakter kecil yang muncul di ASCII yang digunakan.

Hari ini, kebanyakan fon yang terdapat di kebanyakan komputer dikodkan dengan Unicode. Jadi, dari sudut pandangan itu, kebanyakan fon adalah “fon Unicode.” Walau bagaimanapun, kebanyakan fon tidak menyokong set standard Unicode penuh yang sangat besar.

Biasanya, ini tidak menjadi masalah; seseorang yang menulis teks dalam pelbagai bahasa, atau dengan kumpulan aksara yang diperluas, mungkin menggunakan beberapa fon yang berbeza – satu untuk skrip Latin, yang lain untuk setiap bahasa CJK, dan yang lain untuk simbol matematik (misalnya). Walau bagaimanapun, kadang-kadang berguna untuk mempunyai fon tunggal yang mengandungi peratusan besar ruang watak Unicode. Ini mungkin diperlukan ketika bekerja di lingkungan teks biasa dan kode sumber di mana penggunaan beberapa fon tidak dapat dilaksanakan, atau ketika perpaduan visual antara beberapa skrip sangat penting.

Berikut adalah projek fon yang paling terkenal yang memberikan sokongan Unicode yang diperluas. Untuk senarai yang lebih lengkap, termasuk fon yang tidak berfungsi dan tidak digunakan lagi, lihat halaman fon Unicode ini. Untuk menaip bahasa Asia, lihat senarai fon CJK ini.

  • Everson Mono adalah fon monospace yang dibuat oleh salah satu pencetus standard Unicode; tujuan yang dinyatakan adalah untuk menyediakan glyph untuk seberapa banyak ruang watak Unicode, dan (pada penulisan ini) 92 blok watak Unicode disokong.
  • Noto adalah sekumpulan besar fon paparan, yang dikembangkan oleh Google, yang bersama-sama memberikan sokongan untuk sebilangan besar set watak Unicode, dengan tujuan untuk akhirnya menyokong keseluruhan standard Unicode.
  • Deja Vu Fonts adalah keluarga fon yang memberikan liputan luas standard Unicode, dengan versi Serif, Sans, dan Monospace.
  • GNU FreeFont adalah sekumpulan fon, menyediakan wajah jenis Serif, Sans, dan Mono untuk 37 sistem tulisan dan 12 julat simbol Unicode.
  • GNU Unifont adalah fon monospace, bitmap dengan liputan lengkap untuk Unicode 8.0 Basic Multilingual Plane dan luas, tetapi tidak lengkap, liputan untuk Tambahan Multilingual Plane.

Terdapat juga sejumlah fon menarik yang menyandikan subset standard Unicode tertentu untuk penggunaan khusus.

  • Junicode adalah sekumpulan fon untuk Abad Pertengahan
  • Last Resort adalah “fon pilihan terakhir”; bukannya glyph watak konvensional, setiap glyph sebenarnya memaparkan maklumat mengenai watak Unicode itu sendiri
  • Unicode Fonts for Ancient Scripts adalah projek untuk membuat satu set fon untuk beberapa huruf kuno dan klasik
  • Unimath Plus menyediakan sekumpulan simbol sains dan matematik

Dan berikut adalah beberapa sumber fon Unicode tambahan, jika anda masih tidak dapat mencari apa yang anda cari:

  • SIL Font sejumlah fon untuk pelbagai bahasa yang tidak disokong, yang dibuat oleh SIL International, sebuah komuniti bahasa minoriti yang melayani bukan keuntungan global
  • Julat watak Unicode dan fon Unicode yang menyokongnya akan membantu anda mencari fon untuk pelbagai jenis watak Unicode.

Sumber Emoji

Emoji adalah wajah senyum kecil yang lucu dan tanda-tanda yang boleh anda masukkan ke dalam mesej teks anda. Mereka sebenarnya adalah sebahagian daripada standard Unicode. Bahagian Emoji dari Unicode tidak disokong secara universal, jadi jika anda ingin memasukkan Emoji ke dalam aplikasi atau laman web anda, anda mungkin memerlukan bantuan. Berikut adalah sumber yang akan membantu anda menggunakan dan membina emoji Unicode.

Rujukan Emoji

  • Emojipedia adalah pangkalan data yang boleh dicari dengan watak Emoji
  • Bolehkah saya Emoji? memberikan maklumat mengenai sokongan asli untuk emoji Unicode pada iOS, Android, OS X, dan Windows, serta penyemak imbas utama
  • WTF Emoji Foundation adalah organisasi yang agak serius yang ditujukan untuk kemajuan emoji; mereka menjalankan Kamus Emoji.
  • Lembaran cheat Emoji memberikan rujukan ringkas untuk kod jenis Emoji

Perpustakaan Emoji

  • Sertakan Emoji dalam aplikasi, dan terjemahkan antara beberapa standard vendor, dengan pustaka Emoji PHP ini; atau cuba pustaka emoji PHP7 ini yang membolehkan anda merujuk Emoji dengan nama dalam kod anda
  • Emoji untuk Python menyokong emoji Unicode rasmi dan beberapa set alias; Pembangun Django juga dapat menggunakan pakej django-emoji
  • Emoji Golang memberikan sokongan Emoji untuk bahasa pengaturcaraan Go
  • terdapat beberapa permata untuk sokongan Emoji di Ruby, tetapi yang oleh Github mungkin yang terbaik untuk digunakan
  • Emoji-Java memberikan sokongan Emoji di Java
  • Coloremoji.sty memudahkan untuk memasukkan Emoji warna penuh dalam dokumen LaTeX
  • Npm, sistem pengurusan pakej untuk Node.js mempunyai beberapa pakej emoji:
    • Emoji dan emoji nod memberikan sokongan asas untuk emoji,
    • Ember-cli-emoji bekerjasama dengan Emojify.js untuk menyediakan pembantu emoji ke aplikasi Ember.js anda
    • Markdown-it-emoji menambahkan emoji untuk menyokong penghuraian markdown-it Markdown
  • Sintaks Emoji adalah perpustakaan konyol untuk penyunting teks Atom yang menambahkan emoji pada baris kod berdasarkan maknanya.

Papan Kekunci dan Koleksi Emoji

  • EmojiXpress untuk iOS adalah koleksi Emoji dan papan kekunci untuk iPhone
  • Emojione adalah koleksi Emoji merentas platform dengan karya seni berlesen Creative Commons percuma untuk pemaju
  • iDiversicons menyediakan pelbagai watak Emoji yang pelbagai, dan papan kekunci iPhone.

Jenis MIME

MIME bermaksud “Sambungan Mel Internet Serbaguna”. Ini adalah standard Internet yang digunakan untuk mengenal pasti pelbagai jenis fail yang dihantar dalam talian. Pada asalnya, ia dikembangkan untuk e-mel yang dikirim melalui SMTP (Simple Mail Transfer Protocol) yang merupakan standard Internet untuk penghantaran e-mel. Pada masa kini, MIME sangat penting dalam protokol komunikasi lain seperti HTTP.

Sejarah MIME

Kami telah membincangkan sejarah pengekodan ASCII dan watak. Tetapi ada banyak lagi kisah menghantar maklumat daripada ini.

Seiring berjalannya waktu, mesej kami mula menjadi lebih kompleks dan menjadi jelas bahawa format standard ini tidak mencukupi. Gambar multimedia yang mengandungi fail audio atau video sama sekali tidak ditentukan. Hal yang sama berlaku untuk bahasa yang tidak menggunakan abjad Inggeris. Keadaan akhirnya mula berubah ketika dua orang bergabung: Nathaniel Borenstein dan Ned Freed.

Cadangan mereka mentakrifkan semula format mesej untuk membolehkan e-mel mengandungi banyak objek dalam satu mesej; penggunaan watak bukan ASCII dan juga bahasa bukan Inggeris; dan penggunaan gambar, audio, dan video. Ini adalah kelahiran MIME yang menjadi standard rasmi pada tahun 1993.

Cadangan itu juga menetapkan standard pengekodan yang 7bit, 8bit, base64, binari, dan dicetak sebut harga. Piawaian pengekodan tersebut seharusnya memastikan semua data benar-benar dikirim. Ini juga termasuk informasi mengenai penggunaan tajuk Jenis Konten yang diperlukan untuk mengenali jenis data yang dikirimkan dengan tepat.

Apakah Jenis MIME?

Jenis MIME adalah pengecam yang digunakan untuk mengenal pasti banyak format fail yang dihantar setiap hari di Internet. Mereka diseragamkan oleh IANA (Internet Assigned Numbers Authority). Jenis MIME pertama kali didefinisikan dan dinamakan demikian dalam Request for Comments: 2045 (RFC 2045) yang diterbitkan oleh IETF (Internet Engineering Task Force) yang merupakan cadangan rasmi yang dikemukakan oleh Borenstein dan Freed.

Struktur

Jenis MIME terdiri daripada jenis dan subjenis yang merupakan dua rentetan yang dipisahkan oleh garis miring ke depan. Jenis mewakili kategori dan boleh diskrit atau berbilang bahagian. Setiap jenis mempunyai subjenis tertentu. Secara tradisional, jenis MIME ditulis dengan huruf kecil.

Jenis diskrit merangkumi teks, gambar, audio, video, dan aplikasi. Jenis pelbagai bahagian mewakili kategori dokumen yang dipecah menjadi bahagian yang berbeza dan sering merangkumi jenis MIME yang berbeza. Mereka merangkumi data bentuk dan byteranges.

Beberapa jenis MIME diawali dengan x atau vnd. Awalan x bermaksud ia belum didaftarkan dengan IANA dan vnd menandakan awalan khusus vendor.

Jenis MIME Biasa

Permohonan:

  • aplikasi / msword (.doc)
  • application / vnd.openxmlformats-officedocument.wordprocessingml.document (.docx)
  • application / vnd.openxmlformats-officedocument.wordprocessingml.template (.dotx)
  • aplikasi / vnd.ms-powerpoint (.ppt)
  • aplikasi / ekkrip (.es)
  • aplikasi / x-javascript (.js)
  • aplikasi / octet-stream (.bin, .exe)
  • aplikasi / pdf (.pdf)
  • aplikasi / tulisan hantaran (.ps, .ai, .eps)
  • aplikasi / rtf (.rtf)
  • aplikasi / x-gtar (.gtar)
  • aplikasi / x-gzip (.gz)
  • aplikasi / x-java-arkib (.jar)
  • aplikasi / x-java-serialized-object (.ser)
  • aplikasi / x-java-vm (.class)
  • aplikasi / x-tar (.tar)
  • aplikasi / zip (.zip)
  • aplikasi / x-7z-dimampatkan (.7z)
  • aplikasi / x-rar-dimampatkan (.rar)
  • aplikasi / x-shockwave-flash (.swf)
  • aplikasi / vnd.android.package-archive (.apk)
  • aplikasi / x-bittorrent (.torrent)
  • aplikasi / epub + zip (.epub)
  • aplikasi / vnd.ms-excel (.xsl)
  • aplikasi / x-font-ttf (.tff)
  • aplikasi / rss + xml (.rss, .xml)
  • application / vnd.adobe.air-application-installer-package + zip (.air)
  • aplikasi / pakej x-debian (.deb)
  • aplikasi / json (.json)

Audio:

  • audio / x-midi (.mid, .midi)
  • audio / x-wav (.wav)
  • audio / mp4 (.mp4a)
  • audio / ogg (.ogg)
  • audio / mpeg (.mp3)

Imej:

  • gambar / bmp (.bmp)
  • gambar / gif (.gif)
  • gambar / jpeg (.jpeg, .jpg, .jpe)
  • gambar / tiff (.tiff, .tif)
  • gambar / x-xbitmap (.xbm)
  • gambar / ikon-x (.ico)
  • gambar / svg + xml (.svg)
  • gambar / png (.png)

Teks:

  • teks / html (.htm, .html)
  • teks / biasa (.txt)
  • teks / teks kaya (.rtf, .rtx)
  • teks / css (.css)
  • teks / csv (.csv)
  • teks / kalendar (.ics)

Video:

  • video / mpeg (.mpg, .mpeg, .mpe)
  • video / ogg (.ogv)
  • video / masa cepat (.qt, .mov)
  • video / x-msvideo (.avi)
  • video / mp4 (.mp4)
  • video / webm (.webm)

Sumber

Jenis MIME membolehkan kami mendapat pengalaman e-mel yang lebih baik dan lebih kaya. Senarai sumber berikut akan membantu anda mengetahui dengan lebih mendalam mengenai bagaimana dan mengapa sumber tersebut wujud serta cara mengkonfigurasi pelayan web dengan betul untuk sokongan jenis MIME, dan banyak lagi.

Sumber Dalam Talian

Senarai berikut merangkumi pautan ke cadangan lima bahagian yang menjadi draf standard untuk MIME.

  • RFC 2045 (PDF): bahagian pertama cadangan menentukan pelbagai tajuk yang digunakan untuk menggambarkan struktur mesej MIME.
  • RFC 2046 (PDF): dokumen kedua menentukan struktur umum sistem taip media MIME dan set awal jenis media.
  • RFC 2047 (PDF): bahagian ketiga cadangan menerangkan peluasan yang membenarkan data teks bukan AS-ASCII dalam bidang tajuk surat Internet.
  • RFC 2048 (PDF): bahagian keempat menerangkan bagaimana jenis MIME baru dapat didaftarkan dengan IANA.
  • RFC 2049 (PDF): dokumen kelima menerangkan kriteria pematuhan MIME dengan contoh format mesej MIME.
  • Jenis Media: senarai lengkap semua jenis media, yang juga merangkumi pautan ke aplikasi untuk mendaftarkan jenis media baru.
  • The MIME Guys: Bagaimana Dua Guru Internet Mengubah E-mel Selamanya: sebuah artikel berdasarkan wawancara dengan Nathaniel Borenstein dan Ned Freed yang memberikan pandangan menarik mengenai karya mereka.

Tutorial

Sumber berikut menyediakan tutorial berguna untuk menangani jenis MIME, konfigurasi pelayan yang betul, dan banyak lagi.

  • Mengkonfigurasi Jenis MIME Server dengan betul: membincangkan mengapa master web harus berhati-hati untuk mengkonfigurasi pelayan web mereka dengan betul kerana jenis MIME baru sedang ditambahkan, terutama untuk penyemak imbas berasaskan tokek.
  • Format media yang disokong oleh elemen audio dan video HTML: menyediakan senarai jenis MIME yang disokong oleh elemen audio dan video baru dalam HTML5
  • Apa itu MIME mengendus: artikel ini memberikan penjelasan menyeluruh tentang MIME mengendus dan bagaimana menghindari kerentanan yang berkaitan dengannya.
  • Jenis MIME Dijelaskan: Mengapa Linux dan Mac OS X Tidak Memerlukan Sambungan Fail: bacaan menarik yang menerangkan salah satu perbezaan antara komputer Windows dan komputer Linux / Mac OS X.
  • Memilih Jenis MIME yang betul untuk JavaScript: pada masa ini terdapat lebih daripada satu jenis MIME untuk JavaScript. Tutorial ini akan memberi anda penjelasan mengenai kes penggunaan untuk masing-masing.

Buku

Walaupun tidak ada buku yang didedikasikan semata-mata untuk jenis MIME, masih ada sejumlah buku mengenai topik yang berkait rapat yang mendedikasikan beberapa bab untuk mereka.

  • Protokol, Piawaian dan Pelaksanaan E-mel Internet (1998) oleh Lawrence Hughes: yang ditujukan kepada pengguna yang lebih maju, buku ini memperkuat pengetahuan tentang konsep penting yang diperlukan untuk membangunkan perisian e-mel dan menerangkan secara mendalam tentang protokol dan peluasan e-mel Internet utama seperti SMTP, POP3, IMAP , MIME, dan DSN.
  • Pengaturcaraan E-mel Internet (1999) oleh David Wood: panduan penting yang merangkumi semua konsep penting yang diperlukan untuk membina aplikasi di atas kemampuan e-mel. Topik yang diliputi merangkumi pelbagai protokol e-mel, format e-mel termasuk jenis MIME, dan banyak contoh.
  • Piawaian E-mel Penting (1999) oleh Peter Loshin: buku ini mesti dimiliki oleh sesiapa sahaja yang ingin mendapatkan pemahaman mendalam mengenai standard e-mel. Ia memberikan analisis menyeluruh mengenai RFC terpenting yang diterbitkan oleh IETF serta potensi penggunaannya. Ini juga merangkumi versi digital buku yang boleh dicari sepenuhnya dalam CD.
  • MH & xmh (2006) oleh Jerry Peek: buku ini boleh didapati secara dalam talian secara percuma dan diterbitkan di bawah lesen GNU-GPL. Bab ketiga menerangkan dengan terperinci jenis MIME dan mesej berbilang bahagian

Alat

Pautan di bawah mempunyai beberapa alat berguna untuk memeriksa kesahan jenis MIME.

  • Apa Jenis MIME Yang Disokong oleh Penyemak Imbas Saya: alat dalam talian yang akan memberitahu anda jenis MIME yang disokong oleh penyemak imbas anda sebaik sahaja anda memuatkan halaman.
  • MIME Validator: pengesah MIME dalam talian percuma yang memeriksa pematuhan mesej MIME dengan piawaian IETF.
  • Apa MIME: pemeriksa dalam talian percuma lain untuk sebarang fail.

Luaskan Pengetahuan Anda mengenai Jenis MIME

Jenis MIME mungkin kelihatan tidak penting di permukaan tetapi ia membawa perubahan besar dalam cara pemesejan e-mel kita berfungsi. Senarai sumber ini harus menimbulkan rasa ingin tahu anda dan memberi anda pemahaman yang lebih mendalam tentang bagaimana e-mel dan fail yang dihantar melalui Internet telah berubah selama bertahun-tahun.

Ringkasan

Kebanyakan orang hanya menaip dan tidak terlalu memikirkan apa yang berlaku. Beberapa yang terpilih untuk memikirkan kebaikan reka bentuk fon dan tipografi.

Tetapi jumlah yang lebih kecil adalah jumlah orang yang tahu, atau berminat untuk mengetahui, apa yang berlaku di sebalik tabir – bagaimana menekan kekunci menjadi huruf di skrin komputer mereka.

Bagi orang lain, ia adalah telus atau remeh.

Tetapi seperti yang telah kami tunjukkan, proses merepresentasikan bahasa hampir tidak sepele, dan sejumlah besar pekerjaan telah dilakukan untuk menjadikannya sepantasnya. Unicode Consortium, bersama dengan banyak pembangun, pereka, dan ahli bahasa, memungkinkan setiap orang menulis watak apa pun, dari bahasa apa pun, dalam skrip apa pun, di komputer mana pun.

Ini adalah pencapaian penting, dan langkah yang perlu ke arah literasi sejagat dan akses sejagat ke komputer dan internet.

Soalan Lazim

Q. Apakah perbezaan antara ASCII, Unicode, dan UTF-8?

A. ASCII adalah standard lama dari tahun 1960-an, sedangkan Unicode wujud pada akhir 1980-an.

ASCII hanya 128 atau 256 aksara, tetapi Unicode mempunyai lebih dari 10,000.

Unicode adalah jadual watak, UTF-8 (atau UTF-16 atau UTF-32) adalah tahap pengekodan. Unicode 0-256 dan ASCII hampir sama, dengan hanya beberapa perbezaan kecil pada watak kawalan.

UTF-8 adalah pengekodan yang paling biasa di web hari ini – dan lalai.

Q. Adakah saya perlu menyatakan jenis pengekodan yang saya gunakan untuk laman web saya?

A. Hanya jika anda tahu anda perlu menggunakan jenis pengekodan yang unik.

Sekiranya anda tidak menyatakannya, kebanyakan penyemak imbas akan lalai ke UTF-8. Sekiranya anda membuat laman web dalam bahasa asing, terutama yang bukan bahasa Latin, pastikan bahawa anda menggunakan UTF-8 atau memilih kararset khas.

Q. Adakah saya perlu menghafal sebarang kod ASCII untuk menulis HTML?

A. Hanya jika anda berusaha menjadi sangat cekap.

Sebilangan besar laman web hari ini bersifat dinamik dan menghasilkan HTML untuk anda, melalui sistem seperti sistem pengurusan kandungan (CMS). Sekiranya anda seorang pembangun, anda mungkin akan menggunakan bahasa pengaturcaraan lain selain HTML, dan bahasa-bahasa tersebut mungkin mempunyai cara khas untuk menghasilkan simbol ASCII tersebut.

Akhirnya, seperti yang dibincangkan di atas, banyak kod tersebut menggunakan nama watak khas dalam HTML dan bukannya nombor ASCII.

Q. Adakah pengekodan watak berbeza pada sistem operasi yang berbeza?

A. Agak lama.

Unicode sedikit berbeza pada Windows vs Unix / Linux. Sebagai contoh, Windows menggunakan UTF-16LE sementara Linux biasanya menggunakan UTF-8.

Sudah tentu, pengekodan yang digunakan oleh sistem operasi anda mungkin berbeza dengan pengekodan di laman web, tetapi OS dan penyemak imbas web anda bekerjasama untuk menukar kod watak menjadi sesuatu yang dapat dipaparkan oleh komputer anda.

Kadang kala, dalam sistem operasi yang lebih lama, penukaran ini mungkin tidak berfungsi dan anda hanya akan melihat watak kosong. (Contohnya, ini adalah sesuatu yang mungkin anda lihat mengunjungi laman web asing di Windows XP.)

Q. ASCII Art memang hebat! Di mana saya boleh membuat sendiri?

A. AsciiWorld.com mempunyai beberapa galeri dan alat hebat di bahagian perisian mereka, seperti penukar dan “pelukis.” Berseronok!

Barang Menarik Lain

Kami mempunyai lebih banyak panduan, tutorial, dan infografik yang berkaitan dengan pengekodan dan pembangunan laman web:

  • CSS3 – Pengenalan, Panduan dan Sumber: ini adalah tempat yang bagus untuk memulakan pembelajaran susun atur halaman web.

  • Pengenalan dan Sumber PostScript: pelajari semua tentang bahasa paparan halaman yang mengubah dunia.

  • Lorem Ipsum: pelajari cara menggunakan “dummy text” untuk reka bentuk anda sebelum kandungannya ditulis.

HTML untuk Pemula – Panduan Muktamad

Sekiranya anda benar-benar ingin belajar HTML, kami telah membuat artikel sepanjang buku, HTML for Beginners – Ultimate Guide. Dan ia adalah panduan utama; ia akan membawa anda dari awal ke penguasaan.

HTML untuk Pemula - Panduan Muktamad
HTML untuk Pemula – Panduan Muktamad

Trend Reka Bentuk Web yang Anda Tidak Akan Lupakan

Sebelum Unicode, biasa mengunjungi laman web di mana semua teks diwakili oleh kotak kosong. Perkara telah banyak berubah. Dalam Trend Reka Bentuk Web infografik kami, Anda Tidak Akan Lupa, kami menjalani bagaimana dulu web.

Trend Reka Bentuk Web yang Tidak Akan Anda Lupakan
Trend Reka Bentuk Web yang Anda Tidak Akan Lupakan

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me
    Like this post? Please share to your friends:
    Adblock
    detector
    map