ASCII kóðun: byrjendur, nýliði…. Við höfum allar þær upplýsingar sem þú þarft hér.

Birting: Stuðningur þinn hjálpar til við að halda vefnum í gangi! Við þénum tilvísunargjald fyrir sumar þjónusturnar sem við mælum með á þessari síðu.


ASCII er tegund stafakóðunar sem er notuð fyrir tölvur til að geyma og sækja stafi (bókstafi, tölur, tákn, bil, inndráttur osfrv.) Sem bitamynstur til geymslu í minni og á harða diska.

„Persónuskóðun“ á háu stigi þýðir að umbreyta tákns í tvíundatölu og nota „stafakort“ til að lesa tvíundatölu sem bókstafstegund.

Og MIME gerðir gera notendum kleift að senda gögn umfram stafi, eins og myndir og myndbönd.

ASCII, stafakóðun, MIME tegundir

Persónuskóðun

Elstu form stafakóðunar nær eins langt aftur og rafsegulgeislinn. Reyndar, Morse kóða og síðar Baudot kóðinn voru nokkrir fyrstu stöðluðu stafakóðarnir sem nokkru sinni voru búnir til.

Annað lag af kóðun sem kallað er dulkóðun eða dulkóðun var einnig komið á fót af herdeildum þess tíma, en það er nokkuð annað efni.

Það var ekki fyrr en á sjötta áratugnum sem við hófum nútímaferlið í átt að ASCII. IBM byrjaði á þessu með því að þróa kóðunarkerfi til notkunar í 7000 Series tölvum þeirra.

Binary Coded Decimal frá IBM (BCD) notaði fjögurra bita kóðun á kýlakortum. Þetta var leið til að geyma aukastaf á tvöföldu formi.

Svo í stað þess að tölur gangi frá 0000 (0) til 1111 (15), hlupu þær frá 0000 (0) til 1001 (9) – hver fjórir bitar tákna staka tölustafi.

Síðar bjó IBM til viðbótarútgáfuna af BCD sem kallast Extended Binary Coded Decimal Interchange Code (EBCDIC). Þetta var 8 bita kóðunarkerfi fyrir alla staðlaða prentaða stafi.

Sama ár, 1963, var ASCII kynnt.

Það notar 7 bita kóðunaráætlun. Það táknar 128 mismunandi tölur.

Þetta 7 bita númerasnið gæti virst skrýtið. Þegar öllu er á botninn hvolft eru tölvur ekki allar 8-bita eða 16-bita eða 32-bita og svo framvegis?

Í dag eru þeir. En snemma tölvur voru ekki smíðaðar á þann hátt.

Það sem meira er, minni í tölvum var dýrmætt og það var engin ástæða til að nota aukabita ef þú þarft ekki á því að halda. 6 bita kóða (sem til var) myndi ekki taka til allra há- og lágstafa, tölustafa og grunn greinarmerki. En 7-bita kóða gerði það – með plássi til vara.

Sem tölvur til að koma sér fyrir í 8 bita (1 bæti) uppbyggingu breyttist ASCII smám saman í óopinber 8 bita kóða, þar sem hinir 128 stafirnir voru ekki staðlaðir.

Þetta ástand hélst í nokkurn tíma. Árið 1991 varð 8-bita opinbert snið eins og viðhaldið var af ISO (International Organization for Standardization) fyrir UTF-8.

Áskorunin sem kom upp á þessum tíma var þó sú að aðeins eitt stafróf var hægt að styðja með 7 eða 8 bita kóðun.

Til að styðja við breiðari tungumál, var Unicode kóðunarskipið búið til, ásamt Universal Character Set. Unicode er með nokkrar kóðunartegundir, UTF-8 er 8-bita kóðunin sem er samhæfð ASCII og hefur hækkað í stað ASCII sem ríkjandi stafakóðunarstaðals á vefnum í dag.

Vöxtur UTF-8

Að auki hafa UTF-16 og UTF-32 verið notaðir fyrir tungumál með mikið af stöfum. Samt sem áður er hægt að sýna kínversku, japönsku og arabísku í UTF-8.

Fyrir vikið er UTF-8 langalgengasta kóðunarformið á vefnum. Og fyrir enskumælandi eru hlutirnir sérstaklega auðveldir vegna þess að fyrstu 128 stafirnir í ASCII eru þeir sömu og í Unicode.

Svo til notkunar í HTML mun það að vísa til ASCII töflu til að búa til persónu virka óháð því hvaða kóðunarformi þú ert að nota.

Þar sem ASCII passar inn

ASCII stendur fyrir „American Standard Code for Information Interchange“ og var stofnaður af American Standards Association (seinna breytti nafnið American National Standards Institute).

ASCII staðallinn var byrjaður árið 1960 og gefinn út árið 1963. Hann var framlenging á símsvörunarkóða og var fyrst notaður af Bell gagnaþjónustu.

Miklar endurskoðanir voru gerðar í gegnum tíðina. Fram til ársins 2007 var það mest notaða stafakóðun á vefnum, en henni var skipt út fyrir UTF-8.

Skipting vefsins frá ASCII og ANSI frá Microsoft í átt að UTF-8 má að mestu leyti rekja til frumkvæða frá Google þar sem netnotkun var að verða alþjóðlegri og ASCII gat aðeins sýnt latneska stafi.

Það sem er mikilvægt að hafa í huga er að UTF-8 er tegund kóðunar en Unicode er stafasettið; vegna þess að fyrstu 128 stafirnir í Unicode eru þeir sömu og ASCII er ásættanlegt að vísa til ASCII töflu þegar stafir eru búnir til í HTML.

ASCII hefur getu til að nota „flóttaröð“ við að sýna aðrar stafróf sem gerðu það kleift að verða alþjóðlegur staðall, en Unicode sér um þetta beint.

Unicode er upprunnið frá Apple árið 1987 og varð verkefni Unicode Consortium árið 1991. ASCII var stofnað af ASA, en frekari betrumbætur á því héldu áfram sem hluti af yfirlýsingum frá ISO.

Kóðunarheitið UTF-8 er notað af öllum stöðlum sem eru í samræmi við Internet Assigned Numbers Authority (IANA) sem þýðir allt HTML, CSS og XML. IANA er deild stærri ICANN, sem er rekin í hagnaðarskyni sem ákvarðar netsamskiptareglur og lén.

Til að draga saman, ASCII þróaðist úr símanúmeri á sjöunda áratugnum, ólst upp og varð hluti af Unicode stafasettinu, sem er notað af UTF-8, mest ríkjandi kóðunarsnið á vefnum.

Lén og vefsíðukóði eru háð því að þetta sameinaða stafakort virki rétt.

Þetta þýðir að við rót nútímans er nú til stafagerð sem fundin var upp á 1870, tölvustýrð sem ASCII á sjöunda áratugnum, nútímavædd fyrir vefinn með Unicode á tíunda áratugnum og samþykkt í stórum dráttum með meirihluta UTF-8 árið 2007.

Stjórna persónur vs prentanlegar persónur

Það eru tvenns konar stafir í ASCII, prentanlegir stafir og stafi.

Stýribreytirnir skilgreina tölur 0-31 og 127. Stýribreyturnar innihalda alla þá hluta ritunar sem gera ráð fyrir nýjum málsgreinum, flipum, endalínum, skráaskilum og fullt af stykki sem eru aðallega gegnsæir.

Þessir stjórnpersónur voru búnir til á sama tíma og prentuð kort voru stór hluti af tölvunarferlinu. Nokkrum af þessum eiginleikum hefur síðan verið skipt út, en mikið af línusniðhlutunum er enn til í dag. Kóði 127 er í raun kóðinn til að eyða (aðeins í raunverulegu ASCII, ekki ANSI eða Unicode).

Allir stafir sem hægt er að prenta eru það sem þú gætir búist við. Það eru allir lágstafir (a-z) og hástafir (A-Z), ásamt tölum, táknum og greinarmerki – í raun allt sem sést á dæmigerðu lyklaborði. Þessar meginpersónur samanstanda af öllum skrifuðum orðum.

Notkun ASCII í XML og HTML

Hver HTML síða er með stafatengd sniði sem henni er úthlutað.

HTML-kóðunin er sjálfgefin UTF-8 nema annað sé tekið fram. Til að nota hreint ASCII, eða ANSI, eða sérhæft, einstakt snið, það eina sem þarf að gera er að hafa yfirlýsingu í metategund.

Fyrir HTML 4:

Fyrir HTML5:

Í stafatákninu geturðu notað UTF-8, ANSI eða ASCII með því að nota charset ="us-ascii" eða þú gætir flett upp sérstöku stafasetti sem á að nota, venjulega með því að lýsa upp ISO númer. Heilan lista er að finna á IANA stafasíðunni.

Persónukóðainnsetningarform

Almennt, þó, þegar einhver vísar til þess að nota ASCII kóðann, þá viltu að þeir skýri hvort þeir meina SANNT US-ASCII með meta-tag, eða hvort þeir séu bara að biðja þig um að sýna sérstaka staf.

Í HTML, hvenær sem þú vilt nota sérstakan staf, eins og til dæmis sent táknið (¢) eða hvolft spurningarmerki staf (¿) – myndirðu almennt geta notað Unicode tákn eða US-ASCII (8 bita) staf með því að slá inn tilvísun eins og þessa:

¢ í HTML lítur út eins og: ¢

¿Í HTML lítur út: ¿

Svo þú byrjar með &# á eftir fjögurra stafa tölu, kláraði með hálfkollu (;).

Á þennan hátt geturðu sýnt stafi út frá ASCII / Unicode númerinu.

Auðvitað munu stjórnunarstafir framkvæma formunaraðgerð eða virka alls ekki, allt eftir því hvaða þú notar og hvaða raunverulegu stafasett þú hefur skráð í metatagginu þínu.

Svo í HTML sérðu „&# ”Númer, en þegar það birtist í vafranum þínum sérðu stafinn.

Sérstök HTML stafir

Nú skulum við segja til dæmis að þú viljir bara sýna & tákn á síðunni þinni.

Þú getur ekki bara slegið það inn í HTML heldur geturðu slegið inn samsvarandi ASCII eða Unicode.

HTML er álagningar tungumál, þannig að þó venjulegir stafir virki fínt, eru sértákn og sérstaklega < > sviga – eru mjög mikilvæg fyrir hvernig vafrinn les og sýnir HTML.

Þú þarft þó ekki alltaf að slá inn Unicode / ASCII tilvísunarnúmerið. Fyrir HTML 4.0 og nýrri eru sérstakir aðilar sem virka svipað og Unicode tilvísun, en í stað þess að leggja númer á minnið þá leggið þið orð á minnið.

¢ í HTML lítur út eins og: ¢

¿ í HTML lítur út eins og: ¿

Heilan lista yfir þessar persónutilvísanir er að finna á W3 samtökunum.

Tilvísunartafla

Með öllu þessu aðdraganda gætirðu verið að leita að auðveldum stað til að finna ASCII eða Unicode tilvísun. Horfðu ekki lengra, við höfum tilvísanir 000-127 hér og þú getur fundið allt Unicode snið á Wikipedia.

Athugaðu að stafirnir 000-032 og 127 eru yfirleitt ekki prentanlegir og eru því táknaðir með „NA“.

ASCII

borð.wiht002 {
landamæri bil: 0px;
landamæri-hrun: hrun;
framlegð-vinstri: farartæki;
framlegð-hægri: farartæki;
framlegð-botn: 1,5 em;
texta-samræma: miðja;
}

borð, tr, td
{
padding: 0px;
framlegð: 0px;
}
td.bor
{
landamæri-vinstri: 1px solid # 000;
padding-vinstri: 1em;
framlegð til hægri: 1em;
}
td.break
{
framlegð-vinstri: 2em;
framlegð til hægri: 2em;
}
td.sep
{
landamæri-botn: 1px solid # 000;
}
td.sepbor
{
landamæri-botn: 1px solid # 000;
landamæri-vinstri: 1px solid # 000;
padding-vinstri: 1em;
framlegð til hægri: 1em;
}

0NA32NA64@@96``
1NA?33!!65AA97aa
2NA?34""66BB98bb
3NA?35##67. málCC99cc
4NA?36$$68DD100dd
5NA?37%%69EE101ee
6NA?38&&70FF102ff
7NA?3971GG103gg
8NA?40((72HH104hh
9NA41))73. málÉgÉg105ii
10NA42**74JJ106jj
11NA43++75KK107kk
12NA44,,76LL108ll
13NA4577MM109mm
14NA?46..78NN110nn
15NA?47//79OO111oo
16NA?480080BlsBls112blsbls
17NA?491181QQ113qq
18NA?502282RR114rr
19NA?513383SS115ss
20NA?524484TT116tt
21NA?535585UU117. máluu
22NA?546686VV118vv
23NA?557787WW119. málww
24NA?568888XX120xx
25NA?579989YY121yy
26NA?58::90ZZ122. málzz
27NA?59;;91[[123{{
28NA?60<<92. mál\\124||
29NA?61. mál==93. mál]]125}}
30NA?62>>94^^126. mál~~
31NA?63??95__127NA?

ASCII verkfæri og auðlindir

Það er mikil saga um hvernig stafakóðarnir þróuðust og samtökin sem halda þessum stöðlum saman fyrir okkur hin. Þegar flestir internetþróunaraðilar og W3C koma sér fyrir á UTF-8, í að minnsta kosti nánustu framtíð, er það hvernig síðurnar verða kóðaðar.

Þú þarft að hafa nokkur úrræði til að hjálpa þér þó að ef þú byrjar handvirkt kóðun á öðrum sniðum, eða það getur verið gaman bara að hafa yfirgripsmikla tilvísun í.

Listi yfir auðlindir

  • IANA stafatengir síðu

  • Sérstök HTML eftir W3 samtökin

  • Fullt Unicode snið á Wikipedia

  • ASCII tafla yfir aðeins 0130-0255

  • Saga ASCII á ASCII-heiminum

  • Listi yfir stafi af Unicode á Wikipedia.

ASCII gr

Engin yfirlit yfir ASCII væri heill án tilvísunar í ASCII list.

Hægt er að nota sérstakan hugbúnað, eða tákn handkóða, til að taka á sig mynd myndar sem notar ekkert nema tákn. Þessi tegund af áhrifum hefur verið fyrir hendi síðan á níunda áratugnum og gert vinsæl í kerfum eins og Commodore Amiga tölvunni.

Það er jafnvel gerður greinarmunur á „Oldskool“ ASCII list sem notar hreina ASCII í skipanalínunni, og „Newskool“ sem notar sértáknin í Unicode til að gera enn flóknari listaverk.

Hérna er mynd af höfði sebru:

ASCII Art Zebra

ISO-8859-1

ISO-8859-1 er stafakóðunarstaðall. Það var gefið út af Alþjóðlegu staðlastofnuninni (ISO) árið 1998 sem framlenging til ASCII.

ASCII og ISO-8859-1

Frægasti stafakóðunarstaðallinn er ASCII. ASCII notaði 7 bita af átta bita bæti til að umrita 128 grunn stafina sem notaðir voru til að skrifa ensku. Fjöldi kerfissértækra nota var þróaður fyrir áttunda (hár-röð) hluti.

Til dæmis notaði eitt kerfi það til að skipta á milli rómverskra og skáletrað prentunarstíll. Önnur kerfi notuðu það til að umrita fleiri stafi. Með því að nota alla átta bæti er hægt að umrita 256 stafi.

Þar sem upprunalega ASCII mengið innihélt ekki fjölda stafa sem þurfti til að skrifa á algeng tungumál ensku (svo sem stafi með díritíumerki), jók hún stafasettið til 256 til að auka mjög getu sína.

IS0-8859-1 er ein af þessum viðbótum. Það var ætlað að vera alþjóðlegur staðalbúnaður, þvert á vettvang. Þar sem það er yfirmót venjulegs 8-bita ASCII er það samhæft afturábak: Auðvelt er að afkóða skjal sem er kóðað í ASCII með því að nota ISO-8859-1.

ISO-8859-1 og HTML

Samkvæmt staðlinum var ISO-8859-1 sjálfgefið stafakóðunin í HTML 4. Flestir vafrar studdu þó yfirmót ISO-8859, kallað ANSI.

ANSI inniheldur 32 stafi til viðbótar sem voru tómar í ISO-8859-1. (Oftast þegar þú sérð lista yfir ISO-8859-1 stafi er það í raun fulli ANSI listinn.)

Í dag notar HTML5 staðallinn UTF-8, mjög stórt yfirborð sem inniheldur upprunalegu ASCII, ISO-8859-1 og ANSI kóðunina.

Flest enskumælandi HTML skjöl, jafnvel þau sem beinlínis lýsa yfir ISO-8859-1 eða UTF-8 sem stafasett, nota í raun minni ASCII stafasett. Það eru tvær ástæður fyrir þessu:

  • Hægt er að slá ASCII á venjulegu QWERTY hljómborð.

  • Margar af tæknunum sem notaðar eru til að búa til HTML styðja aðeins ASCII.

Þar sem ISO-8859-1 og UTF-8 eru báðir ASCII-samhæfir valda þetta venjulega ekki vandamálum.

ISO-8859-1 og persónueiningar

Hægt er að framleiða útbreidda stafina sem til eru í ISO-8859-1 í ASCII eingöngu skjali með því að nota HTML eðli einingar. Þetta eru strengir sem byrja á ampersandinu (“&”) Og ljúka með semíkommu (“; ”).

Til dæmis er hægt að umrita höfundarréttartáknið (hringinn með „C“ í því) með ISO-8859-1 eða UTF-8. En þar sem enginn „©“ lykill er á flestum hljómborðum finnst mörgum auðveldara að slá ©.

Þetta er geymt í skránni sem sex ASCII stafir: &, c, o, p, y og;. Vafrar birtir síðan viðeigandi ISO-8859-1 staf fyrir notandann.

Flestir stafir sem ekki eru ASCII ISO-8859-1 hafa nefnt HTML stafir. Þeir sem ekki gera það er hægt að slá inn með tölulegum kóða. Tölulegan kóða er í raun aukastafa (grunn 10) útgáfu tvöfaldrar kóðunar.

Til dæmis er höfundarréttartáknið kóðað sem 10101001 tvöfalt, sem er 169 í grunn 10. Svo þú gætir slegið © eða ©.

Stafir sem ekki eru ASCII í ISO-8859-1 og ANSI

Stafir 128-159 á þessu töflu eru ANSI stafir sem ekki eru í ISO-8859. Fyrstu 127 númerin í ISO-8859-1 / ANSI eru ekki með hér, þar sem þeir eru eins og ASCII, sem við höfum skráð hér að ofan.

Persóna
HTML nafn
HTML númer
Lýsing
evruskilti
eitt lágt 9 tilvitnunarmerki
ƒƒƒlágstafir f með krók
tvöfalt lágmark-9 tilvitnunarmerki
lárétta sporbaug
rýtingur
tvöfaldur rýtingur
ˆˆˆbreyti bréf circumflex hreim
á mille skilti
ŠŠŠhástaf S með karón
stak tilvitnun í vinstra horn
ŒŒŒhöfuðborg ligatur OE
ŽŽmyndatexti Z með Caron
eftir eitt tilvitnunarmerki
rétt eitt tilvitnunarmerki
vinstri tvöfalt gæsalapp
rétt tvöfalt gæsalapp
bullet
en þjóta
em þjóta
˜˜˜tilde
TM vörumerkismerki
šššlágstafir S með karón
tilvitnunarmerki með réttu horni
œœœlágstöfum ligature oe
žžlágstafur z með karón
ŸŸŸhástafur Y með tvíhverfi
 rýmislaust
¡ ¡ ¡öfugt upphrópunarmerki
¢ ¢ ¢sent skilti
£ £ £pund skilti (gjaldmiðill)
¤ ¤ ¤gjaldeyrismerki
¥ ¥ ¥jen / júan merki
¦ ¦ ¦brotinn lóðrétt bar
§ § §kafla skilti
¨ ¨ ¨diaeresis
© © ©höfundarréttarmerki
ª ª ªkvenlegur vígavísir
« « «vinstri gæsalappa með tvöföldum hornum (guillemet)
¬ ¬ ¬ekki undirrita (rökfræði)
­ ­ Deenmjúkur / matskenndur bandstrik
® ® ®skráð vörumerkismerki
¯ ¯ ¯bil macron / overline
° ° °gráðumerki
± ± ±plús / mínusmerki
² ² ²yfirskrift tvö (ferningur)
³ ³ ³yfirskrift þrjú (teningur)
´ ´ ´bráð hreim
µ µ µörmerki
málsgreinarmerki (pilcrow)
· · ·miðpunktur
¸ ¸ ¸cedilla
¹ ¹ ¹yfirskrift eitt
º º ºkarlkyns víddarvísir
» » »rétt gæsalappa með tvöföldum hornum (guillemet)
¼ ¼ ¼fjórðungs brot (1 yfir 4)
½ ½ ½hálft brot (1 yfir 2)
¾ ¾ ¾þriggja fjórðu brot (3 yfir 4)
¿ ¿ ¿öfugt spurningarmerki
À À Àhástaf A með alvarlegum hreim
Á Á Áhástaf A með brátt hreim
  Âhástaf A með ummál
à à Ãhástaf A með tilde
Ä Ä Ähástaf A með tvílitni
Å Å Åhástaf A með hring fyrir ofan
Æ Æ Æhöfuðborg AE ligatur
Ç Ç Çhástaf C með sedilla
È È Èhástaf E með alvarlegum hreim
É É Éhástaf E með bráðum hreim
Ê Ê Êhástaf E með ummál
Ë Ë Ëhástafur E með tvílitnað
Ì Ì Ìhástaf I með alvarlegum hreim
Í Í Íhástaf I með bráðum hreim
Î Î Îhástaf I með ummál
Ï Ï Ïhástaf I með diaeresis
Ð Ð Ðhástaf ETH (Dogecoin tákn)
Ñ Ñ Ñhástaf N með tilði
Ò Ò Òhástaf O með alvarlegum hreim
Ó Ó Óhástaf O með bráða hreim
Ô Ô Ôhástaf O með ummál
Õ Õ Õhástafi O með tilde
Ö Ö Öhástaf O með tvískiptingu
× × ×margföldunarmerki
Ø Ø Øhástafi O rista
Ù Ù Ùhástaf U með alvarlegum hreim
Ú Ú Úhástaf U með brátt hreim
Û Û Ûhástaf U með ummál
Ü Ü Ühástaf U með tvílitnað
Ý Ý Ýhástafur Y með brátt hreim
Þ Þ Þhástaf THORN
ß ß ßhástafir skarpar s (Eszett / scharfes S )
à à àlítill stafur a með grafalausum hreim
á á álágstafir a með brátt hreim
â â âlágstafir a með ummál
ã ã ãlágstafir a með tilde
ä ä älágstafir a með tvílitni
å å ålágstafir a með hring fyrir ofan
æ æ ælítill lítill lítill
ç ç çlágstafir c með sedillu (cé cédille)
è è èlágstafir e með alvarlegum hreim
é é élágstafir e með bráða hreim
ê ê êlágstafir e með circumflex
ë ë ëlágstafir e með diaeresis
ì ì ìlágstafir i með alvarlegum hreim
í í ílágstafir i með brátt hreim
î î îlágstafir i með circumflex
ï ï ïlágstafir i með diaeresis
ð / td> ðcode> ðlágstafir eth
ñ ñ ñlágstafur n með tilde
ò ò òlágstafir o með alvarlegum hreim
ó ó ólágstafir o með bráða hreim
ô ô ôlágstafir o með circumflex
õ õ õlágstafir o með tilde
ö ö ölágstafir o með tvílitni
÷ ÷ ÷deildarmerki
ø ø ølágstafir o með rista
ù ù ùlágstafir u með alvarlegum hreim
ú ú úlágstafir u með brátt hreim
û û ûlágstafir u með circumflex
ü ü ülágstafir u með tvíhverfingu
ý ý ýlágstafir y með brátt hreim
þ þ þlágstafadyr
ÿ ÿ ÿlágstafir y með tvíhverfi

Unicode

Unicode er staðall fyrir kóðun stafa sem stjórnað er af Unicode Consortium.

Eins og við höfum fjallað um geymir tölvukerfi ekki stafi (bókstafi, tölur, tákn) bókstaflega – það er engin örlítil mynd af hverjum staf í skjali á harða disknum þínum. Eins og þú ættir nú að vita, er hver persóna kóðuð sem röð tvöfaldra bita – 1s og 0s. Til dæmis er kóðinn fyrir lágstafinn „a“ 01100001.

En 01100001 er handahófskennt – það er ekkert sérstakt við þann streng af bitum sem ætti að gera það að bókstafnum „a“ – tölvuiðnaðurinn hefur sameiginlega samþykkt að það þýðir „a.“ Svo hvernig kemur öll atvinnugreinin saman um hvernig eigi að tákna allar mögulegar persónur? Með stafakóðunarstaðli. Kóðunarstaðall tilgreinir einfaldlega alla mögulega stafi sem eru tiltækir og úthlutar hverjum og einum bita af bita.

Það hafa verið nokkrir stafakóðunarstaðlar notaðir um allan heim á síðustu áratugum tölvunarfræði. Í langan tíma var ASCII, sem mest samþykkt var, almennt viðurkenndur. Vandamálið með ASCII er að það kóðaði aðeins tiltölulega takmarkaðan fjölda stafa – 256 í mesta lagi. Þetta útilokaði tungumál sem ekki eru latína, mörg mikilvæg stærðfræði- og vísindatákn og jafnvel nokkur grunngreinarmerki.

Fyrir utan notkun ASCII á ensku og öðrum tungumálum sem nota latneska stafrófið, höfðu tilhneigingar tungumálahópa sem notuðu aðrar stafróf til að nota eigin stafkóðun. Þar sem þessar kóðunaráætlanir voru skilgreindar hvor frá annarri deildu þær oft; það var ómögulegt að nota eitt kóðunaráætlun fyrir mörg tungumál á sama tíma.

Upprunalega var Unicode hugsuð og heldur áfram að þróast, sérstaklega með það í huga að vinna bug á þessum áskorunum. Markmið Unicode er að veita a uniersal, unibundið, og unikenni fyrir kóðann fyrir hvert myndrit á hverju tungumáli og skriftakerfi í heiminum.

UTF-8

Unicode hefur verið hrint í framkvæmd í nokkrum stafatöflukerfum, en staðallinn sem mest er notaður í dag er UTF-8. UTF-8 er orðið næstum alhliða fyrir allar tegundir nútíma tölvumála.

UTF-8 umritar stafi með allt að 4 8 bita kóðablokkum. ASCII notaði aðeins 8 bita á hvern staf. Unicode stafir sem áður voru með í ASCII eru táknaðir í UTF-8 með einum 8 bita klump, sömu 8 bitum og voru notaðir í ASCII. Þetta gerir ASCII texta framvirkt samhæft í UTF-8. (Þetta er ein af mörgum ástæðum þess að UTF-8 varð alhliða staðallinn – umskipti voru tiltölulega auðveld.)

8 × 4 kerfið veitir UTF-8 með yfir milljón kóðapunkta, sem gerir Unicode kleift að umrita stafi úr 129 skriftum og skrifkerfum.

Úrræði til að skilja Unicode

  • Kynning á ritunarkerfi og Unicode er mjög ítarleg, jafnvel málsnjall, skýring á stafkóðun almennt og Unicode sérstaklega; ef þú getur aðeins lesið eitt á Unicode er þetta það sem á að lesa
  • Unicode Standard: A Technical Introduction er opinber skýring á Unicode staðlinum
  • Til BMP og víðar! er kennsla um Unicode, hentugur fyrir námskeið í kynningu eða sjálfsnámi
  • Unicode námskeiðið útskýrir hvernig Unicode virkar, þar á meðal áhugaverðar upplýsingar eins og að sameina stafi, og hvernig Unicode parsing vél ætti að virka.

Bækur á Unicode

  • Unicode Explained, eftir Jukka Korpela, veitir gott yfirlit yfir Unicode og ýmsar þróunaráskoranir sem fylgja framkvæmd þess
  • Unicode Demystified: A Practical Programmer’s Guide to the Encoding Standard, eftir Richard Gillam, er gagnleg, ef nokkuð dagsett, skýringu á Unicode, með mikið af Java-einbeittum útfærslusértækjum.
  • Leturgerðir og kóðanir eftir Yannis Haralambous snúast ekki eingöngu um Unicode, en gæti verið bókin sem er mest þess virði að lesa; það fjallar um sögu um kóðun og framsetning texta í tölvum, sem gefur bæði fræðilegan og hagnýtan grunn til að skilja Unicode og fjölda nátengdra námsgreina.

Tilvísunarefni Unicode

Þegar þú hefur grundvallarskilning á Unicode finnurðu að mestu leyti að þú þarft að fletta upp í smáatriðum – svo sem nákvæmri kóðun tiltekins stafs.

  • C / C ++ Unicode svindlskjalið veitir upplýsingar um að breyta Microsoft C / C ++ í Unicode
  • XML og Unicode tækni skýrslur er listi yfir tækniskýrslur sem fjalla um ýmsa þætti í því að nota XML og Unicode saman
  • Decode Unicode býður upp á Unicode orðabók á netinu með fallegu notendaviðmóti, sem gerir þér kleift að skoða alla skilgreinda Unicode staf, jafnvel án staðbundins leturstuðnings
  • Gögn um tungumál veita upplýsingar sem hægt er að leita að um Unicode stafasett á ýmsum tungumálum
  • Unicode Navigator býður upp á skipulagðan lista yfir alla stafi í Unicode

Unicode verkfæri

  • Unicode Analyzer er Chrome vafraviðbót sem veitir upplýsingar um Unicode texta á vefsíðum og skjölum
  • Character Identifier er Firefox viðbót sem býður upp á samhengisvalmynd til að finna frekari upplýsingar um valda Unicode stafi
  • Prófaðu Unicode tákn fyrir Chrome eða Unicode innsláttartól fyrir Firefox til að setja inn Unicode stafi í textareitina á vefnum.
  • UnicodeDataBrowser veitir GUI til að auðvelda lestur á UnicodeData.txt skránni
  • Polyglot 3000 greinir sjálfkrafa tungumál hvaða texta sem er
  • Unicode býður upp á lista yfir Unicode stafalyklaborðsskipulag fyrir ýmis Unicode-studd forskrift
  • Babel er Python bókasafn fyrir fjölbreytt úrval alþjóðavæðingar og staðsetningarverkefna
  • D-Type Unicode Text Engine er C ++ bókasafn til að setja út, gera og breyta hágæða Unicode texta á hvaða tæki, vettvang eða stýrikerfi sem er.
  • Nunicode er C bókasafn fyrir kóðun og umskráningu UTF-8 skjala
  • Portable UTF-8 veitir Unicode stuðning fyrir PHP strengi
  • Tesseract OCR veitir sjónrænan staf viðurkenningu fyrir Unicode texta
  • Popchar er endurbætt stafakort sem gerir þér kleift að finna og slá inn stafi úr öllu Unicode rýminu
  • Unicode Utilities býður upp á fjölda áhugaverðra og gagnlegra verkfæra á netinu til að vinna með Unicode
  • Edicode býður upp á sveigjanlegt Unicode lyklaborð á netinu til að slá inn texta með ýmsum alþjóðlegum skriftum
  • Quickkey er sveigjanleg lyklaborðslenging til að slá inn fyrstu 65.000 skilgreindu Unicode stafina
  • Unicode Code Converter breytir öllum slegnum stafakóða í nokkrar mismunandi kóðanir af sama staf
  • CharFunk er JavaScript tól til að framkvæma fjölda áhugaverðra eftirlits og aðgerða á stöfum Unicode
  • Kreative Recode umbreytir textaskrám úr ýmsum kóðun í Unicode
  • BabelMap Online býður upp á Unicode lyklaborð í vafranum, með úttak í skjástöfum auk hex- eða aukastafkóðunar

Texti og kóða ritstjórar

Flestir textaritarar í dag, kóða ritstjórar og IDE nota annaðhvort Unicode sjálfgefið eða geta auðveldlega séð um Unicode. Sublime, Notepad ++, Atom og Eclipse eru allir stilltir á UTF-8 sem sjálfgefna stafakóðun. Vim og Emacs gæti þurft að breyta stillingunni til að nota UTF-8:

  • Notkun Unicode með Emacs
  • Notkun Unicode með Vim

Það eru líka handfyllir af kóða- og textaritum sem eru sérstaklega hannaðir til að takast á við stækkaða Unicode stafasettið:

  • MinEd er Unicode textaritill með samhengisstuðning til að setja inn stafi úr öllu svið Unicode stafarýmsins
  • Classical Text Editor er háþróaður ritstjóri til að vinna með gagnrýnar og fræðilegar útgáfur texta, þar með talinn fjöltyngda texta sem notar fjölbreytt úrval af Unicode stafasettinu

Unicode letur

Samband leturgerða og Unicode er svolítið skáhætt. Unicode var búið til til að vera aftur á móti samhæft við ASCII – texti sem er sniðinn í ASCII er hægt að afkóða sem Unicode með nánast engum vandamálum. Og hægt er að sýna Unicode-kóðaðan texta með ASCII letri, svo framarlega sem aðeins litla stafurinn sem birtist í ASCII er notaður.

Í dag eru flestar leturgerðir sem til eru á flestum tölvum umritaðar í dulmál með Unicode. Út frá því sjónarmiði eru flestar letur „Unicode leturgerðir.“ Hins vegar styðja flestar leturgerðir ekki sérstaklega stórt sett af öllum Unicode staðlinum.

Venjulega er þetta ekki vandamál; einhver sem skrifar texta á mörgum tungumálum, eða með útbreiddan stafasetningu, gæti notað nokkur mismunandi leturgerðir – annað fyrir latneskt handrit, annað fyrir hvert CJK tungumál og annað fyrir stærðfræðitákn (til dæmis). Hins vegar getur það verið gagnlegt að hafa stök letur sem innihalda stórt hlutfall af Unicode stafinum. Þetta gæti verið þörf þegar unnið er í venjulegum texta og uppsprettukóðaumhverfi þar sem ekki er hægt að nota mörg leturgerðir eða þegar sjónræn eining á milli margra handrita er sérstaklega mikilvæg.

Eftirfarandi eru athyglisverð leturverkefni sem veita útbreiddan Unicode stuðning. Til að fá fullkomnari skráningu, þar með talið slökkt og úrelt letur, sjá þessa síðu með Unicode leturgerðum. Til að stilla asísk tungumál, sjá þennan lista yfir CJK letur.

  • Everson Mono er monospace leturgerð búin til af einum af upphafsmönnum Unicode staðalsins; yfirlýst markmið þess er að útvega glyph fyrir eins mikið af Unicode stafrými og mögulegt er, og (frá og með þessu skrifi) 92 Unicode stafablokkir eru studdir.
  • Noto er stórt safn af leturgerðum, þróað af Google, sem saman veita stuðning við mikinn meirihluta Unicode stafasettanna, með það í huga að styðja að lokum allan Unicode staðalinn.
  • Deja Vu Fontur er leturfjölskylda sem veitir breiða umfjöllun um Unicode staðalinn með Serif, Sans og Monospace útgáfum..
  • GNU FreeFont er fjölskylda leturgerða sem veitir andlit Serif, Sans og Mono gerð fyrir 37 skrifkerfi og 12 Unicode tákn svið..
  • GNU Unifont er eintóm, bitmap leturgerð með fullkominni umfjöllun fyrir Unicode 8.0 Basic Multilingual Plane og breiða, en ófullnægjandi, umfjöllun fyrir viðbótar Fjöltyngdu flugvélina.

Það eru líka til nokkrar áhugaverðar leturgerðir sem umrita tiltekna undirmagn Unicode staðalsins fyrir sérhæfða notkun.

  • Junicode er mengi leturgerða fyrir miðalda
  • Síðasta úrræði er „leturgerð eftir þyrsta úrræði“; í stað hefðbundinna stafagerða sýnir hver glyph upplýsingar um Unicode stafinn sjálfan
  • Unicode leturgerðir fyrir forn handrit er verkefni til að búa til safn leturgerða fyrir nokkra forna og klassíska stafróf
  • Unimath Plus veitir útbreiddan hóp vísinda og stærðfræðitákn

Og hér eru nokkur viðbótarúrræði Unicode letur, ef þú getur enn ekki fundið það sem þú ert að leita að:

  • SIL leturgerðir fjölda leturgerða fyrir ýmis tungumál sem eru studd undir stuðningi, búin til af SIL International, alþjóðlegu samfélagi sem er ekki í hagnaðarskyni og þjónar minnihlutahópum
  • Unicode stafatákn og Unicode letrið sem styðja þau munu hjálpa þér að finna leturgerð fyrir hvaða svið Unicode stafi.

Emoji Resources

Emoji eru þessi fyndnu litlu broskalla andlit og þumalfingur upp merki sem þú getur sett í textaskilaboðin þín. Þeir eru í raun hluti af Unicode staðlinum. Emoji hluti Unicode er ekki studdur með öllu, svo ef þú vilt fella Emoji í appið þitt eða vefsíðu gætirðu þurft smá hjálp. Hér eru auðlindir sem munu hjálpa þér að nota og smíða með Unicode emoji.

Emoji tilvísun

  • Emojipedia er leitanlegur gagnagrunnur yfir Emoji stafir
  • Get ég Emoji? veitir upplýsingar um innfæddan stuðning fyrir Unicode emoji í iOS, Android, OS X og Windows, svo og helstu vafra
  • WTF Emoji Foundation eru örlítið alvarleg samtök sem eru tileinkuð framgangi emoji; þeir reka Emoji orðabók.
  • Emoji svindlblaði veitir skjótan tilvísun í innsláttarkóða Emoji

Emoji bókasöfn

  • Settu Emoji við í forritum og þýddu á milli nokkurra smásölustaðla með þessu PHP Emoji bókasafni; eða prófaðu þetta PHP7 emoji bókasafn sem gerir þér kleift að vísa Emoji eftir nafni í kóðanum þínum
  • Emoji fyrir Python styður bæði opinbera Unicode emoji og nokkur sett af samheiti; Django verktaki getur einnig notað django-emoji pakkann
  • Emoji Golang veitir Emoji stuðning fyrir Go forritunarmálið
  • það eru nokkur perlur fyrir stuðning við Emoji í Ruby, en sú af Github er líklega sú besta til að nota
  • Emoji-Java veitir Emoji stuðning í Java
  • Coloremoji.sty gerir það auðvelt að setja emoji í fullum lit í LaTeX skjöl
  • Npm, pakkastjórnunarkerfið fyrir Node.js er með nokkra emoji pakka:
    • Emoji og hnút emoji veita grunnstoð fyrir emoji,
    • Ember-cli-emoji vinnur með Emojify.js til að veita emoji aðstoðarmönnum Ember.js forritin þín
    • Markdown-it-emoji bætir við emoji til að styðja við Markdown-it Markdown parser
  • Emoji Syntax er kjánalegt bókasafn fyrir Atom textaritilinn sem bætir emoji við kóðalínur út frá merkingu þeirra.

Emoji hljómborð og safn

  • EmojiXpress fyrir iOS er Emoji safn og hljómborð fyrir iPhone
  • Emojione er kross-pallur Emoji safn með Creative Commons leyfi listaverk ókeypis fyrir forritara
  • iDiversicons býður upp á breitt úrval af mismunandi Emoji persónum og iPhone hljómborð.

MIME tegundir

MIME stendur fyrir „fjölnota netpóstviðbyggingar.“ Það er internetstaðallinn sem er notaður til að bera kennsl á ýmsar skráategundir sem sendar eru á netinu. Upphaflega var hannaður fyrir tölvupóst sem var sendur yfir SMTP (Simple Mail Transfer Protocol) sem er internetstaðallinn fyrir sendingu tölvupósts. Nú á dögum er MIME afar mikilvægur í öðrum samskiptareglum eins og HTTP.

MIME saga

Við höfum þegar fjallað um sögu ASCII og kóðun stafa. En sagan um að senda upplýsingar er miklu meira en þetta.

Með tímanum fóru skilaboðin að verða flóknari og það varð augljóst að þetta venjulega snið var ekki nóg. Margmiðlunarmyndir sem innihéldu hljóð- eða myndskrár voru alls ekki skilgreindar. Sama gilti um tungumál sem notuðu ekki enska stafrófið. Aðstæður fóru loksins að breytast þegar tveir menn tóku höndum saman: Nathaniel Borenstein og Ned Freed.

Tillaga þeirra endurskilgreindi snið skilaboða til að leyfa tölvupósti að innihalda marga hluti í einum skilaboðum; notkun stafi sem ekki eru ASCII sem og tungumál sem ekki eru ensk; og notkun mynda, hljóð og myndbanda. Þetta var fæðing MIME sem varð opinberi staðallinn árið 1993.

Tillagan skilgreindi einnig kóðunarstaðlana sem eru 7bit, 8bit, base64, tvöfaldir, og vitnað er til prentunar. Þessir kóðunarstaðlar áttu að tryggja að öll gögn væru örugglega send. Það innihélt einnig upplýsingar um notkun haus Content-Type sem eru nauðsynlegar til að bera kennsl á gerð gagna sem send er.

Hverjar eru MIME tegundir?

MIME-gerðir eru auðkenni sem notuð eru til að bera kennsl á mörg skráarsnið sem eru send á hverjum degi á Netinu. Þau eru stöðluð af IANA (Internet Assigned Numbers Authority). MIME tegundir voru fyrst skilgreindar og nefndar sem slíkar í Beiðni um athugasemdir: 2045 (RFC 2045) gefin út af IETF (Internet Engineering Task Force) sem var opinbera tillagan lögð fram af Borenstein og Freed.

Uppbygging

MIME gerðir samanstanda af gerð og undirtegund sem eru tveir strengir aðgreindir með framstrik. Gerð táknar flokk og getur verið stak eða fjölskipt. Hver tegund hefur ákveðna undirgerð. Hefð er fyrir því að MIME-gerðir eru skrifaðar með lágstöfum.

Aðgreindar gerðir innihalda texta, mynd, hljóð, myndband og forrit. Margpart tegundir tákna flokk skjala sem eru sundurliðaðir í mismunandi hluta og innihalda oft mismunandi MIME gerðir. Þau innihalda formgögn og skiptibreytur.

Sumar MIME gerðir eru forstilltar með annað hvort x eða vnd. Forskeyti x þýðir að það hefur ekki verið skráð hjá IANA og vnd gefur til kynna sértækt forskeyti seljanda.

Algengar MIME tegundir

Forrit:

  • forrit / msword (.doc)
  • forrit / vnd.openxmlformats-officedocument.wordprocessingml.document (.docx)
  • forrit / vnd.openxmlformats-officedocument.wordprocessingml.template (.dotx)
  • forrit / vnd.ms-powerpoint (.ppt)
  • forrit / ecmascript (.es)
  • forrit / x-javascript (.js)
  • forrit / octet-stream (.bin, .exe)
  • umsókn / pdf (.pdf)
  • forrit / eftirskrift (.ps, .ai, .eps)
  • forrit / rtf (.rtf)
  • forrit / x-gtar (.gtar)
  • forrit / x-gzip (. gz)
  • forrit / x-java-skjalasafn (.jar)
  • forrit / x-java-raðbundinn hlut (.ser)
  • forrit / x-java-vm (.flokkur)
  • forrit / x-tar (.tar)
  • forrit / zip (.zip)
  • forrit / x-7z-þjappað (.7z)
  • forrit / x-rar-þjappað (.rar)
  • forrit / x-shockwave-flass (.swf)
  • forrit / vnd.android.package-archive (.apk)
  • forrit / x-bitorrent (.torrent)
  • forrit / epub + zip (.epub)
  • forrit / vnd.ms-excel (.xsl)
  • forrit / x-font-ttf (.tff)
  • forrit / rss + xml (.rss, .xml)
  • forrit / vnd.adobe.air-application-installer-package + zip (.air)
  • forrit / x-debian-pakki (.deb)
  • forrit / json (.json)

Hljóð:

  • hljóð / x-midi (.mid, .midi)
  • hljóð / x-wav (.wav)
  • hljóð / mp4 (.mp4a)
  • hljóð / ogg (.ogg)
  • hljóð / MPEGA (.mp3)

Mynd:

  • mynd / bmp (.bmp)
  • mynd / gif (.gif)
  • image / jpeg (.jpeg, .jpg, .jpe)
  • mynd / tiff (.tiff, .tif)
  • mynd / x-xbitmap (.xbm)
  • mynd / x-tákn (.ico)
  • mynd / svg + xml (.svg)
  • mynd / png (.png)

Texti:

  • text / html (.htm, .html)
  • texti / látlaus (.txt)
  • texti / ríkurtexti (.rtf, .rtx)
  • texti / css (.css)
  • text / csv (.csv)
  • texti / dagatal (.ics)

Myndband:

  • vídeó / mpeg (.mpg, .mpeg, .mpe)
  • vídeó / ogg (.ogv)
  • vídeó / quicktime (.qt, .mov)
  • vídeó / x-msvideo (.avi)
  • vídeó / mp4 (.mp4)
  • vídeó / webm (.webm)

Auðlindir

MIME gerðir gerðu okkur kleift að fá betri og ríkari tölvupóstupplifun. Eftirfarandi listi yfir auðlindir mun hjálpa þér að læra meira ítarlega um hvernig og hvers vegna þau komu til og hvernig á að stilla vefþjón fyrir réttan stuðning MIME og fleira.

Auðlindir á netinu

Eftirfarandi listi inniheldur tengla á fimm hluta tillöguna sem varð staðaluppkast fyrir MIME.

  • RFC 2045 (PDF): Fyrsti hluti tillögunnar tilgreinir ýmsa fyrirsagnir sem notaðar eru til að lýsa uppbyggingu MIME skilaboða.
  • RFC 2046 (PDF): annað skjalið skilgreinir almenna uppbyggingu MIME fjölmiðlakerfisins og upphafssett fjölmiðlunargerða.
  • RFC 2047 (PDF): þriðji hluti tillögunnar lýsir viðbætur sem leyfa textagögn utan Bandaríkjanna og ASCII í hausviðum netpósts.
  • RFC 2048 (PDF): fjórði hlutinn lýsir því hvernig nýjar MIME tegundir geta verið skráðar hjá IANA.
  • RFC 2049 (PDF): fimmta skjalið lýsir MIME samræmi viðmið með dæmum um MIME skilaboðasnið.
  • Margmiðlunargerðir: heill listi yfir allar tegundir fjölmiðla, sem einnig inniheldur tengil á forritið til að skrá nýjar tegundir miðla.
  • MIME krakkarnir: Hvernig tveir netgaurar breyttu tölvupósti að eilífu: grein byggð á viðtölunum við Nathaniel Borenstein og Ned Freed sem gefur áhugaverða innsýn í verk þeirra.

Kennsla

Eftirfarandi úrræði bjóða upp á gagnlegar leiðbeiningar um meðhöndlun MIME gerða, rétta stillingu miðlara og fleira.

  • Rétt stilla MIME gerðir netþjóna: fjallar um hvers vegna vefstjórar ættu að gæta þess að stilla vefþjóninn sinn rétt þegar nýjum MIME gerðum er bætt við, sérstaklega fyrir Gecko-undirliggjandi vafra.
  • Margmiðlunarform sem studd er af HTML hljóð- og myndaeiningunum: býður upp á lista yfir MIME-gerðir studdar af nýju hljóð- og myndefnisþáttunum í HTML5
  • Hvað er MIME þefa: þessi grein veitir ítarlega skýringu á MIME þefa og hvernig hægt er að forðast varnarleysi sem tengist því.
  • MIME gerðir útskýrðir: Hvers vegna Linux og Mac OS X þurfa ekki skráarlengingar: áhugaverð lesning sem skýrir muninn á Windows tölvu og Linux / Mac OS X tölvu.
  • Velja réttu MIME gerð fyrir JavaScript: það er sem stendur fleiri en ein MIME gerð fyrir JavaScript. Þessi kennsla mun veita þér skýringar á notkunartilfellum hvers og eins.

Bækur

Þrátt fyrir að það séu ekki til bækur sem eru eingöngu ætlaðar MIME gerðum, þá er samt til ágætis fjöldi bóka um náskyld efni sem tileinka þeim nokkra kafla.

  • Internet Email Protocols, Standards and Implementation (1998) eftir Lawrence Hughes: miðar að lengra komnum notendum, þessi bók styrkir þekkingu á nauðsynlegum hugtökum sem þarf til að þróa tölvupósthugbúnað og lýsir rækilega helstu netpóstsamskiptareglum og viðbótum eins og SMTP, POP3, IMAP , MIME og DSN.
  • Forritun netpósts (1999) eftir David Wood: nauðsynleg handbók sem fjallar um öll mikilvæg hugtök sem nauðsynleg eru til að smíða forrit ofan á tölvupóstsgetuna. Málefni sem fjallað er um eru ýmis tölvupóstsamskiptareglur, tölvupóstsnið snið MIME-gerða og mörg dæmi.
  • Essential Email Standards (1999) eftir Peter Loshin: Þessi bók er nauðsynleg fyrir alla sem leita að ná ítarlegri skilningi á stöðlum í tölvupósti. Það veitir ítarlega greiningu á mikilvægustu RFC gefnum út af IETF sem og hugsanlegri notkun þeirra. Það felur einnig í sér fullkomlega leitanlega stafræna útgáfu af bókinni á geisladisk.
  • MH & xmh (2006) eftir Jerry Peek: þessi bók er fáanleg á netinu og gefin út undir GNU-GPL leyfi. Þriðji kaflinn útskýrir ítarlega MIME-gerðir og fjölþáttar skilaboð

Verkfæri

Krækjurnar hér að neðan eru með nokkur gagnleg tæki til að athuga réttmæti MIME gerða.

  • Hvaða MIME tegundir styður vafrinn minn: nettæki sem segir þér hvaða MIME tegund vafrinn þinn styður um leið og þú hleður síðunni.
  • MIME Validator: ókeypis MIME staðfestandi á netinu sem kannar hvort MIME skilaboð séu í samræmi við IETF staðla.
  • Hvað MIME: annar ókeypis afgreiðslumaður á netinu fyrir allar skrár.

Stækkaðu þekkingu þína á MIME tegundum

MIME gerðir virðast óverulegar á yfirborðinu en þær höfðu miklar breytingar á því hvernig tölvupóstskeyti okkar virkar. Þessi listi yfir auðlindir ætti að vekja forvitni þína og veita þér dýpri skilning á því hvernig tölvupóstur og skrár sem sendar eru á internetinu hafa breyst í gegnum árin.

Yfirlit

Flestir slá bara inn og hugsa ekki mikið um hvað er að gerast. Nokkrir sem velja nokkra nenna að hugsa um ágæti leturshönnunar og leturfræði.

En enn minni er fjöldi fólks sem þekkir eða vill vita hvað gerist á bak við tjöldin – hvernig takkarnir verða bókstafir á tölvuskjánum.

Fyrir alla aðra er það annað hvort gegnsætt eða léttvægt.

En eins og við höfum sýnt er ferlið við að tákna tungumál varla léttvæg og mikil vinna hefur farið í að gera það eins gegnsætt og það er. Unicode Consortium, ásamt óteljandi forriturum, hönnuðum og málfræðingum, hafa gert það mögulegt fyrir hvern sem er að skrifa hvaða persónu sem er, úr hvaða tungumáli sem er, á hvaða handriti sem er, á hvaða tölvu sem er..

Þetta er athyglisvert afrek og nauðsynlegt skref í átt að alhliða læsi og alheimsaðgang að tölvum og internetinu.

Algengar spurningar

Sp. Hver er munurinn á ASCII, Unicode og UTF-8?

A. ASCII er eldri staðall frá sjöunda áratugnum en Unicode varð til seint á níunda áratugnum.

ASCII er aðeins 128 eða 256 stafir, en Unicode er með yfir 10.000.

Unicode er stafataflan, UTF-8 (eða UTF-16 eða UTF-32) er kóðunarstigið. Unicode 0-256 og ASCII eru næstum eins, með aðeins smávægilegum mun á stjórnunarstöfunum.

UTF-8 er algengasta kóðunin á vefnum í dag – og sjálfgefin.

Spurning: Þarf ég að lýsa því yfir hvaða kóðunargerð ég nota fyrir vefsíðuna mína?

A. Aðeins ef þú veist að þú þarft að nota einstaka kóðunartegund.

Ef þú lýsir ekki yfir einum vilja flestir vafrar UTF-8. Ef þú ert að búa til vefsíðu á erlendu tungumáli, sérstaklega ekki latínu, vertu viss um að þú notir annað hvort UTF-8 eða veljir sérstaka töflu.

Spurning: Þarf ég að leggja á minnið ASCII kóða til að skrifa HTML??

A. Aðeins ef þú ert að reyna að vera mjög duglegur.

Flestar vefsíður í dag eru kraftmiklar og búa til HTML fyrir þig í gegnum kerfi eins og innihaldsstjórnunarkerfi (CMS). Ef þú ert verktaki notarðu líklega önnur forritunarmál til viðbótar við HTML og þessi tungumál gætu haft sérstakar leiðir til að búa til þessi ASCII tákn.

Að lokum, eins og fjallað var um hér að ofan, nota margir af þessum kóðum sértákn nöfn í HTML í stað ASCII númera.

Sp. Er kóðun stafanna mismunandi eftir mismunandi stýrikerfum?

A. Nokkuð.

Unicode er aðeins öðruvísi á Windows vs Unix / Linux. Til dæmis notar Windows UTF-16LE meðan Linux venjulega notar UTF-8.

Nú, auðvitað, kóðunin sem er notuð af stýrikerfinu gæti verið frábrugðin kóðuninni á vefsíðu, en stýrikerfið og vafrinn vinna saman að því að umbreyta stafakóðunum í eitthvað sem tölvan þín getur birt.

Stundum, í eldri stýrikerfum, gæti þessi viðskipti ekki virkað og þú myndir bara sjá auða stafi. (Til dæmis er það eitthvað sem þú gætir séð á erlendri vefsíðu á Windows XP.)

Q. ASCII Art er æðislegt! Hvar get ég gert mitt eigið??

A. AsciiWorld.com er með nokkur frábær gallerí og verkfæri í hugbúnaðarhlutanum, svo sem breytir og “málarar.” Góða skemmtun!

Annað áhugavert

Við höfum fleiri handbækur, námskeið og infografics sem tengjast erfðaskrá og þróun vefsíðu:

  • CSS3 – Inngangur, leiðbeiningar og auðlindir: þetta er frábær staður til að byrja að læra uppsetningu vefsíðna.

  • PostScript kynning og auðlindir: læra allt um tungumálið á skjánum sem breytti heiminum.

  • Lorem Ipsum: læra hvernig á að nota „dummy text“ fyrir þig hönnun áður en innihaldið hefur verið skrifað.

HTML fyrir byrjendur – Ultimate Guide

Ef þú vilt virkilega læra HTML höfum við búið til bók í lengd bókar, HTML fyrir byrjendur – Ultimate Guide. Og það er í raun fullkominn leiðarvísir; það mun taka þig alveg frá byrjun til leikni.

HTML fyrir byrjendur - Ultimate Guide
HTML fyrir byrjendur – Ultimate Guide

Þróun í vefhönnun sem þú munt aldrei gleyma

Fyrir Unicode var algengt að heimsækja vefsíður þar sem allur textinn var táknaður með tómum reitum. Hlutirnir hafa breyst mikið. Í infographic Web Design Trends okkar munt þú aldrei gleyma að við förum í gegnum hvernig vefurinn var áður.

Þróun í vefhönnun sem þú munt aldrei gleyma
Þróun í vefhönnun sem þú munt aldrei gleyma

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me
    Like this post? Please share to your friends:
    Adblock
    detector
    map