DjVu - DjVu

DjVu
Djvu icon.svg
Extensii de nume de fișier
.djvu, .djv
Tipul media internet
image / vnd.djvu, image / x-djvu
Număr magic AT&T
Dezvoltat de AT&T Labs - Cercetare
Eliberarea inițială 1998 ; Acum 23 de ani ( 1998 )
Ultima lansare
Versiunea 3.5.28
(8 ianuarie 2021 ; acum 9 luni ) ( 2021-01-08 )
Tipul formatului Formate de fișiere imagine
Conținut de Format de fișier de schimb
Formatul deschis ? GNU GPLv2 pentru Biblioteca de Referință DjVu și DjVuLibre-3.5;
Acordarea de licențe în baza GNU GPL pentru mai multe brevete care acoperă aspecte ale bibliotecii

DjVu ( / ˌ d Ʒ ɑː v U / ZI -zhah- VOO , cum ar fi franceză „ Déjà vu “) este un calculator format de fișier destinat în primul rând pentru a stoca documentele scanate , în special cele care conțin o combinație de text, desene, culori indexate imagini și fotografii. Folosește tehnologii precum separarea straturilor de imagine a textului și a fundalului / imaginilor, încărcarea progresivă , codarea aritmetică și compresia cu pierderi pentru imaginile bitonale ( monocrome ). Acest lucru permite stocarea imaginilor de înaltă calitate, lizibile într-un spațiu minim, astfel încât să poată fi puse la dispoziție pe web .

DjVu a fost promovat ca furnizând fișiere mai mici decât PDF pentru majoritatea documentelor scanate. Dezvoltatorii DjVu raportează că paginile revistei color se comprimă la 40-70 kB, hârtiile tehnice alb-negru se comprimă la 15-40 kB, iar manuscrisele antice se comprimă la aproximativ 100 kB; o imagine JPEG satisfăcătoare necesită de obicei 500 kB. La fel ca PDF, DjVu poate conține un strat de text OCR , ceea ce face mai ușoară efectuarea operațiilor de copiere și lipire și căutare a textului.

Sunt disponibili creatori, manipulatori, convertoare, plugin-uri pentru browser web și vizualizări desktop gratuite. DjVu este acceptat de un număr de vizualizatoare de documente multi-format și software de citire a cărților electronice pe Linux ( Okular , Evince ), Windows ( Okular , SumatraPDF ) și Android (FBReader, EBookDroid, PocketBook).

Istorie

Tehnologia DjVu a fost dezvoltată inițial de Yann LeCun , Léon Bottou , Patrick Haffner , Paul G. Howard , Patrice Simard și Yoshua Bengio la AT&T Labs din 1996 până în 2001.

Înainte de standardizarea PDF-ului în 2008, DjVu fusese considerat superior datorită faptului că este un format de fișier deschis, spre deosebire de caracterul proprietar al PDF-ului de la acea vreme. Raportul de compresie mai mare declarat (și, prin urmare, dimensiunea mai mică a fișierului) și ușurința pretinsă de a converti volume mari de text în format DjVu, au fost alte argumente pentru superioritatea DjVu față de PDF în peisajul tehnologic din 2004. Tehnologul independent Brewster Kahle într-o discuție din 2004 pe Conversațiile IT au discutat despre avantajele care permit accesul mai ușor la fișierele DjVu.

Biblioteca DjVu distribuită ca parte a pachetului open-source DjVuLibre a devenit implementarea de referință pentru formatul DjVu. DjVuLibre a fost întreținut și actualizat de dezvoltatorii originali ai DjVu din 2002.

Specificația formatului de fișier DjVu a trecut printr-o serie de revizuiri, cea mai recentă fiind din 2005.

Istoricul reviziilor
Versiune Data de lansare Note
Versiune veche, care nu mai este menținută: 1-19 1996–1999 Versiuni de dezvoltare ale laboratoarelor AT&T care preced vânzarea formatului către LizardTech .
Versiune veche, care nu mai este menținută: Versiunea 20 Aprilie 1999 Versiunea DjVu 3. DjVu s-a schimbat dintr-un format cu o singură pagină într-un format cu mai multe pagini.
Versiune mai veche, dar încă menținută: Versiunea 21 Septembrie 1999 Format de stocare indirect înlocuit. A fost adăugat stratul de text care poate fi căutat.
Versiune mai veche, dar încă menținută: Versiunea 22 Aprilie 2001 Orientarea paginii, culoare JB2
Versiune veche, care nu mai este menținută: Versiunea 23 Iulie 2002 Bucată de CID
Versiune veche, care nu mai este menținută: Versiunea 24 Februarie 2003 LTA Nici o bucată
Versiune mai veche, dar încă menținută: Versiunea 25 Mai 2003 Bucată NAVM. A fost adăugat suport pentru marcajele DjVu (schițe). Modificările făcute de versiunile 23 și 24 au devenit învechite.
Versiune stabilă curentă: Versiunea 26 Aprilie 2005 Adnotări text / linie
Legendă:
Versiune veche
Versiune mai veche, încă menținută
Ultima versiune
Ultima versiune de previzualizare
Lansare viitoare

Rol în ecosistemul software

Utilizarea principală a formatului DjVu a fost distribuirea electronică a documentelor cu o calitate comparabilă cu cea a documentelor tipărite. Deoarece această nișă este, de asemenea, utilizarea principală pentru PDF, era inevitabil ca cele două formate să devină concurenți. Cu toate acestea, trebuie observat că cele două formate abordează problema livrării documentelor de înaltă rezoluție în moduri foarte diferite: PDF codifică în primul rând grafica și textul ca date vectorizate, în timp ce DjVu le codifică în principal ca imagini pixmap . Aceasta înseamnă că PDF plasează sarcina redării documentului asupra cititorului, în timp ce DjVu pune această sarcină asupra creatorului.

Pe parcursul mai multor ani, suprapunându-se semnificativ cu perioada în care DjVu a fost dezvoltat, nu au existat vizualizatori PDF pentru sistemele de operare libere - un obstacol special a fost redarea fonturilor vectorizate, care sunt esențiale pentru combinarea dimensiunilor mici ale fișierului cu rezoluția mare în PDF. Deoarece afișarea DjVu a fost o problemă mai simplă pentru care software-ul gratuit era disponibil, au existat sugestii ca mișcarea software-ului liber să utilizeze DjVu în loc de PDF pentru distribuirea documentației; randarea pentru crearea DjVu nu este, în principiu, mult diferită de randarea pentru un driver de imprimantă specific dispozitivului, iar DjVu poate fi, în ultimă instanță, generat din scanările de suport de hârtie. Cu toate acestea, când FreeType 2.0 în 2000 a început să furnizeze redarea tuturor formatelor majore de fonturi vectorizate, acel avantaj specific al DjVu a început să se erodeze.

În anii 2000, odată cu creșterea rețelei web mondiale și înainte de adoptarea pe scară largă a benzii largi , DjVu a fost adesea adoptat de bibliotecile digitale ca format de alegere, datorită integrării sale cu software precum Greenstone și Internet Archive , pluginuri de browser care permiteau programe avansate navigare online, dimensiune mai mică a fișierului pentru o calitate comparabilă a scanărilor de cărți și a altor documente cu imagini grele și asistență pentru încorporarea și căutarea textului integral din OCR . Unele caracteristici, cum ar fi previzualizările miniaturilor, au fost ulterior integrate în BookReader-ul Internet Archive, iar navigarea DjVu a fost depreciată în favoarea sa, deoarece în jurul anului 2015 unele browsere majore au încetat să accepte pluginurile NPAPI și DjVu cu ele.

DjVu.js Viewer încearcă să înlocuiască pluginurile lipsă.

Prezentare tehnică

Structura fișierului

Formatul de fișier DjVu se bazează pe formatul de fișier Interchange și este compus din bucăți organizate ierarhic. Structura IFF este precedată de un AT&T număr magic de 4 octeți . Ca urmare este o singură FORMbucată , cu un identificator secundar , fie DJVUsau DJVMpentru o singură pagină sau, respectiv , un document cu mai multe pagini.

Toate bucățile pot fi conținute într-un singur fișier în cazul așa-numitelor documente incluse sau pot fi conținute în mai multe fișiere: un fișier pentru fiecare pagină plus câteva fișiere cu bucăți partajate.

Tipuri de bucăți

Tipuri de bucăți în fișiere DjVu
Identificator de bucată Conținut de Descriere
FORMULAR: DJVU FORMULAR: DJVM Descrie o singură pagină. Poate fi la rădăcina unui document și poate fi un document de o singură pagină sau poate fi menționat dintr-un DIRMfragment.
FORMULAR: DJVM N / A Descrie un document cu mai multe pagini. Este fragmentul rădăcină al documentului.
FORMULAR: DJVI FORMULAR: DJVM Conține date partajate de mai multe pagini.
FORMĂ: THUM FORMULAR: DJVM Conține miniaturi.
INFO FORMULAR: DJVU Trebuie să fie prima bucată. Descrie lățimea paginii, înălțimea, versiunea formatului, rezoluția , gama și rotația.
DIRM FORMULAR: DJVM Trebuie să fie prima bucată. Referințe alte FORMbucăți. Aceste bucăți pot fie să urmeze această bucată în interiorul FORM:DJVMbucății, fie să fie conținute în fișiere externe. Aceste tipuri de documente sunt denumite pachet sau , respectiv, indirecte .
NAVM FORMULAR: DJVM Dacă este prezent, trebuie să urmeze imediat DIRMbucata. Conține o schiță a documentului comprimată BZZ.
ANTa, ANTz FORMĂ: DJVI sau FORMĂ: DJVU Adnotări.
TXTa, TXTz FORMULAR: DJVU Informații despre text și aspect Unicode.
INCL FORMULAR: DJVU ID-ul unei FORM::DJVIbucăți incluse .
Sjbz FORMULAR: DJVU BZZ a comprimat datele bitonale JB2 utilizate pentru a stoca masca.
Djbz FORMĂ: DJVI sau FORMĂ: DJVU Masă de formă comună.
WMRM ? Date JB2 necesare pentru a elimina un filigran.
CIDa FORMULAR: DJVU Bucată învechită cu conținut necunoscut.

Comprimare

DjVu împarte o singură imagine în multe imagini diferite, apoi le comprimă separat. Pentru a crea un fișier DjVu, imaginea inițială este separată mai întâi în trei imagini: o imagine de fundal, o imagine de prim plan și o imagine de mască. Imaginile de fundal și prim-plan sunt de obicei imagini color cu rezoluție mai mică (de exemplu, 100 dpi); imaginea de mască este o imagine pe două niveluri de înaltă rezoluție (de exemplu, 300 dpi) și este de obicei locul în care este stocat textul. Imaginile de fundal și prim-plan sunt apoi comprimate folosind un algoritm de compresie bazat pe wavelet numit IW44. Imaginea măștii este comprimată folosind o metodă numită JB2 (similară cu JBIG2 ). Metoda de codificare JB2 identifică forme aproape identice pe pagină, cum ar fi apariții multiple ale unui anumit caracter într-un anumit font, stil și dimensiune. Acesta comprimă bitmap-ul fiecărei forme unice separat, apoi codifică locațiile în care fiecare formă apare pe pagină. Astfel, în loc să comprime o literă „e” într-un font dat de mai multe ori, comprimă litera „e” o dată (ca o imagine de biți comprimată) și apoi înregistrează fiecare loc de pe pagina pe care o are.

Opțional, aceste forme pot fi mapate la coduri UTF-8 (fie manual, fie potențial de un sistem de recunoaștere a textului ) și stocate în fișierul DjVu. Dacă această mapare există, este posibil să selectați și să copiați text.

Deoarece JB2 (numit și DjVuBitonal) este o variantă a JBIG2, care funcționează pe aceleași principii, ambele metode de compresie au aceleași probleme atunci când efectuează compresie cu pierderi. În 2013, a apărut că fotocopiatoarele și scanerele Xerox înlocuiau cifre cu cele cu aspect similar, de exemplu înlocuind un 6 cu un 8. Un document DjVu a fost reperat în sălbăticie cu înlocuiri de caractere, cum ar fi un n cu serifii de sângerare transformându-se în au și un o cu o pată înăuntru transformându-se într-un e. Dacă s-a produs compresie cu pierderi nu este stocat în fișier, iar aplicația de vizualizare DjView nu avertizează utilizatorul că s-ar putea să aibă loc substituții de glif, nici la deschiderea unui fișier comprimat cu pierderi, nici în casetele de dialog Informații sau metadate.

Formatați licențierea

DjVu este un format de fișier deschis cu brevete. Este publicată specificația formatului de fișier, precum și codul sursă pentru biblioteca de referință. Autorii originali distribuie o implementare open-source denumită „ DjVuLibre ” sub licența publică generală GNU . Drepturile la dezvoltarea comercială a software - ului de codificare au fost transferate către diferite companii de-a lungul anilor, inclusiv AT & T Corporation , LizardTech , Celartem și Cuminas .

Celartem dobândite LizardTech și Extensis.

A sustine

DjVu nu este acceptat pe scară largă de software-ul de scanare și vizualizare. În timp ce vizualizatorii pot fi descărcați, deschiderea fișierelor DjVu nu este implementată în mod implicit în majoritatea sistemelor de operare. Excepția principală este majoritatea distribuțiilor Linux .

În 2002, formatul de fișier DjVu a fost ales de Internet Archive ca format în care proiectul său de milioane de cărți oferă cărți scanate din domeniul public online (împreună cu TIFF și PDF). În februarie 2016, Internet Archive a anunțat că DjVu nu va mai fi folosit pentru încărcări noi.

Wikimedia Commons , un depozit media utilizat de Wikipedia, printre altele, permite condiționat fișierele media PDF și DjVu.

Vezi si

Referințe

linkuri externe