Apache è il principale server web, con una quota di mercato superiore al 60%, secondo Netcraft survey. Al successo di Apache hanno contribuito svariati fattori chiave:
I seguenti siti web usano Apache o uno dei suoi derivati. Se Apache va bene per loro, dovrebbe andare bene anche per voi :)
Dal sito web di Apache:
Il progetto del Server HTTP Apache rappresenta uno sforzo per sviluppare e mantenere un server HTTP open-source per i moderni sistemi operativi, incluso Unix e Windows NT. Il fine di questo progetto è quello di fornire un server sicuro, efficiente e estensibile che garantisca servizi HTTP in aderenza con gli standard HTTP correnti.
Il server Apache iniziò la sua vita come modifica del server Web NCSA, uno dei primi server HTTP. Per saperne di più sulla storia di Apache si veda qui.
Il progetto Apache è poi cresciuto oltre la semplice implementazione di un server web, occupandosi dello sviluppo di altre tecnologie critiche dal lato server. La Apache Software Foundation, che sarà descritta più oltre, serve da ala protettiva per questi progetti.
Ci sono due versioni principali di Apache, la serie 1.3 e la serie 2.0. Per quanto siano da considerarsi entrambe prodotti di qualità, nondimeno differiscono per architettura e possibilità.
Apache 1.3 è stato portato su una grande varietà di piattaforme Unix, ed è il server Web più largamente utilizzato in Internet.
Apache 1.3 su Unix è un server Web basato su processi. Il programma Apache, al suo avvio, genera (fork) svariati processi figli; con il fork un processo primario genera copie identiche di se stesso, chiamate figli. Ognuno di tali figli può servire una richiesta indipendente dalle altre, con il vantaggio di migliorare la stabilità: se uno di tali figli ha un comportamento anomalo (va fuori controllo o ha perdite di memoria) può essere interrotto senza alcun effetto sugli altri. La stabilità è conseguita a spese delle prestazioni. Nella maggior parte dei sistemi Unix, la creazione di processi e il cambiamento del contesto (assegnazione di tempo del processore a ogni processo) sono operazioni costose in termini di risorse di sistema, dal momento che i processi sono isolati gli uni dagli altri e non possono quindi facilmente condividere codice e dati.
Apache 1.3 è la prima versione di Apache a supportare Windows, per quanto tale adattamento non sia considerato stabile come quello su Unix, visto che il server è stato progettato prendendo come riferimento Unix, mentre la versione per Windows ha costituito una aggiunta successiva, non molto bene integrata.
Apache 1.3 possiede un'architettura modulare, che permette di abilitare o disabilitare moduli per aggiungere o rimuovere funzionalità al server Web. È possibile personalizzare Apache per migliorarne le prestazioni e la sicurezza. In aggiunta ai moduli di base, esiste un gran numero di moduli di terze parti, con i quali è possibile ampliare ulteriormente le funzionalità del server.
Apache 2.0 è la più recente e migliore versione del server Apache, la cui architettura contiene significativi miglioramenti rispetto alla serie 1.3, tra i quali si possono menzionare i seguenti.
Apache 2.0 astrae l'architettura di elaborazione delle richieste tramite moduli speciali, chiamati Multi Processing modules (MPMs), ossia moduli Multi Processo, grazie ai quali Apache può essere configurato come un server basato su processi, come un server puramente basato su thread o come un misto di tali modelli. I thread sono inglobati all'interno dei processi e sono eseguiti simultaneamente; a differenza dei processi, possono condividere sia dati che codice, risultando così più "leggeri", tanto che in molti casi i server di tipo "threaded" hanno una migliore scalabilità rispetto ai server basati su processi. Il server risulta, per contro, meno affidabile, perché se un thread ha un comportamento anomalo può causare la corruzione di codice o di dati appartenenti ad altri thread.
La gestione dei protocolli in Apache 2.0 è stata incapsulata in un suo proprio livello, rendendo possibile la scrittura di moduli per protocolli diversi da HTTP, quali POP3 per la posta o FTP per il trasferimento di file. Questi moduli di protocollo possono trarre vantaggio dalla solida ossatura del server e dalla funzionalità dei moduli, come l'autenticazione e la generazione di contenuti dinamici. Questo significa che, per esempio, è possibile autenticare i propri utenti POP3 tramite lo stesso database di utenti che Apache usa per le richieste web e che il contenuto FTP può essere generato dinamicamente grazie a PHP, CGI o qualunque altra delle tecnologie descritte più avanti in questo stesso documento.
Apache 2.0 conserva l'architettura modulare di 1.3 con l'aggiunta di un ulteriore meccanismo di estensione rappresentato dai filtri, che consentono ai moduli di modificare il contenuto generato da altri moduli. Possono criptare, effettuare la scansione alla ricerca di virus o comprimere non solo i file statici, ma anche i contenuti generati dinamicamente.
Sfortunatamente, per quanto il modulo API sia simile in entrambe le versioni, non è comunque identico e i moduli di Apache 1.3 necessitano di essere adattati alla nuova architettura. La maggioranza dei moduli più importanti, come PHP o mod_perl hanno già la versione per Apache 2.0, mentre altri, come mod_dav e mod_ssl, sono ora parte della distribuzione del server. Il funzionamento dei moduli su un'architettura "threaded" richiede modifiche specifiche ai moduli. I moduli distribuiti con Apache hanno beneficiato di tali modifiche e sono ora considerati 'thread-safe', ma i moduli e le librerie di terze parti possono non esserlo, per cui, se si ha bisogno di qualcuno di questi ci si deve limitare a usare Apache come server basato unicamente su processi.
Apache funziona ugualmente bene sia su piattaforme Windows che Unix grazie alla libreria Apache Portable Runtime (APR), che astrae le differenze tra sistemi operativi, come le API di accesso al network o ai file. Adattare Apache ad una nuova piattaforma risulta spesso altrettanto semplice che adattare il livello di astrazione rappresentato dalla Apache Portable Runtime, la quale provvede anche alla messa a punto e all'ottimizzazione specifica per una determinata piattaforma.
Apache fornisce svariati moduli orientati alla sicurezza per regolamentare gli accessi al server.
I moduli di autenticazione permettono di determinare l'identità di un client, solitamente attraverso la verifica del nome utente e della password rispetto ai dati registrati in un database. Apache comprende inoltre moduli di autenticazione che connettono Apache con strutture o database di sicurezza, includendo tra gli altri: NT Domain controller, Oracle, mySQL, PostgresSQL e così via.
Particolarmente interessanti sono i moduli LDAP, in quanto consentono l'integrazione con servizi di directory a livello di compagnia o di impresa. È possibile trovare tali moduli presso http://modules.apache.org. Un modulo LDAP per Apache 2.0 può essere scaricato dal sito web di Apache.
Apache fornisce il modulo mod_access che può limitare l'accesso alle risorse basandosi su parametri della richiesta del client, come la presenza di una specifica intestazione o dell'indirizzo IP o del nome host del client. Moduli di terze parti permettono di limitare l'accesso per quei client responsabili di comportamenti irregolari, come spiegato più oltre nelle sezioni dedicate alle prestazioni e al controllo dell'ampiezza di banda.
I protocolli Secure Sockets Layer/Transport Layer Security consentono di criptare i dati trasmessi tra il server Web e il client. In Apache 1.3, i protocolli sono implementati con il mod_ssl, distribuito separatamente dal sito web di mod_ssl, che rende necessario applicare alcune patch al server, a causa della regolamentazione sull'esportazione di software di criptatura. La maggior parte di tali restrizioni sono nel frattempo decadute e, a partire da Apache 2.0, il modulo mod_ssl è incluso in Apache come modulo base.
Un proxy è un programma che effettua richieste per conto di qualcun altro. Esistono diversi tipi di proxy per il Web. Un tradizionale proxy HTTP, chiamato anche forward proxy, accetta richieste dai client (solitamente browser Web), contatta il server remoto e restituisce le risposte.
Un reverse proxy è un server Web collocato di fronte a altri server, per i quali costituisce un accesso unificato sgravandoli da determinate incombenze, come l'elaborazione SSL.
Apache supporta entrambi i tipi di proxy, l'immagazzinamento di una cache di contenuti Web e differenti proxy di backend tipo FTP.
La grezza prestazione è solo uno dei fattori da considerare in un server Web (di solito flessibilità e stabilità vengono prima).
Detto questo, ci sono soluzioni per migliorare le prestazioni in server web che forniscono contenuti statici e sottoposti a carichi gravosi. Per le imprese di hosting, Apache fornisce anche sistemi per misurare e controllare l'uso dell'ampiezza di banda. In questo contesto, abitualmente la regolazione si traduce in un rallentamento della distribuzione del contenuto in base al file richiesto, ad uno specifico indirizzo IP del client e così via. Questo è fatto al fine di prevenire gli abusi.
Usando il reverse proxy di Apache e il mod_rewrite è possibile ottenere un processo di distribuzione delle richieste tra una varietà di server web di backend. Per maggiori informazioni si veda http://www.apache.org/docs/misc/rewriteguide.html
In aggiunta, il mod_backhand è un modulo di Apache 1.3 che consente una redirezione di richieste HTTP priva di giunzioni, tra un server web e l'altro. Questa redirezione può essere usata per coinvolgere macchine le cui risorse siano sottoutilizzate, ottenendo così un granulare bilanciamento del carico delle richieste web. Per maggiori informazioni si veda http://www.backhand.org/.
Apache 2.0 include mod_deflate, un modulo di filtraggio che comprime il contenuto prima di inviarlo al client. Questo limita lo spreco di banda ma può avere un impatto negativo sulle prestazioni. Il modulo mod_gzip fornisce questa funzionalità per Apache 1.3.
CGI sta per Common Gateway Interface. I programmi CGI sono programmi esterni che vengono invocati quando un utente richiede una certa pagina. Il programma CGI riceve le informazioni dal server web (valori variabili del form, tipo di browser, indirizzo IP del client e così via) e usa tali informazioni per produrre una pagina web per il client.
Apache ha il supporto per CGI e c'è un modulo di terze parti per Apache 1.3 che garantisce il supporto per il protocollo FastCGI, il quale evita le penalizzazioni prestazionali associate all'avvio ed all'arresto di un programma CGI a ogni richiesta. Lo si può trovare a http://fastcgi.com/
Le applicazioni web sono scritte in linguaggi di alto livello come Java, Perl, C# e così via e Apache dispone di svariati moduli che ne permettono l'integrazione con il server. In molti casi i moduli espongono la API di Apache, così che tutti i moduli Apache possano essere scritti in questi linguaggi.
mod_perl è un veterano tra i progetti Apache e uno dei più fortunati. Ingloba all'interno di Apache un interprete Perl e consente l'accesso, tramite Perl, all'interno di Apache. Permette che interi moduli possano essere scritti in Perl o in un misto di Perl e di codice C. Nella versione 1.3 di Apache, in ogni processo figlio deve essere incluso un interprete, visto che il server si basa sul multiprocesso. In siti dinamici a alto traffico, l'accresciuta dimensione può fare la differenza. Nelle versioni threaded di Apache 2.0, il mod_perl permette la condivisione del codice, dei dati e dello stato della sessione tra i vari interpreti, tendendo a una soluzione più snella e veloce.
mod_perl costituisce di per sé un'altra piattaforma, con una grande varietà di moduli disponibili, come Mason e Embperl per l'inclusione del Perl in pagine HTML e AxKit per template ricavati da XML.
Dal sito web di PHP: PHP è un linguaggio di scripting, lato server, indipendente dalla piattaforma, inserito in HTML.. È il modulo per Apache più popolare e questo grazie ad una varietà di ragioni:
Python è un popolare linguaggio di scripting orientato agli oggetti. Mod_Python, che è ora un progetto Apache ufficiale, permette di integrare Python con il server web Apache. È possibile sviluppare applicazioni web complesse o sveltire script CGI Python esistenti. Le versioni recenti funzionano su Apache 2.0.
Il Progetto Tcl Apache integra Tcl con il server web Apache. Tcl è un linguaggio di scripting leggero e estensibile. Per saperne di più su Tcl si veda qui. Ci sono attualmente svariati moduli sotto l'ala di Apache Tcl:
Svariati moduli permettono l'integrazione con i linguaggi e le tecnologie Microsoft quali la struttura .Net o le Active Server Pages.
mod_haydn integra Mono con Apache e espone la API di Apache alla struttura .Net, permettendo, per esempio, la scrittura di moduli in C#. Covalent fornisce mod_asp.net, un modulo commerciale Windows che permette ad Apache di lanciare applicazioni ASP.Net, consentendo di rimpiazzare Microsoft IIS.
ASP, che sta per Active Server Pages, è una tecnologia Microsoft che permette di inserire codice, abitualmente Visual Basic, nelle pagine HTML. Diverse compagnie come ChilliSoft e Stryon forniscono prodotti in grado di far funzionare applicazioni ASP in ambiente Unix.
ISAPI è una API utilizzabile per estendere Microsoft IIS, in modo simile a come si userebbe la API di Apache. Apache include un modulo mod_isapi che rispecchia questa funzionalità e permette di usare moduli ISAPI.
La maggior parte dei server di applicazioni, come quelli di Oracle, IBM e BEA forniscono moduli per l'integrazione con il server web Apache. In aggiunta, svariati moduli come mod_jk e mod_webapp permettono la connessione con Tomcat, un contenitore di Servlet e JSP (JavaServer Pages) che fa sempre parte della Apache Software Foundation.
Questo documento ha descritto moduli per linguaggi lato server popolari come Perl, Python e PHP. Moduli aggiuntivi per altri linguaggi (JavaScript, Haskell, Ruby e altri) si possono trovare nella directory dei moduli di Apache.
Una parte importante dell'amministrazione di server Web comprende la compilazione, la configurazione e il controllo di diversi server.
Apache può essere esteso e personalizzato in molti modi differenti. L'integrazione di moduli esterni con il server può talvolta costituire un compito difficile. Strumenti come Apache Toolbox possono semplificare questo compito, fornendo un ambiente di compilazione dotato di menu.
Apache è configurato tramite file di testo, il che talvolta può risultare ostico, specie per chi provenga da un ambiente Windows. Esistono strumenti grafici open source che facilitano questo compito:
SNMP sta per Simple Network Management Protocol. Consente il controllo e la gestione di server di rete, attrezzature e così via. I moduli SNMP per Apache aiutano nella gestione di vasti spiegamenti di server web, misurano la qualità del servizio offerto e l'integrazione di Apache con le preesistenti infrastrutture di gestione.
Gli autori di contenuti Web richiedono uno strumento per gestire tali contenuti e per l'upload sul server. Uno dei protocolli usati a questo scopo è DAV (Distributed Authoring and Versioning). DAV è un'estensione del protocollo HTTP che permette a utenti e applicazioni di pubblicare e modificare contenuti Web. La tecnologia DAV è ampiamente implementata, Microsoft la supporta a livello di sistema operativo (WebFolders) e nella sua suite Office. Lo stesso vale per Apple OS-X e una varietà di prodotti di terze parti come Adobe, Oracle e così via. Il modulo mod_dav per Apache 1.3 si può trovare presso http://www.webdav.org/mod_dav/. In Apache 2.0, il mod_dav è incluso nella distribuzione di base.
Antecedentemente a DAV, Microsoft disponeva di un proprio protocollo per il publishing, integrato nell'applicazione Microsoft FrontPages. Un supporto lato server per FrontPages si può ottenere con i moduli di http://www.rtr.com/Ready-to-Run_Software/, tuttavia, a causa del modo con cui si integrano con Apache, non sono da ritenere sicuri.
Apache 2.0 introduce il concetto di moduli di protocollo. Il che significa che gli sviluppatori possono riutilizzare l'infrastruttura del server Apache per implementare nuovi protocolli, come quelli che si occupano della posta o del trasferimento di file. mod_ftp è un modulo FTP commerciale basato su Apache fornito da Covalent. mod_pop3 è un modulo open source che implementa il protocollo POP3, comunemente usato per recuperare i messaggi di posta dai relativi server.
Apache fornisce supporto estensivo per l'hosting virtuale, il che realizza la possibilità di servire vari siti web con un singolo server. In Apache 2.0, con i MPM si possono avere svariati processi "figli", ognuno dei quali al servizio di un dominio differente sotto identificativi di utente Unix differenti. Questo è molto importante per la sicurezza in scenari di hosting condiviso, in quanto permette di isolare i clienti l'uno dall'altro. I seguenti sono alcuni moduli addizionali, alternativi, per l'hosting virtuale.
Apache è il server web d'elezione per svariate entità commerciali, incluse le grandi imprese. Tali compagnie chiedono determinati requisiti alle tecnologie da adottare, specie a quella che costituirà il nucleo della loro strategia Internet, come i server Web. Tali requisiti comprendono prestazioni, stabilità, possibilità di gestione, supporto, servizi professionali e integrazione con i sistemi proprietari. Compagnie commerciali, come IBM, Red Hat e Covalent, forniscono i prodotti e i servizi necessari affinché Apache soddisfi le esigenze della clientela Enterprise.
In aggiunta, svariate altre compagnie ed OEM offrono Apache come server web incluso nei loro prodotti.