bolug bonner linux user group
news about wissen files archive hilfe suchen  

 

archive :: SchAN-User

druckfassung

SchAN-User

Re: [Schan-user] squidGuard

To: Schulen ans Netz - Anwender <schan-user@xxxxxxxxxxxxxxxxx>
Subject: Re: [Schan-user] squidGuard
From: Hans-Dietrich Kirmse <hd.kirmse@xxxxxx>
Date: Fri, 11 Jan 2013 14:34:22 +0100
Hallo,

Am 11.01.2013 14:07, schrieb Helmut Hullen:
Hallo, Hans-Dietrich,

Du meintest am 11.01.13:

Ob die k12-Liste oder aber die shallalist benutzt wird, scheint eher
eine Glaubensfrage zu sein

[...]

Auch hier: da die Shallalist von den Entwicklern von Squidguard
selbst stammt, passt natürlich die Voreinstellung (Kategorien) zu
denen der Shallalist.

Das garantiert leider keinerlei fortlaufende und ausreichende (oder auch
gute) Pflege. Weder bei der einen noch bei der anderen Liste.

Das ist klar, dass die (passenden) Voreinstellungen keine Pflege garantieren. Ich habe versucht zum Ausdruck zu bringen, dass man erwarten kann, dass die Shallaliste deshalb gepflegt wird, weil die Entwickler von Squidguard auch professionellen Support leisten. Von Garantie habe ich nicht geschrieben.

Beispielsweise: in beiden Listen sind Unmengen von Adressen aufgelistet
(grob geschätzt: jeweils etwa die Hälfte), die zu dynamisch vergebenen
IP-Adressen oder URLs gehören. Da ist die Wahrscheinlichkeit gering,
dass unter diesen Adressen auch jetzt noch Schmuddelseiten liegen.

Und sehr viele URLs sind aktuell "tot", wie ein "host<url>" zeigt. So
etwas ist nur Ballast.

Die Squidguardlisten werden ja "compiliert", d.h. es werden ausgeglichene Binärbäume erstellt, sodass die Suche in diesen Bäumen erfolgt. Wenn man als *Modell* einfach nur einen ausgeglichenen Binärbaum nimmt, dann würde man bei einer Mill. Einträgen für die Suche einer URL in dem Binärbaum nur 20 Vergleiche benötigen. Bei der doppelten Anzahl von Einträgen, also 2 Mill. Einträgen würde man 21 Vergleiche benötigen. Bei unseren 9 Millionen Einträgen im Schnitt etwas mehr als 24 Vergleiche benötigen. Will sagen, was stört es da, das die Hälfte der URLs/Domains tot ist. Entscheidend ist, dass neue URLs übernommen werden. Dann ist die Liste gepflegt (so sehen es sicherlich die Entwickler - schlüssig ist die Argumentation auf jedenfall)

Allerdings sind diese toten URLs/Domains auf der Platte nur Ballast. Aber bei der Größe der aktuellen Platten ist das kein überzeugendes Argument. Wo aber dieser Ballast wirklich zum Tragen kommt ist eben die Zeit zum Compilieren, also ein Aufruf z.B. von "squidGuard -d -C all". Da ja der Baum erst erzeugt wird und damit noch nicht zum Tragen kommt ist hier davon auszugehen, dass bei Entfernen der toten URLs sich direkt auf diese Zeit auswirkt. Wenn also die Hälfte der einträge entfernt würden, dann sollte die Zeit auch auf die Hälfte runtergehen.

Viele Grüße
Hans-Dietrich

_______________________________________________
schan-user mailing list
schan-user@xxxxxxxxxxxxxxxxx
http://www.heise.de/bin/newsletter/listinfo/schan-user

 « Vorige im Thread  Dieser Thread  Nächste im Thread » 

 

seitenanfang


 

news about wissen files archive hilfe suchen  
kontakt letzte änderung: 11.01.2013