The Content Name Collection

Eine Sammlung freier content name Datensätze für Information Centric Networking

Motivation

Die "Content Name Collection" (CNC) listet und hostet freie Datensätze von content names. Diese Datensätze sind entweder von URL Link Datenbanken oder Webprotokollen abgeleitet. Die Namen werden normalerweise für die Forschung im Bereich Information Centric Networking (ICN) verwendet, zum Beispiel für die Messung von Speicher-Trefferquoten in Simulationen.

Momentane Grösse der CNC (komp./unkomp.): 85,8 GB / 486 GB
CNC Zeitstempel: 2017-05-17-14:00:00

Download

2014
Datensatz # Content Names eindeutig MIME Type,
Encoding
Komprimierung # Dateien Grösse
komp./unkomp.
unibas-icn-names-2014-08-teaser 10'000 nein text/plain, UTF-8 keine 1 - / 411 KB
unibas-icn-names-2014-08 2'144'314'011 nein text/plain, UTF-8 ja, LZMA2/xz 215 24,5 GB / 115 GB
unibas-icn-names-2014-08-unique 870'501'646 ja text/plain, UTF-8 ja, LZMA2/xz 88 8,49 GB / 56,3 GB
unibas-url-names-2014-08-teaser 10'000 nein text/plain, UTF-8 keine 1 - / 451 KB
unibas-url-names-2014-08 2'144'314'011 nein text/plain, UTF-8 ja, LZMA2/xz 215 24,9 GB / 120 GB
unibas-url-names-2014-08-unique 870'896'633 ja text/plain, UTF-8 ja, LZMA2/xz 88 8,68 GB / 58,6 GB
cisco-icn-names-2014-12 13'549'122 nein text/plain, UTF-8 ja, LZMA2/xz 14 104 MB / 754 MB
cisco-url-names-2014-12 13'549'129 nein text/plain, UTF-8 ja, LZMA2/xz 14 104 MB / 755 MB

2016
Datensatz # Content Names eindeutig MIME Type,
Encoding
Komprimierung # Dateien Grösse
komp./unkomp.
unibas-icn-names-2016-08 1'409'358'326 ja text/plain, UTF-8 ja, LZMA2/xz 141 16,7 GB / 117 GB
unibas-icn-names-2016-08-cc-(1-5) 244'014'444 ja text/plain, UTF-8 ja, LZMA2/xz 5 2,3 GB / 17,4 GB

2017 - Hackaton an der Universität Basel
Datensatz # Content Names eindeutig MIME Type,
Encoding
Komprimierung # Dateien Grösse
komp./unkomp.
urls.txt 2'144'314'011 nein text/plain, UTF-8 keine 1 - / 121 GB
urls-sample.txt 170'000'000 nein text/plain, UTF-8 keine 1 - / 9,68 GB

Metadaten: metadata.txt

Beispiel: die unibas Datensätze

Als Ausgangsmaterial diente das Kurz-URL Archiv (Ausgabe vom 20.07.2013), bereitgestellt vom URLTeam. Das Archiv besteht aus URLs, welche die Benutzer von verschiedenen Kurz-URL-Diensten wie etwa bit.ly, is.gd, TinyURL.com und anderen kürzen liessen. Das Archiv enthält auch die entsprechenden Kurz-URLs. Der Vorteil dieses Archivs ist es, dass die URLs (meistens) auf tatsächlich vorhandene Inhalte im Internet verweisen. Es wiederspiegelt deshalb zimlich gut die Realität des Internets.

Die unibas Datensätze kommen in zwei Varianten daher, entweder als ICN-ähnliche content names oder als URL-ähnliche content names. Für jeden gültigen Eintrag im Kurz-URL Archiv stellen wir zwei verschiedene Repräsenatationen zu Verfügung. Beispiele für beide Kategorien:

ICN content names:

Entsprechende URL content names:

Beachten Sie, dass die Komponenten des Domänennamens von den URL-ähnlichen Namen zu den ICN-ähnlichen Namen hin invertiert wurden.

Kontakt

Federführung:
Urs Schnurrenberger (urs.schnurrenberger@unibas.ch)

Ebenfalls involviert:
Christian Tschudin, Manolis Sifalakis

Universität Basel
Departement Mathematik
und Informatik
Spiegelgasse 1
CH - 4051 Basel