Standardisierte Nutzungsstatistiken für Open-Access-Repositorien und -Publikationsdienste

(1)

Impressum

DINI – Deutsche Initiative für Netzwerkinformation e. V.

DINI-Geschäftsstelle

c/o Niedersächsische Staats- und Universitätsbibliothek Göttingen Platz der Göttinger Sieben 1

37073 Göttingen Tel.: 0551 39-33857 Fax: 0551 39-5222 E-Mail: gs@dini.de

DINI Schriften 13-de

Standardisierte Nutzungsstatistiken für Open-Access-Repositorien

und -Publikationsdienste

DFG-Projekt „Open-Access-Statistik“

und

DINI-Arbeitsgruppe „Elektronisches Publizieren“

(2)

(3)

DINI Schriften 13-de

Standardisierte Nutzungsstatistiken für Open-Access-Repositorien

und -Publikationsdienste

DFG-Projekt „Open-Access-Statistik“

DINI-Arbeitsgruppe „Elektronisches Publizieren“und

(4)

Impressum

DINI – Deutsche Initiative für Netzwerkinformation e. V.

DINI-Geschäftsstelle

c/o Niedersächsische Staats- und Universitätsbibliothek Göttingen Platz der Göttinger Sieben 1

37073 Göttingen Tel.: 0551 39-33857 Fax: 0551 39-5222 E-Mail: gs@dini.de www.dini.de

Stand: September 2013

(5)

Inhaltsverzeichnis

Über DINI 5

Zusammenfassung 6

1 Einleitung 7

2 Open-Access-Statistik 9

3 Standards und Protokolle 11

3.1 Evaluierung 12

3.2 Ergebnisse der Umfragen 13

3.3 Fazit 17

4 Implementation 20

4.1 Verarbeitung der Zugriffsinformationen 21

4.2 Rückführung der aggregierten Nutzungszahlen in die Repositorien 23 4.3 Optimierung der Technik und Konsolidierung der Nutzungszahlen 24 Exkurs: Erfahrungsbericht des Pilotpartners EconStor 25

4.4 Datenschutz 27

4.5 Filterung nicht-menschlicher Zugriffe 28

5 Aktuelle Entwicklungen und Anforderungen 30

6 Literaturverzeichnis 35

Verzeichnis der Autorinnen und Autoren 37 Aufnahmeantrag für die Mitgliedschaft in DINI e. V. 38

(6)

(7)

Über DINI

Die Entwicklung der modernen Informations- und Kommunikations techno- logie verursacht einen Wandel innerhalb der Informationsinfrastrukturen der Hochschulen und anderer Forschungseinrichtungen. Dieser Wandel ist ein zen- trales Thema in der deutschen Hochschullandschaft und setzt mehr als bisher Absprachen, Kooperationen, Empfehlungen und Standards voraus. Die Deutsche Initiative für Netzwerkinformation (DINI) unterstützt diese Entwicklung.

DINI wurde gegründet, um die Verbesserung der Informations- und Kommunika- tions dienstleistungen und die dafür notwendige Entwicklung der Informations- infrastrukturen an den Hochschulen sowie regional und überregional zu fördern.

Durch Absprachen und Arbeitsteilung zwischen den Infrastruktureinrichtungen soll das Informationstechnik- und Dienstleistungsangebot weiter verbessert werden.

Hierfür ist auch die gemeinsame Entwicklung von Standards und Empfehlungen erforderlich.

DINI ist eine Initiative der drei Partnerorganisationen:

• AMH (Arbeitsgemeinschaft der Medienzentren an Hochschulen e. V.),

• dbv (Deutscher Bibliotheksverband Sektion 4: Wissenschaftliche Universal

bibliotheken) und

• ZKI (Zentren für Kommunikation und Informationsverarbeitung in Lehre und Forschung e. V.).

DINI verfolgt das Ziel,

• beispielhafte Lösungen bekannt zu machen und für die Nachnutzung zu emp- fehlen,

• die Erarbeitung, Anwendung und Weiterentwicklung von Standards anzuregen, zu unterstützen sowie Empfehlungen für deren Einsatz zu verbreiten,

• Kompetenzzentren zu registrieren und mithilfe moderner netzbasierter Instrumente bekannt zu machen,

• den übergreifenden Erfahrungsaustausch durch Tagungen, Workshops, Experten gespräche u. Ä. zu verbessern,

• Förderprogramme bekannt zu machen und neue Programme anzuregen.

(8)

Zusammenfassung

Der Dienst Open-Access-Statistik (OA-Statistik) stellt Repositorien und Publikationsdiensten standardisierte Nutzungsstatistiken für Dokumente zur Verfügung. Erklärtes Ziel ist es, so die Akzeptanz von Open Access bei Autorinnen und Autoren sowie bei Leserinnen und Lesern von wissenschaftlichen Publikationen zu erhöhen. Im Gegensatz zu zitationsbasierten Metriken, die den Einfluss einer Publikation retrospektiv bewerten, geben Nutzungsstatistiken aktuelle Relevanz eines digitalen Dokumentes wieder und können so dynamische Trends des World Wide Web abbilden.

Im Rahmen des DFG-geförderten Projekts OA-Statistik wurde eine Infrastruktur zur Erfassung und Verarbeitung von standardisierten Nutzungsdaten aufgebaut, die nach Ablauf der zweiten Förderphase im Sommer 2013 an die Verbundzentrale des GBV (VZG) übergeben wurde.

(9)

1 Einleitung

Die Reputation eines Wissenschaftlers im akademischen Diskurs wird an der Bedeutung seiner Arbeiten und seiner wissenschaftlichen Präsenz gemessen. Die Bewertung des Einflusses seiner wissenschaftlichen Veröffentlichungen beruht dabei traditionell auf dem auf Zitationen basierenden Journal Impact Factor (JIF).

Ein hoher Journal Impact Factor gilt gemeinhin als Zeichen für die Qualität einer Zeitschrift und der in ihr erscheinenden Artikel. Dieser Wert spielt vor allem in den Naturwissenschaften und in der Medizin eine große Rolle und wird als eine Art Gütesiegel für wissenschaftliche Leistung betrachtet. Nicht selten hängt die Karriere eines Wissenschaftlers davon ab, wie viele Artikel er in Zeitschriften mit hohem JIF publiziert hat.

Der JIF ist ein Durchschnittswert für die Anzahl von Zitationen einer Zeitschrift.

Dabei wird nicht betrachtet, wie oft einzelne Artikel, sondern wie oft alle Artikel einer Zeitschrift innerhalb einer bestimmten Zeitspanne (in der Regel zwei Jahre) vor dem Bezugsjahr, für den der JIF berechnet wird, im Durchschnitt zitiert wurden.

Als Berechnungsgrundlage dienen dabei die Zitationen aus allen Zeitschriften, die im Web of Science enthalten sind, einer bibliographischen Datenbank, die gegen Gebühren lizenziert werden kann. Im Web of Science sind hauptsächlich international orientierte Zeitschriften enthalten, in denen nur Artikel veröffentlicht werden, die das Peer-Review-Verfahren erfolgreich durchlaufen haben. Der JIF ist insbesondere deshalb nicht unumstritten¹, da diese Messung der Zitationshäufigkeit lange nicht alle wissenschaftlichen Zeitschriften umfasst, einige Dokumentengattungen komplett ausschließt und die Berechnung nicht für den einzelnen Artikel, sondern jeweils für die gesamte Zeitschrift erfolgt.

Im Zeitalter digitaler Online-Publikationen tritt die klassische Veröffentlichung in den Printmedien zunehmend in den Hintergrund. Als Alternative zum JIF können nun Nutzungsstatistiken als Download-Zahl ermittelt werden, die ebenfalls einen Usage Impact abbilden. Diese Statistiken können in Echtzeit und mit gerin- gem Aufwand erhoben werden. Die Auswertung erfolgt auf Objektebene (vgl.

Tabelle 1). So kann jeweils pro Artikel ein Usage-Impact-Wert ermittelt werden.

Die Messung bei zitationsbasierten Metriken kann dagegen nur zeitversetzt statt- finden, da die Zitationen rückwirkend – nach Erscheinen des zitierenden Artikels – gezählt werden und der Impact Factor daraufhin berechnet wird. Zudem werden nur im Index erfasste Zeitschriften für die Berechnung berücksichtigt. Die Messung

1 Vgl. Dong (2005) sowie Seglen (1997).

(10)

der Nutzung kann hingegen unmittelbar an der Publikation erfolgen. Sobald ein Zugriff stattgefunden hat, wird ein Zähler um eins nach oben gesetzt. Bei zitationsbasierten Metriken sind es die Autorinnen und Autoren, die im Rahmen der Wissenschaftskommunikation durch ihr Referenzieren von Publikationen die Metrik bestimmen. Bei den nutzerbasierten Metriken hingegen sind es die Leserinnen und Leser, die mit ihren Zugriffen auf einzelne Dokumente zeigen, dass diese für sie von Interesse sind. Somit ermöglichen Nutzungsstatistiken Aussagen über die zeitliche Verbreitung und Nutzung von Publikationen.

Zitationsbasierte Metriken Nutzungsbasierte Metriken

Autor/in Wer? Leser/in

zeitversetzt Wann? sofort

indexierte Journale Was? alle digitalen Objekte

Auswertung auf Journalebene Wie? Auswertung auf Objektebene Tabelle 1: Unterschiede zwischen zitationsbasierten und nutzungsbasierten Metriken Open-Access-Veröffentlichungen unterliegen keinen Zugangsbeschränkungen, so dass sie eine sehr gute Basis für die Erhebung von Nutzungsstatistiken bilden und auch die Etablierung eines international vergleichbaren und standardisierten Verfahrens ermöglichen. Open Access als Publikationsform ermöglicht somit die transparente und kostengünstige Bewertung der Verbreitung und Nutzung wissenschaftlicher Erkenntnisse. Diese Gedanken griff das Projekt OA-Statistik auf, um durch die Gewinnung vergleichbarer Nutzungsstatistiken und durch das Angebot einer dauerhaften Infrastruktur zur Erfassung und Verarbeitung von Nutzungsdaten die Akzeptanz von Open Access bei Autorinnen und Autoren sowie Rezipientinnen und Rezipienten von wissenschaftlichen Publikationen zu erhöhen. Der Dienst OA-Statistik stellt aggregierte und standardisierte Nutzungsdaten von elektronischen wissenschaftlichen Dokumenten, die in Repositorien nach dem Open- Access-Prinzip zugänglich gemacht wurden, zur Verfügung. Diese Dokumente erhalten durch den Dienst OAStatistik eine nutzungsbasierte Bewertung.

(11)

2 Open-Access-Statistik

Seit 2008 wurde im Projekt OAStatistik ein Dienst entwickelt, der auf die Berechnung und Bereitstellung vergleichbarer und standardisierter Nutzungsstatistiken für wissenschaftliche Open-Access-Repositorien und den darauf bereitgestellten Publikationen abzielt. Um standardisierte Nutzungsstatistiken bereitstellen zu können, hat OA-Statistik eine Infrastruktur zum Austausch und zur Aggregierung von Nutzungsdaten aufgebaut. Projektpartner seit der ersten Förderphase waren die Niedersächsische Staats- und Universitätsbibliothek Göttingen, der Computer- und MedienService der HumboldtUniversität zu Berlin, die Saarländische Universitäts und Landesbibliothek Saarbrücken sowie die Universitätsbibliothek Stuttgart. In der zweiten Projektphase (2011 – 2013) kam die Verbundzentrale des GBV als weiterer Projektpartner hinzu. Um international abgestimmte Standards für den Austausch und die Berechnung von Nutzungsdaten zu garantieren, kooperierten die Projektpartner mit nationalen und internationalen Partnern.² Gemeinsam mit der Knowledge-Exchange-Arbeitsgruppe „Usage Statistics“³ hat OA-Statistik Richtlinien⁴ zum standardisierten Austausch von Nutzungsdaten auf europäischer Ebene erarbeitet.

Die erste Projektphase endete im Dezember 2010. Bis dahin wurde die Grundlage für eine dauerhafte Infrastruktur zur Erfassung und Verarbeitung von Nutzungsdaten geschaffen. Sowohl die Entwicklung und Etablierung eines einheitlichen Standards zur Ermittlung von Zugriffszahlen als auch das Anbieten von Mehrwertdiensten für Repositorien standen hier im Fokus. Ergebnisse aus OA-Statistik flossen durch die Beteiligung von Projektmitarbeitenden in der DINIAG „Elektronisches Publizieren“

in das DINI-Zertifikat 2010⁵ ein. Dort wird die Infrastruktur von OA-Statistik expli- zit als Empfehlung für zertifizierte Repositorien genannt. Im April 2011 begann die zweite Projektphase, in der der Fokus auf der Erweiterung der Infrastruktur um weitere deutsche Repositorien sowie der performanten und kontinuierlichen Bereitstellung von standardisierten Nutzungsstatistiken lag. Nach Ablauf der Projektförderung (im Sommer 2013) hat die VZG den Dienst übernommen und in ihr Dienstleistungsportfolio überführt. Damit verbunden sind zum einen der tech-

2 U. a. mit OA-Netzwerk (Deutschland), COUNTER (Großbritannien), ROAT (Japan) und OpenAIRE (Europa).

3 http://www.knowledge-exchange.info/Default.aspx?ID=365.

4 Vgl. Verhaar (2011).

5 http://www.dini.de/dini-zertifikat/

(12)

nische Betrieb des Dienstes auf Servern der VZG und zum anderen die gesamte finanzielle und vertragliche Abwicklung. Dabei wird die VZG durch die DINI-AG

„Elektronisches Publizieren“ sowie durch Eigenleistungen der Projektpartner unter- stützt. Grundlage der Überführung des Projekts in einen Dienst waren die in der Mitte der Projektlaufzeit erstellte Machbarkeitsstudie⁶ sowie eine datenschutzrechtliche Bewertung⁷ des Projekts. Interessierte Repositorienbetreiber können die VZG sowie die früheren Projektpartner von OA-Statistik kontaktieren und erhalten nach der Bereitstellung der Nutzungsdaten gegen geringe Gebühren die aggregierten und nach internationalen Standards aufbereiteten Nutzungsstatistiken zurück.

6 Vgl. OA-Statistik (2012).

7 Vgl. ZENDAS (2011).

(13)

3 Standards und Protokolle

Im Rahmen der Projektarbeit von OA-Statistik wurde auf eine enge Abstimmung mit verschiedenen internationalen Institutionen und Projekten geachtet. Ziel war es, möglichst einheitliche Standards zu verwenden, die einen Austausch von Nutzungsdaten ermöglichen. Vor Beginn der ersten Förderphase fand ein JISC-Workshop⁸ statt, bei dem sich die Teilnehmerinnen und Teilnehmer auf die Verwendung von OpenURL ContextObjects (NISO/ANSI 39.882004 Standard)⁹ und OAI-PMH als Standards verständigten.¹⁰ Darüber hinaus haben die Projektpartner im Rahmen der Knowledge-Exchange-Arbeitsgruppe

„Usage Statistics“ Richtlinien zum standardisierten Austausch von Nutzungsdaten erarbeitet.

Neben dem Austausch musste auch die Aggregierung der Nutzungsdaten anhand international abgestimmter Prozesse erfolgen. Anbieter wissenschaftlicher Literatur beklagten häufig die fehlende Homogenität in der Analyse entsprechender biblio- metrischer Daten. Aus diesem Grund wurden im Rahmen des Projekts OA-Statistik ausgewählte Experten zur Standarisierung der Zugriffsmessung elektronischer Dokumente befragt. Die Evaluation der gängigen Standards umfasste neben COUNTER (Counting Online Usage of Networked Electronic Resources)¹¹ als etabliertem Verfahren, das von Bibliotheken zur Überprüfung der Rentabilität von Zeitschriftensubskriptionen genutzt wird, noch LogEc¹² als Auswertungstechnik des wirtschaftswissenschaftlichen Servernetzwerks „Research Papers in Economics (RePEc)“ sowie IFABC¹³ als Verfahren zur Messung der Online-Zugriffshäufigkeiten in der Werbeindustrie. Das Ziel der Evaluation bestand darin, Informationen hinsichtlich Akzeptanz, Stärken und Schwächen der genannten Vorgehen zu erhalten, um dann aufbauend auf diesen Informationen das für OA-Statistik beste bzw.

akzeptierteste Verfahren auswählen zu können. Es ging also auch darum, die Verfahren nicht nur als solche zu bewerten, sondern ihre individuellen Vor- und Nachteile zu isolieren, um somit gegebenenfalls Vorschläge für neue Verfahren zu machen oder die Modifizierung bestehender Standards zu unterstützen.

8 Vgl. Merk (2008).

9 http://www.niso.org/apps/group_public/project/details.php?project_id=82 10 Vgl. Bollen (2006).

11 http://www.projectcounter.org/

12 http://logec.repec.org/

13 http://www.auditbureau.org.au/ifabctest/

(14)

Darüber hinaus strebte das Projekt OA-Statistik an, Informationen über etwaige Zusatzwünsche in Erfahrung zu bringen, die gegebenenfalls Basis neuer Services oder Features in elektronischen Publikationsangeboten sein könnten.

3.1 Evaluierung

Im Rahmen des Projekts OA-Statistik ging es neben der Einrichtung des Dienstes auch um die Analyse üblicher Methoden zur Berechnung von Nutzungsstandards sowie um die Diskussion möglicher Zusatzfunktionen. Hierzu waren zwei Evaluationen vorgesehen.¹⁴ Zudem konnte auf die Ergebnisse einer Umfrage aus der ersten Projektphase zurückgegriffen werden¹⁵, durch deren Vergleich die Entwicklung der letzten Jahre möglich war. Die übergeordneten Fragestellungen beider Umfragen lassen sich wie folgt zusammenfassen:

• Inwiefern können mittels Onlinezugriffszahlen Prestige und Aktivität von Open

Access-Dokumente ermittelt werden und welcher der möglichen Standards eignet sich dazu in der Praxis am besten? Zur Diskussion standen dabei auch die Parameter, welche die genannten Verfahren (COUNTER, LogEc und IFABC) zur Berechnung ihrer Kennwerte verwenden.

• Welche Zusatzfunktionen sind über die reinen Nutzungsstatistiken hinaus für Open-Access-Publikationsangebote interessant? Hier konnte auf die Umfrage aus der ersten Projektphase zurückgegriffen werden, die abgleichend noch- mals modifiziert mit Repositorien-Spezialisten durchgeführt wurde. Ziel war die Erstellung eines Rankings von potenziellen Zusatzfunktionen, die im Rahmen dieses Projektabschnitts zu realisieren waren.

Um die Analyse durchführen zu können, wurden für die beiden Umfragen insgesamt 32 Spezialisten im In und Ausland angeschrieben und zur Beantwortung ein- geladen. Die Auswahl der Experten fand durch Sichtung der Teilnehmer einschlä- giger Tagung und Autoren ebenso relevanter Literatur statt, zusätzlich konnten die angeschriebenen Personen die Informationen unter geeigneten Kollegen weiter- verbreiten, so dass ein Schneeballeffekt geplant eintrat. Von den Eingeladenen schlossen im Rahmen der ersten Umfrage acht Personen die Befragung ab, was einer überdurchschnittlichen Rücklaufquote von 25 % entspricht. Die zweite Umfrage wurde von neun Befragten vollständig abgeschlossen, was einer leicht verbesserten Rücklaufquote von 28 % entspricht.

14 Der vollständige Bericht ist unter http://www.dini.de/fileadmin/oastatistik/projektergebnisse/

OAS_Bericht_Evaluation.pdf abrufbar.

15 Vgl. Herb (2012).

(15)

Die Methodik beider Befragungen basierte auf einer Kombination standardisierter und offener Fragen im Rahmen einer Onlinebefragung, für die die Plattform surveymonkey¹⁶ bereitstand. Die Gliederung umfasste sieben Sektionen (Personal Details, Opinions, Usage, Information, General and Direct Comparision, Problems, Requirements, Requests and Outlook), die insgesamt 97 Fragen bein- halteten. Durch die nichtanonyme Befragung konnte es gewährleistet werden, dass individuelle Nachfragen in Form von Telefoninterviews möglich waren.

3.2 Ergebnisse der Umfragen

Ziel der ersten Umfrage war die Bewertung der gegenwärtig etablierten Standards.

Zusammenfassend kann festgestellt werden, dass COUNTER als wichtigster Standard von den meisten Befragten genannt wurde. Von den knapp 85 % der Befragten (vgl. Tabelle 2), die eine gute oder sehr gute Meinung zu COUNTER hatten, wurden verschiedene Gründe für ihre positive Meinung angegeben, die überwiegend aber auch mit Verbesserungswünschen versehen waren: „They (COUNTER) give useful information on the journal level. If it can be extended with information on items (as is proposed in the PIRUS project) the standard would be even more useful.” Die Gründe für die weitgehend positive Haltung zu COUNTER reichten von der normierenden Kraft des Faktischen – COUNTER sei am weitesten verbreitet und „globally recognized“ – bis hin zu detaillierteren Begründungen.

Dazu gehörte der „exchange of usage data for certain items, with some descriptive metadata“, wobei aber auch angemerkt wurde, dass die Analyse von Metadaten auf Artikel-Ebene erst mit Abschluss der Implementierungsphase Ende 2013 möglich sein wird. Kritisiert wurde auch die bei COUNTER fehlende Trennung zwischen Datenerhebung (auf Artikelebene) und Datenpräsentation (aggregiert auf Journalebene ohne zeitliche Differenzierung), eine in der Entstehung intransparente und weitgehend unsystematische RobotListe, eine zu kurze Doppelklickspanne, eine fehlende Vergleichsmöglichkeit zwischen konventionellen und Open-Access-Publikationen sowie eine unzureichende Dokumentation in den Reports: „A lot is missing in the resulting reports: no user identification, only minimal metadata about the item, no referer (sic) info.“ Trotz dieser Kritikpunkte überwogen die positiven Antworten. Immer wieder wurde darauf verwiesen, dass COUNTER mit seinen Standardisierungen robuste Statistiken produziere, Vergleiche überhaupt erst ermögliche und zudem als eine gute Ausgangsbasis für zukünftige Analysemöglichkeiten angesehen wird: „Being a recognised standard

16 https://de.surveymonkey.com

(16)

it is a good basis for underpinning o(t)her (sic) things such as alt-metrics which can then inform the context of use.“

Überraschenderweise zeigte sich trotz der insgesamt positiven Einschätzungen von COUNTER, dass dieser Standard im direkten Einzelvergleich bestimm- ter Berechnungsparamter der vergleichsweise schlechtere ist. Diese Diskrepanz kann unter Umständen durch den Umstand erklärt werden, dass Annahmen und Stereotype einen umso stärken Einfluss haben, je allgemeiner das Bewertungsniveau ist. Je detaillierter die Bewertung ist, umso weniger spielen Annahmen eine Rolle. Hier ist das reale Wissen gefragt, das mitunter zu gegen- läufigen Ergebnissen führt.

Do you agree that COUNTER/LogEc/IFABC is a suitable standard for your work?

COUNTER LogEc IFABC

Strongly disagree 7,7 % 7,7 % 7,7 %

Somewhat disagree 7,7 % 15,4 %

Don‘t know 15,4 % 15,4 %

Somewhat agree 53,8 % 23,0 % 15,4 %

Strongly agree 30,8 % 7,7 %

Not familiar with … 30,8 % 61,5 %

Tabelle 2: Suitable standard for work

(17)

Please rate several COUNTER criteria by comparing it to LogEc¹⁷. Do you generally consider COUNTER’s criteria to be much worse, worse, as good as, better, or much better than LogEc’s?

Counter criteria COUNTER vs. LogEc Multiclick interval COUNTER vs. LogEc User identification COUNTER vs. LogEc Crawler Definition COUNTER vs. LogEc Crawler identification COUNTER vs. LogEc Crawler counter COUNTER vs. LogEc

Much worse 0 % 0 % 0 % 0 % 0 % 0 %

Worse 20 % 40 % 20 % 20 % 40 % 0 %

As good as 40 % 20 % 20 % 20 % 0 % 20 %

Better 20 % 0 % 20 % 20 % 20 % 20 %

Much better 0 % 0 % 0 % 0 % 0 % 0 %

Don‘t know 20 % 40 % 40 % 40 % 40 % 60 %

Tabelle 3: COUNTER vs. LogEc¹⁷

Aus Expertensicht schneidet COUNTER am besten ab, etwaige technische Unzulänglichkeiten spielten dabei eine nur untergeordnete Rolle. Interessanterweise schienen sich die Experten dabei weniger von detaillierten Fakten leiten zu lassen, sondern eher von ihrem Empfinden. Es schienen also nicht die tatsächlichen Fähigkeiten eines Systems im Vordergrund zu stehen, sondern seine Verbreitung und sein Image in den entsprechenden Communities. Dies reflektiert vermutlich den Wunsch nach Vereinheitlichung. COUNTER wurde nicht nur am besten ein- geschätzt, sondern war auch am bekanntesten und folgerichtig auch am meisten verbreitet. Die Bedeutung von COUNTER zeigte sich besonders darin, dass der Standard als Blaupause genommen wurde, um sich Gedanken über einen fiktiven

„eigenen“ idealen Berechnungsstandard zu machen.

17 Der Standard IFABC fehlt in diesem Vergleich, da knapp zwei Drittel der Befragten angaben, überhaupt keine Erfahrungen mit diesem Standard zu haben. Selbst die Befragten, die über Erfahrungen mit IFABC verfügten, waren überwiegend der Meinung, dass diese für einen Vergleich mit COUNTER nicht ausreichten.

(18)

Unabhängig von den realen Vorgaben durch COUNTER, LogEc und IFABC wurden die Befragten darum gebeten, ihren idealen Standard zu skizzieren. Dieser ideale Standard präsentiert den Befragungsergebnissen zufolge Ergebnisse über JSON und ermöglicht eine anspruchsvolle Visualisierung, ist in der Verarbeitung schnell, in den jeweiligen Communities als State of the Art anerkannt und entsprechend verbreitet, verfügt über eine stets aktuelle RobotListe, eine effektive Zugriffsbereinigung (v. a. hinsichtlich Doppelklicks) und ist intuitiv, etwaig zur Nutzung notwendige Software oder Interfaces sind einfach zu bedienen und ein- zurichten. Darüber hinaus wird erwartet, dass der Standard neuen Entwicklungen gerecht wird und flexibel einsatzbar ist. Diese Flexibilität erstreckt sich vor allem auf die Umbrüche in der medialen Darstellungsmöglichkeit und berücksichtigt die Anforderungen, die sich aus der Nutzung und dem Einsatz von sozialen Medien ergeben. Mit den Worten eines Experten: „1. Fast 2. Simple 3. Extendable 4.

Easily interoperable with other services.“

Der wiederholte Verweis auf alternative mediale Ausdrucksformen unterstreicht die wachsende Bedeutung von Social Media auch in der Wissenschaft. Alle Befragten erkannten dies so, obwohl angenommen werden könnte, dass Vorbehalte gegen- über neuen Publikationsformen in der Wissenschaft verbreitet sind und dies auch den Teilnehmern dieser Umfrage bekannt sein dürfte. Die Bedeutung von Social Media haben nach Ansicht der Befragten eine gewichtige Bedeutung erlangt, da diese Geschwindigkeit, Wissensvermehrung sowie die Ausbreitung informell etablierter Verfahren der wissenschaftlichen Kommunikation stärker als konventionellen Medien begünstigen. Allerdings antworteten die Befragten nicht mehr so eindeutig darauf, ob Social Media dazu beitragen könnten, wissenschaftliche Anerkennung zu generieren. Auf die Frage, ob Social Media den Impact im Feld der Wissenschaft und darüber hinaus verbessern könnten, verbesserte sich das Verhältnis der Antworten leicht. Bei zuvor 60 % JaStimmen und 40 % Nein

Stimmen, wurde die Frage nun zu 70 % bejaht und entsprechend zu 30 % verneint.

Noch zuversichtlicher äußerten sich die Experten auf die Frage, ob Social Media zur Reputation einer Autorin oder eines Autors in der Wissenschaft beitragen kann – sie wurde von allen Befragten bejaht. Offensichtlich unterschieden die Teilnehmer zwischen wissenschaftlicher Anerkennung und persönlicher Reputation ebenso wie zwischen den Bereichen Wissenschaft und NichtWissenschaft. Bei der Vermittlung von komplexen wissenschaftlichen Ergebnissen erscheint Social Media als unzureichend, während sie für die Außendarstellung eines Themas,

(19)

einer Autorin oder eines Autors als hilfreich erscheinen. Für eine maximale Verbreitung bzw. einen maximalen Impact scheint die Nutzung unterschiedlicher Kommunikationswege sinnvoll.

Social Media werden gegenwärtig inhaltlich eine fehlende Bedeutung attestiert.

Hier scheinen die Experten eher konventionellen Publikationsformen, seien sie digital oder analog, zu vertrauen. Dies verweist auf die Qualitätsprüfung eines wissenschaftlichen Beitrages. Trotz deren Wertschätzung scheint es unter den befragten Personen grundsätzliche Bedenken und Ideen für eine Neuorganisation der Qualitätssicherung zu geben:

I found the Priem/Hemminger paper¹⁸ on the “decoupled journal“ very inspir- ing. I guess it‘s better not to have every single journal to organize their “own”

peer review process. P. review is produced by the scientific community (for free!), anyway, so why don‘t find better, more transparent, maybe faster ways? I‘m sure we live in a “first publish, then filter”-world (Clay Shirky)¹⁹ anyway. I don‘t see much use in a closed process of review that has to happen all the way BEFORE publication happens. It has to be easy to pick up on any “finished” result of scientific research anyway. Criticism on results won‘t be separable of open, reproducible research results, on the long run. Reproducibility and Assessability are two sides of the same coin.

Vielleicht ist eben dieser „publish then filter“-Ansatz im Zeitalter von Wikipedia exakt die richtige Reaktion auf eine Neustrukturalisierung (nicht nur) der Wissenschaft. Der (wissenschaftliche) Impact resultiert aus einer Abstimmung mit dem Mausklick, die über Nutzungsmessung visualisierbar ist, im Sinne einer Massenentscheidung real wird und eine nachträgliche Legitimierung erhält: „The future presented by the internet is the mass amateurization of publishing and a switch from ‚Why publish this?‘ to ‚Why not?‘“²⁰.

3.3 Fazit

In der Umfrage zu den Standards wurde von den Experten durchgängig der Wunsch deutlich, auf einen einheitlichen und damit vergleichbare Daten lie- fernden Standard zurückgreifen zu können. Darüber hinaus war die die Tendenz erkenntlich, zwar das technisch Mögliche realisieren zu wollen, dabei aber andere relevante Aspekte wie den Datenschutz oder die Finanzierung nahezu vollständig

18 Vgl. Priem (2012).

19 Vgl. Shirky (2008).

20 Vgl. ebd., S. 60.

(20)

auszublenden. Das Ergebnis der Umfrage bestand darin, dass COUNTER zwar unangefochtenen die stärkste Akzeptanz zugeschrieben wurde, dessen einzelnen Berechnungsparameter (wie etwa Doppelklickintervall und CrawlerIdentifikation) verglichen mit dem Konkurrenten LogEc auf weniger Akzeptanz stießen (vgl.

Tabelle 3). Eine Änderung der genannten Parameter würde unter den Experten die Anerkennung und Eignung von COUNTER als Standard zur exakten Messung der Zugriffe auf elektronische Dokumente stärken.

Die Ergebnisse der Bedeutung der verschiedenen Zusatzfunktionen von Nutzungsstatistiken ergaben, dass die Befragten hier vor allem die Vernetzung mit anderen Medien, Diensten und Social Media ebenso wie Empfehlungsfunktionen als wichtig einschätzten: „Rating is not always as important as sharing or book- marking.“ Insgesamt wurden mögliche Zusatzfunktionen in dieser Reihenfolge als wünschenswert erachtet: 1) Vernetzung, 2) Empfehlung, 3) Information, 4) Service. Zu erwähnen ist dabei jedoch, dass sich die Befragungsergebnisse auch hier wieder zum Teil leicht widersprachen, je spezieller gefragt wurde.

Im direkten Vergleich zwischen dieser und der Umfrage aus dem Jahre 2009 zeigte sich, dass die Bedeutung der Vernetzung in andere Medien bzw. den Social Media offensichtlich zugenommen hat. Diese spielte 2009 keine Rolle, während sie 2012 als am wichtigsten eingestuft wurde. Dem Erstellen von Recommendern und Rankings als Orientierungsfunktion für Nutzerinnen und Nutzer wurde dahingehend als vergleichsweise unwichtig angesehen. Dass neben der Empfehlungsfunktion besonders die Vernetzungsfunktionsfunktion als sehr bedeutend herausgestellt wurde, überrascht wenig, denn schließlich sind es vor allem diese beiden Teilbereiche, die sich gegenseitig bedingen. Die Ausweitung der Vernetzung auf andere/soziale Medien erweitert die Reichweite, so dass die Unübersichtlichkeit der Informationen und derer Nutzungsmöglichkeiten zuneh- men. Die Empfehlung dient dann noch mehr als Filter und Orientierungsfunktion.

Darüber hinaus lässt sich auch noch festhalten, dass die reine Produktion von Information und die Bereitstellung verschiedener Serviceangebote mit der alten analogen Welt der Bibliothek korrespondieren. Es sind Stellvertreter des

„alten Systems“. Im Gegensatz dazu zeigen die Kategorien „Vernetzung“ und

„Empfehlung“ in die Zukunft wissenschaftlichen Publizierens und wissenschaftlicher Literaturverwaltung.

Die Möglichkeit zur Vernetzung zwischen Dokumenten in Repositorien mit Dokumenten in anderen Angeboten (Journals, E-Plattformen) sowie die Möglichkeit der Verbindung von Repositorien mit zugangsgeprüften sozialen Netzwerken für Wissenschaftlerinnen und Wissenschaftler wird der meiste Mehrwert zugebilligt.

(21)

Obgleich der Trend in Richtung Social Media zeigt, liegt der Schwerpunkt für die Experten gegenwärtig noch immer in der Analyse der Zugriffe. Die Experten betrachteten also zunächst den gegenwärtigen Zustand, während sie perspekti- visch antworteten, wobei sie die für sie wahrscheinlich signifikanten Ereignisse mit berücksichtigten.

Zusammenfassend lässt sich hier eine relativ klare Zweiteilung bei den Zusatzfunktionen feststellen. Die Vernetzung und Kollaboration mit anderen Medien wird ebenso wie der Großbereich der Empfehlungen als am wichtigsten eingeschätzt.

(22)

4 Implementation

Für das Erfassen, den Austausch, die Aggregation und das Bereitstellen von Nutzungsstatistiken für digitale Objekte ist eine technische Infrastruktur notwendig. Die OA-Statistik Infrastruktur besteht aus zwei Kernkomponenten: Auf der Seite des jeweiligen Repositoriums ist der OA-Statistik-Data-Provider (OAS-Data- Provider) installiert. Dieser muss durch den RepositorienBetreiber bereitgestellt werden. Zur Installation kann die Software²¹ bei SourceForge heruntergeladen werden, die im Anschluss an die spezifischen Anforderungen des eigenen Repositoriums angepasst werden muss. Auf der Seite des Dienstanbieters wird der OAS-Service-Provider eingesetzt, der die Daten von den OAS-Data-Providern einsammelt, aggregiert und die standardisierten Nutzungsdaten anbietet.

Repositorien, die ihren Nutzerinnen und Nutzern international standardisierte Zugriffszahlen anbieten möchten, können sich als OAS-Data-Provider an der OASInfrastruktur beteiligen. Hilfestellung bieten dabei die Beschreibung im Installationsleitfaden²², die Demoinstallation²³ eines OAS-Data-Providers sowie der OAS-Validator²⁴. Sofern Fragen nicht durch die oben genannten Dokumente beantwortet werden können, steht der Support²⁵ von OA-Statistik zur Klärung der offenen Punkte zur Verfügung. Die Software des OAS-Data-Providers steht in der neuesten Version für verschiedene Repositorien-Plattformen zur Verfügung. Sie muss auf die lokalen Gegebenheiten angepasst und konfiguriert werden. Die Demoinstallation bietet Anschauungsbeispiele für die Rückführung der aggregierten Nutzungsstatistiken in den Formaten XML und JSON sowie ein Beispiel für die graphische Einbindung mittels iFrame. Nach der Installation eines neuen OAS-Data-Providers kann das von der Schnittstelle ausgegebene Datenformat durch den OASValidator überprüft werden. Ist das XML valide, kann der OAS

Data-Provider über das Registrierungsformular²⁶ angemeldet werden. Daraufhin kontaktiert OA-Statistik den Ansprechpartner des jeweiligen Repositoriums, um das Rückgabeformat der aggregierten Daten und den Austausch von Passwörtern zu klären.

21 https://sourceforge.net/p/openaccessstati/code-0/HEAD/tree/trunk/

22 http://www.dini.de/fileadmin/oastatistik/technik/Leitfaden_fuer_neue_Repositorien_v1.0.pdf 23 http://oascdp.gbv.de/oaidataprovider.demo/index.php?verb=ListRecords&metadataPrefix=oas 24 http://oas-sp.gbv.de/validator/

25 http://www.dini.de/projekte/oa-statistik/kontakt/

26 http://www.dini.de/projekte/oa-statistik/teilnahme-am-dienst/registrierungsformular/

(23)

4.1 Verarbeitung der Zugriffsinformationen

In OA-Statistik werden Zugriffsstatistiken von Open-Access-Dokumenten berechnet, indem die Zugriffe auf die Dokumente standardisiert und zentral ausgewertet werden. Im Folgenden wird erläutert, wie aus Zugriffen auf Dokumente Statistiken generiert werden (vgl. Abbildung 1).

... lädt ein Dokument vom Repositorium herunter.

... speichert die Informationen zum Abruf des Dokuments im Logfile.

... stellt die international standardisierten Nutzungs- statistiken zur Verfügung.

Nutzer/in

... erfasst die Dokumentzugriffe anhand des Logfiles.

... verarbeitet die Nutzungs- informationen und transformiert sie in ein XML-Format.

... stellt die Nutzungsdaten mittels OAI-Schnittstelle bereit.

... ruft die anonymisierten Nutzungsdaten ab.

... bereitet die Nutzungsdaten nach internationalen Standards auf.

... stellt die aggregierten und standardisierten Nutzungsdaten bereit.

Abbildung 1: OA-Statistik Workflow

Nutzer eines Repositoriums lädt ein Dokument vom Repositorium herunter Fordert eine Nutzerin oder ein Nutzer eines Repositoriums ein Dokument an, so über- trägt sein Browser automatisch Daten wie seinen Useragent (inkl. Browserversion und Betriebssystem), ACCEPTHeader, bevorzugte Sprachen, Protokollversion, eigene IP-Adresse und den Namen des angeforderten Dokuments.

Repositorium speichert die Zugriffsinformationen in Logfiles

Die Zugriffe auf die Dokumente eines Repositoriums werden in Logfiles des Webservers aufgezeichnet. Aus datenschutz- bzw. medienrechtlichen Gründen wird vom Repositorium die Möglichkeit eines Opt-Out angeboten. Wird dieser von der Nutzerin oder vom Nutzer gewählt, gelangt seine IP-Adresse nicht in die Logfiles und wird dementsprechend nicht verarbeitet.

(24)

OAS-Data-Provider erfasst die Zugriffsinformationen der Logfiles und pseud- onymisiert die Nutzeridentifikationen

Ob IP-Adressen personenbezogene Daten sind, ist immer wieder Gegenstand der Diskussion in Deutschland. Die herrschende Meinung der Datenschutzbeauftragten wertet diese Informationen als personenbezogene Daten und auch der EuGH (Rechtssache C-70/10) hat dies bereits so gesehen. Ohnehin ist die IPAdresse in der Regel unstreitig für RepositorienBetreiber personenbezogen, die zugleich Access-Provider sind. Daher werden die IP-Adressen, die bei der Dokumentennutzung Einträge in den Logfiles hinterlassen, mit einem Salt versehen und anschließend mit dem Hashverfahren SHA-256 verschlüsselt. Dieses Vorgehen dient der Pseudonymisierung und damit der Identifikation der von einer IP-Adresse erfolgten Nutzungsmuster, ohne die IP bei der Datenverarbeitung zu verwenden. Der Salt ist eine weitere Schutzmaßnahme zur Verhinderung der Rückübersetzung des Hashwertes.

Für eine spätere Berücksichtigung von Roboterzugriffen und zur Auswertung der Daten wird zusätzlich auch das C-Klasse-Netz der IP-Adresse (die ersten drei der vier Zahlen der IP-Adresse) gesalzen und gehasht.

OAS-Data-Provider verarbeitet die Zugriffsinformationen und transformiert sie in ein XML-Format, wobei eindeutige Dokument-Identifier hinzugefügt werden

Beim OASDataProvider werden im LogfileParser die Logfiles des Webservers in OpenURL ContextObjects umgewandelt und im Datenformat XML gespeichert.

Den Informationen aus den Logfiles muss ein Identifier des jeweiligen Dokuments mitgegeben werden. In den meisten Fällen erfolgt dies auf Grundlage der abge- rufenen URL oder der individuellen Identifikationsnummer des Repositoriums.

Dies funktioniert für alle Repositorien unterschiedlich und muss bei der Installation im LogfileParser des OASDataProviders angepasst werden.

Das Datenformat OpenURL ContextObjects wurde von OAStatistik angepasst, mit anderen europäischen Projekten abgestimmt und dokumentiert.²⁷ Es ist kom- plexer als das Minimalset von OpenURL ContextObjects, aber vollständig kom- patibel.

27 Die Spezifikation des Datenformats ist unter http://www.dini.de/fileadmin/oa-statistik/

projektergebnisse/Specification_V5.pdf einsehbar.

(25)

OAS-Data-Provider stellt die Zugriffsinformationen mittels OAI-Schnittstelle bereit

Der OASDataProvider liest die OpenURL ContextObjects aus einer Datenbank und stellt sie über das OAI-Protokoll dem OAS-Service-Provider zur Verfügung.

Der OAS-Data-Provider ist ein eigenständiges Programm, welcher sich von anderen OAI-Data-Providern unterscheidet und separat installiert werden muss.

OAS-Service-Provider ruft die anonymisierten Zugriffsinformationen mittels OAI-Schnittstelle ab

Der OAS-Service-Provider holt die Daten vom OAS-Data-Provider mittels einer OAI-Schnittstelle. Im Anschluss müssen die Daten aus Datenschutzgründen auf dem OAS-Data-Provider gelöscht werden.

OAS-Service-Provider bereitet die Zugriffsinformationen nach internationa- lem Standard auf

Die Zugriffsinformationen werden nach dem Standard COUNTER ausgewertet.

Dazu werden Doppelklicks von Nutzerinnen und Nutzern sowie Roboterzugriffe herausgefiltert.

OAS-Service-Provider stellt die aggregierten und standardisierten Nutzungs- daten bereit

Die Nutzungsdaten werden dem Repositorium und weiteren Interessierten nach den Lizenzvorgaben bereitgestellt. Die Schnittstelle und das Format werden zuvor gemeinsam mit den Repositorienbetreibern festgelegt.

Repositorium stellt die international standardisierten Zugriffsstatistiken zur Verfügung

Den teilnehmenden Repositorien werden für die einzelnen Dokumente tagesge- naue Zugriffszahlen bereitgestellt. Dies können zum einen gesamte Auszüge aus der Datenbank des OAS-Service-Providers sein, die über eine Schnittstelle abrufbar sind. Zum anderen wird von OA-Statistik ein iFrame angeboten, das in das Repositorium eingebunden werden kann. In diesem Fall muss der Identifier des Dokuments als Parameter mitgegeben werden.

4.2 Rückführung der aggregierten Nutzungszahlen in die Repositorien Die aggregierten Nutzungszahlen der beteiligten Repositorien werden vom OAS-Service-Provider in zwei Varianten zu den Repositorien zurückgeführt.

Jedes Repositorium erhält zunächst einen zugriffsgeschützten Zugang zu einem Apache-Webserver. Auf diesem werden in festgelegten Abständen Dateien

(26)

mit den Nutzungsstatistiken abgelegt. Der Umfang der einzelnen Dateien, die Auswertungshäufigkeit und das Dateiformat werden hierbei durch vorige Absprache mit dem Repositorium abgestimmt. Eine Index-Datei, in welcher die letzten erstellten Dateien aufgeführt sind, vereinfacht deren maschinelle Abholung und weist zudem auf aktualisierte Daten hin.

Als zweite Möglichkeit können die OAS-Data-Provider mittels einer http-basierten REST-Schnittstelle maschinell die Nutzungszahlen direkt abfragen. Dabei kann der Datenumfang genau spezifiziert werden. Möglich sind hier:

• der gewünschte Zeitraum

• das Format

• der Identifier, wobei hier für einen konkreten oder aber alle Identifier eine Ausgabe erfolgen kann

• die gewünschten Kategorien (FulltextCOUNTER, AbstractCOUNTER, Fulltext

Roboterzugriffe, Abstract-Roboterzugriffe)

In der Ausgabe werden die Zugriffsdaten pro Dokumenten-Identifier aufgelis- tet. Dabei werden die Daten wahlweise auf einen Tag, eine Woche, ein Monat oder ein Jahr hochgerechnet, wobei die Tagesausgabe den Regelfall bildet und zudem auch am performantesten ist. Eine Ausgabe kann dabei einen beliebigen Zeitraum umfassen.

Es werden verschiedene Austauschformate angeboten, welche in Absprache mit beteiligten Repositorien ausgewählt wurden. Die Standardformate sind JSON und CSV. Zusätzlich werden zwei XMLFormate nach dem COUNTERStandard Version 4 angeboten. Neben einem generischen XML wird eine auf SpreadsheatML basierte Version für Tabellenkalkulationsprogramme erstellt. In beiden kann ein nach COUNTERStandard spezifizierter Journal Report 1 (JR1) und Book Report 1 (BR1) erzeugt werden.²⁸

4.3 Optimierung der Technik und Konsolidierung der Nutzungszahlen OA-Statistik arbeitete bereits im frühen Entwicklungsstadium eng mit Repositorienbetreibern zusammen, die bereits selbst eigene Nutzungszahlen errechnen. Ziel war es, den Prototypen zu einem verlässlichen Dienst weiter zu entwickeln. Aus der Praxis heraus ergaben sich vielfältige Ansätze zur Verbesserung. Um die zu übertragende Datenmenge zu minimieren, wurden beispielsweise auf Seiten des OAS-Data-Providers für die Statistik nicht relevante Elemente wie Cascading Stylesheets (CSS) oder JavaScript-Elemente gefiltert,

28 Die XMLSpezifikation von COUNTER findet sich unter http://www.niso.org/schemas/sushi.

(27)

die sich ebenfalls in Apache Logdateien wieder finden. Damit reduziert sich die Größe der Datenbank und verkleinert sich das zu übertragende Datenvolumen.

Die Datenbank auf Seiten des OAS-Service-Providers wurde um spezielle Robots- Tabellen ergänzt, mit denen es möglich ist, gefilterte Einträge zu überprüfen und neue Robots anhand ihres Zugriffes auf „robots.txt“ zu identifizieren (siehe Kapitel 4.5). Die Repositorienbetreiber nutzten auch die Möglichkeit, ihre selbst ausge- werteten Logdateien parallel mittels der OAStatistik Software auszuwerten und zu vergleichen. Unterschiede, die im Vergleich zu den durch OA-Statistik aus- gewerteten Nutzungszahlen entstanden, waren auf die anders geartete Filterung maschineller Zugriffe durch nicht identische RobotLists zurückzuführen.

Exkurs: Erfahrungsbericht des Pilotpartners EconStor

Seit Herbst 2009 wurden Nutzungszahlen mithilfe einer DSpace-Erweiterung auf Basis des StatistikPlugIns der Universidade do Minho erfasst. Dieses lie- ferte zwar durch unsere zusätzlichen Erweiterungen hinreichend genaue Zahlen, jedoch entsprachen diese keinem bekannten internationalen oder innerhalb der deutschen Repositorien-Szene verwendeten Standard, was eine Vergleichbarkeit der Zahlen unmöglich machte.

Bei der Suche nach einem Standard fanden wir schließlich die DeFacto

Standards LogEc des Fachportals RePEc und den COUNTER Code of Practice (COUNTER). Da EconStor als RePEc-Dataprovider für die Dokumente, die über die verschiedenen Dienste von RePEc heruntergeladen werden können, bereits Nutzungsdaten nach LogEc erhält, und RePEc in der wirtschaftswissenschaftlichen Fachinformation eine zentrale Rolle spielt, ergab sich dies als erste Präferenz.

Zum damaligen Zeitpunkt befanden wir uns auch im Prozess der DINI- Zertifizierung. So stießen wir bei der Suche nach einer von RePEc unabhängi- gen Implementierung dieses Verfahrens schnell auf das OA-Statistik-Projekt von DINI. Durch den Abschlussworkshop der ersten Phase des OA-Statistik-Projekts im Januar 2010 wurde dann unser Interesse endgültig geweckt, als Dataprovider an diesem Projekt teilzunehmen, da hier sowohl LogEc als auch der COUNTER unterstützt werden sollten.

Als Ergebnis des Projekts stellt sich für uns heraus, dass wir zum einen zunächst auf LogEc verzichten können und zum anderen, dass sich die nach COUNTER

Regeln berechneten Zahlen nicht grundlegend von den von uns bereits vorher berechneten Zahlen unterscheiden. Aus unserer Sicht gibt es aber dennoch Unzulänglichkeiten in Bezug auf die Vergleichbarkeit der COUNTERZahlen.

(28)

Diese resultierten aus der „List of Robots“²⁹ und der „List of federated and auto- mated search engines“³⁰, da zum einen nicht klar ist, in welchen Abständen und nach welchen Kriterien diese aktualisiert werden, und zum anderen daraus, dass diese in der Dokumentation lediglich als „minimum requirement“³¹ bezeichnet werden. Dadurch steht es letztlich jedem COUNTER-Anwender frei, wie genau er filtern möchte, oder eben nicht. Genauso verhält es sich mit dem Absatz

„Identifying abnormal spikes in usage“, in dem es letztlich heißt: „COUNTER does not prescribe a course of action once abnormal spikes in usage have been identified; this is left to the discretion of customer and vendor.“³² Dies alles spricht für einen zentralen Serviceprovider, wie er im Projekt OA-Statistik aufgebaut wurde, der eine Vergleichbarkeit der Zahlen seiner Dataprovider gewähr- leistet. Dennoch bleibt leider die Nichtvergleichbarkeit zu anderen Anbietern von Nutzungszahlen nach COUNTER. Dies ist aus unserer Sicht besonders proble- matisch, da wir zur gegenseitigen Kontrolle mit OA-Statistik eine eigene, lokale und damit unabhängige COUNTER-Implementation für EconStor erstellt haben.

In diesem Zusammenhang lassen sich zusätzlich die folgenden zwei Problem- Bereiche bei einem direkten Vergleich der Zahlen identifizieren, zu denen COUNTER keine genaue Spezifikation liefert:

1. Das Zeitintervall der Berechnung und Auswertung: Es ist nicht geregelt, ob das jeweilige Untersuchungsintervall dabei auf UTC/GMT normiert wird, oder ob die jeweilige lokale Zeitzone mit Winter- und Sommerzeit verwendet wird.

Statistisch gesehen ist dies nicht entscheidend, aber es steht einer genauen Vergleichbarkeit der Zahlen zweier Serviceprovider für ein Untersuchungs- intervall entgegen, falls diese die Zeitzonen unterschiedlich behandeln.

2. Das Verhalten der 10- bzw. 30-Sekunden-Regel beim Überschreiten des zur LogfileAuswertung genutzten Intervalls (täglich, wöchentlich oder monatlich), z. B.: Serviceprovider A wertet täglich aus. Im Logfile erfolgt jeweils ein Zugriff von einer IP x auf ein Dokument z einmal um 23h59m56s und einmal um 0h0m04s des darauffolgenden Tages. Es wird daher jeweils ein Zugriff an zwei Tagen gezählt. Provider B hingegen wertet den ganzen Monat auf einmal aus und wertet daher nur einen Zugriff.

29 http://www.projectcounter.org/r4/COUNTER_robot_list_Jan2011.xml 30 http://www.projectcounter.org/r4/APPI.doc

31 COUNTER (2012), S. 26 32 COUNTER (2012), S. 27

(29)

Um eine möglichst konsistente Zählung auf unserem Server zu gewährleisten, haben wir uns für unsere lokale Implementierung dazu entschlossen, regel mäßig, monatlich die Daten auf neue Robots und auffällige Sub-Netze zu untersuchen und gegebenenfalls unsere lokalen Sperr und RobotListen zu aktualisieren.

Auf Grund der guten Zusammenarbeit mit OA-Statistik war es uns dabei trotz der benannten Probleme möglich, die jeweiligen Implementationen zu überprüfen und zu optimieren, so dass wir uns auch in Zukunft gerne an der durch OA-Statistik initiierten Interest Group „Usage Data and Beyond“ bei der Confederation of Open Access Repositories (COAR) zur Pflege einer einheitlichen RoboterListe beteiligen werden,, mit dem Ziel, dadurch eine größere Vergleichbarkeit der Nutzungszahlen unterschiedlicher Repositorien zu erreichen.

4.4 Datenschutz

Die Verarbeitung von Zugriffen auf Repositorien basiert auf der Auswertung von Logfiles, in denen Informationen über das Abfrageereignis gespeichert werden.

Neben dem angeforderten Dokument und dem Zugriffserfolg werden auch Informationen über den Zugreifenden wie beispielsweise seine IP-Adresse erfasst.

Zugreifender kann eine Suchmaschine sein oder aber eine reale Person, die die abgerufene Publikation lesen möchte. In diesem Fall müssen datenschutzrechtliche Vorschriften beachtet werden, die die Verarbeitung von personenbezogenen Daten bestimmten Anforderungen unterwerfen. Laut dem Gutachten der Zentralen Datenschutzstelle der baden-württembergischen Universitäten (ZENDAS)³³, das vom Projekt OA-Statistik in Auftrag gegeben wurde, sind sowohl die IP-Adressen wie auch die im Zusammenhang mit ihnen erfassten Daten bei der Verarbeitung als personenbezogen anzusehen und daher datenschutzrechtlich zu bewerten³⁴. Eine Pseudonymisierung der IP-Adressen durch ein Verschlüsselungsverfahren wird daher erforderlich. An die IP-Adressen wird ein monatlich wechselnder Wert (Salt) angehängt. Diese Zeichenkette wird anschließend durch das sogenannte Hashverfahren verschlüsselt. Wenn alle beteiligten Repositorien das gleiche Salt und das gleiche Hashverfahren benutzen, können Zugriffe auf Dokumente mit der gleichen Dokumenten-ID im Anschluss Repositorien übergreifend ausgewertet werden. Ein gemeinsamer Salt wird derzeit nicht verwendet, wurde aber testweise implementiert und lässt sich für zukünftige Entwicklungen des Dienstes ohne große Umstände implementieren. Der zentrale Dienst von OA-Statistik

33 http://www.zendas.de/

34 Vgl. ZENDAS (2011), S. 3.

(30)

darf dabei den gemeinsamen Salt nicht kennen, damit er keine Möglichkeit hat, die Verschlüsselung rückgängig zu machen. Während die Daten bei den Datenlieferanten – den Repositorien – pseudonymisiert sind, können die ver- schlüsselten IP-Adressen somit nach der Übertragung zum zentralen Dienst von OA-Statistik als anonymisiert angesehen werden. Datenschutzrechtliche Aspekte müssen bei anonymisierten Daten nicht weiter beachtet werden.³⁵

Geschützter Ort für den OAS-Data-Provider mit .htaccess

Aus Datenschutzgründen dürfen weder die ursprünglichen Logdaten noch die für OAStatistik aufbereiteten Logdaten in Form von OpenURL ContextObjects von Dritten erreichbar sein. Daher muss das Verzeichnis des OAS-Data-Providers mit Hilfe von .htaccess vor fremden Zugriffen geschützt werden.

Implementation eines Opt-Outs

Der Erfassung des Verhaltens von Nutzerinnen und Nutzern muss aus datenschutz- bzw. medienrechtlichen Gründen widersprochen werden können. Aus diesem Grund muss auf Repositorienseite den Nutzerinnen und Nutzern ein „Opt-Out“

angeboten werden. Dies könnte z. B. ein Button sein, über den ein Cookie auf den Computer der Nutzerinnen und Nutzern abgelegt wird, der wiederum vom Webserver ausgelesen wird und verhindert, dass deren IP-Adressen aufgezeichnet werden.

4.5 Filterung nicht-menschlicher Zugriffe

Open-Access-Repositorien sind für jeden Zugriff offen. Ein erheblicher Anteil an Hits, oft 30 % und mehr wird dabei durch automatisch arbeitende Computerprogramme erzeugt. Das sind unter anderem Suchmaschinen, die Websites suchen und in ihre Indizes aufnehmen, aber auch Programme, die das Internet nach bestimmten Inhalten von Websites wie E-Mail-Adressen durch- suchen. Diese so genannten Robot Hits müssen erkannt und ausgeschlossen werden, da sie die Nutzungsstatistik verfälschen. Nur ein Teil der Roboter gibt sich in den Logfiles direkt zu erkennen. Bei den übrigen kann man aufgrund der vagen Merkmale nicht mit Sicherheit entscheiden, ob es sich um einen Roboter oder einen menschlichen Zugriff handelt. Da Roboter-Zugriffe nie vollständig aus der Statistik eliminiert werden können, kommt es vor allem darauf an, gemeinsame Kriterien zu verwenden, die bei der Filterung der Zugriffe anzuwenden sind, um die Statistiken untereinander vergleichbar zu machen.

35 Vgl. ZENDAS (2011) S. 25.

(31)

Die im Projekt Open-Access-Statistik vorgenommene Filterung von Roboter- zugriffen basiert auf dem Prinzip der Identifikation nach dem user agent. Dies ist die Bezeichnung des aufrufenden Programms und wird bei jedem Zugriff im Webserver Logfile vermerkt und später in den OpenURL ContextObjects an den Service Provider übertragen. Dort existiert eine Liste, welche bekannte Roboter bzw. deren regulären Ausdruck enthält und mit dem user agent des jeweiligen Zugriffs abgeglichen wird. Ist der user agent des Zugriffs in der Liste vorhanden, wird der Zugriff als Roboter gewertet.

Die auf der Website von COUNTER bereitgestellte Liste³⁶ wurde im Projekt OA-Statistik um etliche Eintragungen erweitert, welche aus der frei zugänglichen Liste von robotstxt.org sowie aus der OpenSourceStatistiksoftware AWStats gespeist wurde. Diese Liste soll in regelmäßigen Abständen erweitert und ver- sioniert werden und der Forschergemeinde frei zugänglich sein. Eine solche allgemeine RoboterListe wurde während des Workshops „Usage Statistics and Beyond“ (22. – 23. April 2013)³⁷ ausgiebig diskutiert und wird im Rahmen der COAR Interest Group „Usage Data and Beyond“³⁸ eine konkrete Ausgestaltung erfahren.

Neue Roboter können etwa durch den Zugriff auf eine im Stammverzeichnis des Webservers abgelegte Datei (robots.txt) erkannt werden. Auch wenn dies für Roboter verpflichtend ist, ist es keine hinreichende Bedingung für einen Roboterzugriff, da auch Nutzerinnen und Nutzer die Datei öffnen können. Die Abrufe werden dennoch im Service-Provider vermerkt und können anschließend manuell überprüft werden.

36 http://www.robotstxt.org/db.html

37 http://www.dini.de/projekte/oa-statistik/english/the-project/workshops/usage-statistics-and- beyond/

38 http://www.coar-repositories.org/activities/repository-interoperability/usage-data-and-beyond/

(32)

5 Aktuelle Entwicklungen und Anforderungen

Nach Abschluss des Projekts OA-Statistik ist festzustellen, dass das Interesse an standardisierten Nutzungszahlen für digitale Publikationen stetig wächst. Für Nutzerinnen und Nutzer von Repositorien sind beispielsweise Trefferlisten sortiert nach der Anzahl der Zugriffe auf die Dokumente interessant, während Autorinnen und Autoren auch wissen möchten, wie oft ihr Dokument aufgerufen bzw. heruntergeladen worden ist. Betreiberinnen und Betreiber von Dokumentenservern wiederum verwenden Nutzungszahlen zur Optimierung ihrer Dienste.

Durch die Verbreitung wissenschaftlicher Texte über das Internet entstehen ganz neue Möglichkeiten, deren Impact zu erfassen: Nicht nur durch die Ermittlung absoluter Zugriffszahlen auf die Dokumente, sondern auch durch die Ermittlung der Erwähnung (oder: Zitation) von Publikationen in Social-Media-Diensten und wissenschaftlichen Informationsspeichern wie OnlineLiteraturverwaltungen oder Forschungsdaten-Repositorien. In einigen Fachbereichen erfolgt die Arbeit größtenteils im WWW, das dabei als Werkzeug, Literaturverwaltung, Kommunikationsplattform und Publikationsort genutzt wird. Forschungsdaten werden in ihrer Rohform veröffentlicht und Quellcodes von Forschungsversuchen frei zugänglich allen bereitgestellt. Die Wissenschaftler veröffentlichen Zwischenergebnisse in eigenen Blogbeiträgen oder kommentieren die Arbeit von Kolleginnen und Kollegen. Literatur wird in OnlineLiteraturverwaltungsprogrammen gesammelt, die wiederum als Weiterentwicklung zu Community-Plattformen Netzwerkarbeit ermöglicht (z. B. Mendeley, ResearchGate).

Diese neue Möglichkeit der Impact-Messung haben Priem et al. in ihrer Grundsatzerklärung „altmetrics: a manifesto“³⁹ als „altmetrics“ benannt und als ergänzende vierte Säule der Impact-Messung den Faktoren Nutzung, Peer Review und Zitationen an die Seite gestellt (vgl. Abbildung 2).

Impact

Nutzung Peer Review Zitationen Altmetrics

Abbildung 2: Impact-Faktoren wissenschaftlicher Objekte [nach Priem 2011]

39 Vgl. Priem (2011).

(33)

Als „altmetrics“ bezeichnet man unter anderem das Zählen von Erwähnungen bei Twitter und die „Likes“ bei Facebook. Damit können nicht nur Publikation an sich erfasst werden, sondern auch Software Entwicklungen, die über GitHub bereit gestellt werden, oder Präsentationen, die bei SlideShare eingestellt sind.

Altmetrics sind – durch ihr Erscheinen in Social Media Diensten – per se schnell verfügbar und zeigen unmittelbar die Sichtbarkeit und den Einfluss eines Objekts im WWW auf.

Es gibt verschiedene Anbieter, die altmetrics erfassen und über verschiedene Kanäle und Plattformen aufbereitet anbieten. Die zurzeit bekanntesten sind

„ImpactStory“⁴⁰, „Altmetric“⁴¹, „PLoS ALM“⁴² und „PLUM Analytics“⁴³. Diese unterscheiden sich in ihrer Zielgruppenansprache, ihren Geschäftsmodellen und den verwendeten Social-Media-Diensten.

Die Tools dieser Anbieter können insbesondere dazu verwendet werden, Dokumente in Repositorien mit alternativen Metriken anzureichern. Die Anbieter ImpactStory und Altmetric bieten dazu eine freie Schnittstelle an, um die ermittelten Metriken in die Dokumentenansicht beim Repositorium einzubinden. Dazu wird lediglich der Identifier des Dokuments benötigt, meist eine DOI oder eine PubMed-ID. Abbildung 3 zeigt eine Integration des Dienstes altmetric in das Göttinger Repositorium GoeScholar⁴⁴. Dabei ist eine DOI als Identifier verwendet worden, um die API des Anbieters abzufragen.

Die durch „altmetrics“ ermittelten Zahlen sind jedoch noch mit Vorsicht zu genie- ßen. Die Anzahl von Erwähnungen für dasselbe Dokument unterscheidet sich von Anbieter zu Anbieter stark. Beispielsweise ermittelt bei dem in Abbildung 3 dargestellten Dokument Altmetric bei Twitter 52, PLoS ALM hingegen nur 6 und ImpactStory 31 Erwähnungen. Wie diese unterschiedlichen Zahlen zu Stande kommen bleibt unklar und zeigt, dass Standards für die Erfassung von altmetrics notwendig sind. NISO (National Information Standards Organisation), die US-amerikanische Standardisierungsorganisation, greift dieses Desiderat auf und untersucht die Anforderungen für einen zu etablierenden Standard in dem für zwei Jahre geförderten Projekt „NISO Alternative Assessment Metrics (Altmetrics)

40 http://impactstory.org/

41 http://altmetric.com/

42 http://article-level-metrics.plos.org/

43 http://www.plumanalytics.com/

44 http://goedoc.uni-goettingen.de/goescholar

(34)

Project“⁴⁵. Die fehlende Reliabilität der Daten und weitere Desiderate wurden auch in der Breakout Session „Altmetrics“⁴⁶ anlässlich des CERN Workshop on Innovations in Scholarly Communication (OAI8) im Juni 2013 in Genf diskutiert.

Die Ergebnisse der Diskussion sind in einer Mindmap⁴⁷ festgehalten: Besonders stark diskutiert wurden Fragen der Datenhaltung und -pflege, der Verlässlichkeit des Dienstes und der bereitgestellten Werte, der Dokument- sowie Autoren- Identifikation und der Standardisierung.

Abbildung 3: Integration des Dienstes Altmetric in das Göttinger Repositorium GoeScholar Insbesondere das Zusammenwirken der in Abbildung 3 genannten Impact- Faktoren ermöglicht einen recht umfassenden Überblick über den Impact eines Dokuments. In Nutzerkreisen wird dieser Ansatz gemeinhin als ArticleLevel Metrics (ALM) bezeichnet. Die ALM werden in verschiedenen Dimensionen gemessen.

Dazu zählen Nutzung (z. B. PDFDownload, HTMLDownload), Zitationen (z. B.

Web of Science, Scopus), Soziale Netzwerke (z. B. Mendeley, CiteULike, Twitter) und Erwähnungen in Blogs und anderen Medien (z. B. Nature Blogs, Wikipedia).⁴⁸ Ein Beispiel zeigt die Public Library of Science, die ALM für jeden Artikel anbietet (vgl. Abbildung 4).

45 http://www.niso.org/topics/tl/altmetrics_initiative/

46 https://indico.cern.ch/contributionDisplay.py?sessionId=10&contribId=30&confId=211600 47 Vgl. Herb (2013).

48 Vgl. http://article-level-metrics.plos.org/alm-info/.

(35)

Abbildung 4: Article-Level Metrics am Beispiel der PLoS

(36)

Den Vorteilen der Altmetrics-Verfahren (schnelle und multidimensionale Wirkungserfassung eines breiten Objektpools wissenschaftlicher Informationen über zahlreiche Plattformen) stehen aktuell noch Hindernisse hinsichtlich der Verlässlichkeit und einer noch ausstehenden Standardisierung gegenüber. Für den Bereich der Nutzungsstatistiken konnten diese Aufgabenbereiche innerhalb von OA-Statistik erfolgreich angegangen werden. Sollte dies auch im altmetrics- Kontext gelingen, könnten alternative Metriken allgemein an Akzeptanz und Impact gewinnen. Auch Wouters & Costas (2012) sehen in diesen Verfahren in einer Einschätzung zu weiteren Entwicklungen in der Impact-Messung im Auftrag der SURF-Foundation großes Potential: „altmetrics are booming and they are starting to be seen as alternatives to more conventional citation measures. Metrics on the number of readers, tags used, bookmarks, comments and threads, blogging, tweets, etc. are starting to be suggested as new tools to assess the impact and influence that researchers have over their colleagues and society-at-large.”⁴⁹

49 Vgl. Wouters (2012), S. 42.

(37)

6 Literaturverzeichnis

Bollen 2006

Bollen, Johan; Van de Sompel, Herbert: An Architecture for the Aggregation and Analysis of Scholarly Usage Data. In: Proceedings of the Joint Conference on Digital Libraries, 2006. S. 298 – 307. URL: http://dl.acm.org/citation.

cfm?doid=1141753.1141821; doi:10.1145/1141753.1141821.

COUNTER 2012

Counting Online Usage of Networked Electronic Resources (COUNTER): The COUNTER Code of Practice for e-Resources: Release 4. April 2012.

URL: http://www.projectcounter.org/r4/COPR4.pdf.

Dong 2005

Dong, Peng; Loh, Marie; Mondry, Adrian: The „impact factor“ revisited. In:

Biomedical Digital Libraries (2005), 2:7.

URL: http://www.biodiglib.com/content/2/1/7; doi:10.1186/1742558127.

Herb 2012

Herb, Ulrich; Mittelsdorf, Björn: Nutzungsinformationen elektronischer Publi- kationssysteme: Anwenderwünsche. Ergebnisse dreier empirischer Erhebungen, Saarbrücken, 2012. URL: http://scidok.sulb.unisaarland.de/volltexte/ 2012/

5008/.

Herb 2013

Herb, Ulrich: Mindmap: Acceptance of AltMetrics. In: scinoptica Blog, 20.06.2013.

URL: http://www.scinoptica.com/pages/topics/mindmapacceptanceofaltmet- rics.php.

Merk 2008

Merk, Christine; Windisch, Nils K.: Usage Statistics Review: Final report. JISC, 24.09.2008.

URL: http://repository.jisc.ac.uk/250/1/Usage_Statistics_Review_Final_report.pdf.

OA-Statistik 2012

OA-Statistik: Machbarkeitsstudie zum nachhaltigen Betrieb des Dienstes Open-Access-Statistik. 2012. URL: http://www.dini.de/fileadmin/oastatistik/

Machbarkeitsstudie/OAS-Machbarkeitsstudie.pdf.

(38)

Priem 2011

Priem, Jason; Taraborelli, Dario; Groth, Paul; Neylon, Cameron: Altmetrics: A manifesto. Version 1.01, 28.09.2011. URL: http://altmetrics.org/manifesto.

Priem 2012

Priem, Jason; Hemminger, Bradley M.: Decoupling the Scholarly Journal.

Frontiers in Computational Neuroscience, 6:19. URL: http://www.frontiersin.org/

Computational_Neuroscience/10.3389/fncom.2012.00019/abstract.

Seglen 1997

Seglen, Per O.: Why the impact factor of journals should not be used for eval- uating research. BMJ 1997;314:497.1 URL: http://www.bmj.com/content/

314/7079/497.1.

Shirky 2008

Shirky, Clay: Here Comes Everybody: The Power of Organizing Without Organizations. New York, The Penguin Press, 2008. S. 81 – 108.

Verhaar 2010

Verhaar, Peter et al.: KE Usage Statistics Guidelines: Guidelines for the aggre- gation and exchange of Usage Data. Version 1.0. SURF Wiki, 18.05.2010.

URL: http://purl.org/REP/standards/KE Usage Statistics Guidelines.

Wouters 2012

Wouters, Paul; Costas, Rodrigo: Users, narcissism and control – tracking the impact of scholarly publications in the 21st century. SURFFoundation, 2012. URL:

http://www.surffoundation.nl/nl/publicaties/Documents/Users narcissism and control.pdf.

ZENDAS 2011

Zentrale Datenschutzstelle der baden-württembergischen Universitäten (ZENDAS):

Datenschutzrechtliche Bewertung des Projekts Open-Access-Statistik. Stuttgart, 2011. URL: http://www.dini.de/fileadmin/oastatistik/gutachten/ZENDAS_

Gutachten_2011.pdf.

(39)

Verzeichnis der Autorinnen und Autoren

Diese Schrift entstand im Rahmen des von der DFG geförderten Projekts Open-Access-Statistik – Dienste und Standards für international vergleichbare Nutzungsstatistiken.

Autorinnen und Autoren

Justine Haeberli-Kaul, Universitätsbibliothek Stuttgart

Daniel Beucke, Niedersächsische Staats und Universitätsbibliothek Göttingen Matthias Hitzler, Niedersächsische Staats- und Universitätsbibliothek Göttingen Andreas Holtz, Saarländische Universitäts und Landesbibliothek

Julika Mimkes, Niedersächsische Staats- und Universitätsbibliothek Göttingen Wolfgang Riese, Zentralbibliothek für Wirtschaftswissenschaften

Ulrich Herb, Saarländische Universitäts und Landesbibliothek Marco Recke, Verbundzentrale des GBV

Birgit Schmidt, Niedersächsische Staats und Universitätsbibliothek Göttingen Matthias Schulze, Universitätsbibliothek Stuttgart

Sabine Henneberger, HumboldtUniversität zu Berlin

Bastian Stemmer, Zentrale Datenschutzstelle der badenwürttembergischen Universitäten