• Keine Ergebnisse gefunden

Multilingual Access to Biomedical Documents. Stefan Schulz


Academic year: 2022

Aktie "Multilingual Access to Biomedical Documents. Stefan Schulz"


Wird geladen.... (Jetzt Volltext ansehen)



Multilingual Access to Biomedical Documents

Stefan Schulz




Averbis GmbH

• Founded in April 2007

• Based in Freiburg im Breisgau

• Team of experts in medicine and computer sciences

Averbis GmbH


• Kornél Markó

• Philipp Daumke

• Campus Technologies Freiburg GmbH,

Universitätsklinikum Freiburg


• Kornél Markó

• Philipp Daumke

Scientific Board

• Prof. Dr. Rüdiger Klar

• PD Dr. Stefan Schulz

• Prof. Dr. Udo Hahn


• Dr. Albrecht Zaiß

• Prof. Dr. Bernhard Arnolds

Employees &

Student Workers


Averbis GmbH

Innovative semantic retrieval technologies based on 10+ scientific research

Search & language technologies specifically designed for health care and life sciences

Target market/Scope:

Health Portals &

Web Sites

Patient Records in Hospitals and Medical Practices

Information inventory of medical publishers

Enhancement of Information Retrievals

Medical Billing Services Patient Safety

Semantic Interoperability between Information Systems

Information Retrieval


Medical Decision Making

Research Literature in Scientific Databases Health Portals &

Web Sites

Patient Records in Hospitals and Medical Practices

Information inventory of medical publishers

Enhancement of Information Retrievals

Medical Billing Services Patient Safety

Semantic Interoperability between Information Systems

Information Retrieval


Medical Decision Making

Research Literature in Scientific Databases

Averbis – Scope & Business Area


Cross Language Information Retrieval

• Cross language information retrieval (CLIR) deals with

retrieving information written in a language different from the language of the user's query

• CLIR research in medicine becomes especially important in exchanging global knowledge

– Researchers want to share global research results

– Medical doctors need to exchange patient information worldwide – Patients demand extensive access to medical information


• Includes Monolingal Information Retrieval

• Benefit for multilingual users

– Avoid multiple queries

– Pose a question in their preferred language

• Monolingual users take advantage

– if their passive knowledge is sufficient to understand documents in a foreign language

– If (automatic) translation can be performed

– If image captions are used to search for images

Cross Language Information Retrieval


Freiburger Handsearch-Projekt

• Begonnen hat das Handsearching in Deutschland im Jahr 1995 […].

• Das UK Cochrane Centre koordinierte das Projekt zum Handsearching von in Europa publizierten Zeitschriften mit allgemeinem medizinischem

Themenbezug. Insgesamt nahmen 16 europäische Staaten mit 12 verschiedenen Landessprachen an diesem Projekt teil.

• Von mehr als 100 Handsearchern wurden 119 Zeitschriften durchsucht.

– Dabei wurden 21.620 controlled clinical trials identifiziert (12.613 RCTs und 9.007 CCTs);

– davon waren 17.980 (83%) nicht als „controlled trial“ in Medline gelistet.

– 6.554 (30%) stammten aus Zeitschriften, die nicht in Medline aufgenommen sind.

– Etwa ein Drittel aller kontrollierten Studien wurden in einer anderen Sprache als Englisch publiziert, davon war ein Großteil (5.300 RCTs und CCTs) aus den 20 durchsuchten deutschsprachigen medizinischen Zeitschriften.


Core Technology



• The true, significant elements of language are . . . either words, significant parts of

words, or word groupings. [Sapir 1921]

• Linguistic variations make (medical) Information Retrieval difficult

Levels of linguistic variations





Inflection: diseases, appendix, -icesDerivation: leucozyte, leukozyticComposition: para|sympath|ectomyAcronyms: AIDS, SARS, OECD

Orthographic Variants: oesophagus, esophagusSynonyms:

• Sarcoidosis, Morbus Besnier-Boeck-Schaumann, Lupus pernio, benign lymphogranulomatosis, uveoparotid fever….

Proper Names: Aspirin, ASS, ...

Linguistic variations


Innovative approach






-itis inflam

entzünd KONZEPT

subwort herz heart






conventional lexicons contain about 200.000 entries

Active vocabulary is tenfold+ bigger

Innovation: subword lexicons

linked across languages via a thesaurus

Data reduction by 90%

Normalisation of all linguistic variants

Optimal coding efficiency

retrieval performance gain up to 50%

(monolingual) and 20% (multilingual) (MedInfo 2007)



Inflamm|ation of the heart muscle


Morpho-Semantic Indexing

High TSH values suggest the diagnosis of primary hypo- thyroidism ...


Erhöhte TSH-Werte erlauben die Diagnose einer primären Hypo- thyreose ...


Morpho-Semantic Indexing

High TSH values suggest the diagnosis of primary hypo- thyroidism ...


Erhöhte TSH-Werte erlauben die Diagnose einer primären Hypo- thyreose ...

high tsh values suggest the diagnosis of primary hypo- thyroidism ...

erhoehte tsh-werte erlauben die diagnose einer primaeren hypo- thyreose ...

Orthographic Rules Orthographic Normalization


Morpho-Semantic Indexing

high tsh value s suggest the diagnos is of primar y hypo thyroid ism

er hoeh te tsh wert e erlaub en die diagnos e einer primaer en hypo thyre ose

Morph. Segmentation Subword Lexicon High TSH values suggest the

diagnosis of primary hypo- thyroidism ...


Erhöhte TSH-Werte erlauben die Diagnose einer primären Hypo- thyreose ...

high tsh values suggest the diagnosis of primary hypo- thyroidism ...

erhoehte tsh-werte erlauben die diagnose einer primaeren hypo- thyreose ...

Orthographic Rules Orthographic Normalization


Morpho-Semantic Indexing

high tsh value s suggest the diagnos is of primar y hypo thyroid ism

er hoeh te tsh wert e erlaub en die diagnos e einer primaer en hypo thyre ose

Morph. Segmentation Subword Lexicon High TSH values suggest the

diagnosis of primary hypo- thyroidism ...


Erhöhte TSH-Werte erlauben die Diagnose einer primären Hypo- thyreose ...

high tsh values suggest the diagnosis of primary hypo- thyroidism ...

erhoehte tsh-werte erlauben die diagnose einer primaeren hypo- thyreose ...

Orthographic Rules Orthographic Normalization

#up tsh #value #suggest

#diagnost #primar #small #thyre


#up tsh #value #permit

#diagnost #primar #small #thyre Subword Thesaurus

Semantic Normalization




Averbis Search Platform

 Ultrafast semantic search engine

 Optimized for Health Care and Life Sciences

 Content analysis and linguistic normalisation of documents

 Most intuitive user interfaces

 Laymen and expert ways to access information

 Multi- & crosslingual



Type Search for… Find… Others Averbis

Typos breats cancer breast cancer

Spelling oesophagus esophagus

Inflection appendix appendices

Word Order chronic bronchitis bronchitis, chronic

Derivation leukozytic leucozyte

Context parasympathectomy removal of parasympatic tissue --- Composita myocarditis Inflammation of the heart muscle ---

Synonyms stroke apoplex ---

Abbreviations WHO World Health Organization ---

Laymen/Expert Breast removal mastectomy ---

Multilinguality Herzmuskelentzündung Inflammation of the heart muscle,

myocarditis ---


Ways to access information

via Body Key


– Three levels

Main category

Sub category

Diseases/Procedures (ICD/OPS)

– Categories selected by anatomy / functions

Optional customizing to category subsets / other classifications


• Outer Ear

• Middle Ear - Ear Infection - Hearing Loss

• Inner Ear

• Hearing

- Hearing loss

• Balance

Respiratory Tract Heart and Blood Digestive System

Bones, Joints and Muscles

Other categories >

Urinary and Reproductive System


Ways to access information


Offer highly associated terms in addition to a free- text query

Font size corresponds to semantic adjacency

Allows a stepwise

refinement or navigation through the information

Hip Osteo- arthritis


Hip replacement

Ibuprofen Diclofenac

Sport therapy

Query: Hip Joint


Ways to access information

Osteoarthritis, Hip Hip Disease


Hip dislocation

Hip replacement Reoperation


Voltaren Ibuprofen


Kold, Søren Ovesen, Janne


Related Terms:

Offer highly associated terms in addition to a free-text query (like in a Tag Cloud)

Grouping in predefined categories

Allows to search for the most frequent diseases and procedures of an anatomical structure, e.g.

„Hip Joint -> Osteoarthritis, Hip -> Hip replacements“

Query: Hip Joint



Averbis ist Experte für die transparente Einbindung verschiedenster medizinischer Klassifikationen in das Information Retrieval

Vorteile des Einsatzes bekannter Klassifikationen:

Semantische Interoperabilität

Beispielsweise können Leistungen verschiedener Krankenhäuser durch Verwendung von ICD/OPS einheitlich verglichen werden Cross-Linkingzwischen Terminologien

Hierdurch können Benutzer per Mausklick von Organen zu Krankheiten, von Krankheiten zu Therapien, von Therapien zu Forschungsergebnissen etc. navigieren

Verbesserung der Retrievalergebnisse

Durch die Verwendung von Schlagwörtern wird das Auffinden von Dokumenten enorm erleichtert Fallabrechnung

Effiziente Extraktion von ICD/OPS-Codes aus ärztlichen Freitexten erleichtert den klinischen Arbeitsablauf von Ärzten und führt zu mehr Zeit für die Patientenversorgung


Beim instituts- und landesübergreifenden Austausch von Patientendaten können durch standardisierte Terminologien Mehrfachuntersuchungen vermieden, auf Allergien und Unverträglichkeiten hingewiesen und Krankengeschichten einheitlich übermittelt werden




• Portal zur


Entscheidungsfindung bei der


• Aufgabe der Averbis:

Einfacher Zugang zu Expertenwissen

– Laiensprachliche Suche

– Laiensprachliche Klassifikation (Körpernavigation)

• Launch:

– Frühjahr 2008

– Microsite seit 18.06.07


Zentralbibliothek für Medizin

• Größte europäische Medizinbibliothek

• ~20 Millionen Datenbankeinträge

• 60,000 Anfragen pro Monat

• durch Averbis

erstmalig intelligente und sprach-

übergreifende Suche möglich


Thank you!



Ob es eine Assoziation zwischen dia stolischem und/oder systolischem Blutdruck im jungen Erwachsenen- alter und der Mortalität gibt, lautete die Frage einer Kohortenstudie in

Furthermore, it introduced the area of freedom, security and justice (AFSJ) determining that the Union shall “con- stitute an area of freedom, security and justice with respect

TMI indexes and ATU types are both combined with extensive labels, and a novel approach to those resources is that this combination can be linguistically

To be more precise, a grammar in SProUT consists of pattern/action rules, where the LHS of a rule is a regular expression over typed feature structures (TFS)

The combination of information extraction and multilingual generation enables on the one hand, multilingual presentation of the database content, and on the other

We presented the goals and challenges of a recently started European R&D project, which aims at supporting the collection, extraction, integration and presentation of

As the coverage of language pairs has been extended to include Chinese and Arabic in the EuroMatrixPlus project, we collected parallel texts from official documents through the

The end-user interface consists of a Pocket Data Assistant which accepts written or spoken questions as input and delivers answers based on a multitude of resources including a