TY - THES A1 - Völske, Michael T1 - Retrieval Enhancements for Task-Based Web Search N2 - The task-based view of web search implies that retrieval should take the user perspective into account. Going beyond merely retrieving the most relevant result set for the current query, the retrieval system should aim to surface results that are actually useful to the task that motivated the query. This dissertation explores how retrieval systems can better understand and support their users’ tasks from three main angles: First, we study and quantify search engine user behavior during complex writing tasks, and how task success and behavior are associated in such settings. Second, we investigate search engine queries formulated as questions, and explore patterns in a large query log that may help search engines to better support this increasingly prevalent interaction pattern. Third, we propose a novel approach to reranking the search result lists produced by web search engines, taking into account retrieval axioms that formally specify properties of a good ranking. N2 - Die Task-basierte Sicht auf Websuche impliziert, dass die Benutzerperspektive berücksichtigt werden sollte. Über das bloße Abrufen der relevantesten Ergebnismenge für die aktuelle Anfrage hinaus, sollten Suchmaschinen Ergebnisse liefern, die tatsächlich für die Aufgabe (Task) nützlich sind, die diese Anfrage motiviert hat. Diese Dissertation untersucht, wie Retrieval-Systeme die Aufgaben ihrer Benutzer besser verstehen und unterstützen können, und leistet Forschungsbeiträge unter drei Hauptaspekten: Erstens untersuchen und quantifizieren wir das Verhalten von Suchmaschinenbenutzern während komplexer Schreibaufgaben, und wie Aufgabenerfolg und Verhalten in solchen Situationen zusammenhängen. Zweitens untersuchen wir Suchmaschinenanfragen, die als Fragen formuliert sind, und untersuchen ein Suchmaschinenlog mit fast einer Milliarde solcher Anfragen auf Muster, die Suchmaschinen dabei helfen können, diesen zunehmend verbreiteten Anfragentyp besser zu unterstützen. Drittens schlagen wir einen neuen Ansatz vor, um die von Web-Suchmaschinen erstellten Suchergebnislisten neu zu sortieren, wobei Retrieval-Axiome berücksichtigt werden, die die Eigenschaften eines guten Rankings formal beschreiben. KW - Information Retrieval Y1 - 2019 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:gbv:wim2-20190709-39422 ER - TY - THES A1 - Bunte, Andreas T1 - Entwicklung einer ontologiebasierten Beschreibung zur Erhöhung des Automatisierungsgrades in der Produktion N2 - Die zu beobachtenden kürzeren Produktlebenszyklen und eine schnellere Marktdurchdringung von Produkttechnologien erfordern adaptive und leistungsfähige Produktionsanlagen. Die Adaptivität ermöglicht eine Anpassung der Produktionsanlage an neue Produkte, und die Leistungsfähigkeit der Anlage stellt sicher, dass ausreichend Produkte in kurzer Zeit und zu geringen Kosten hergestellt werden können. Durch eine Modularisierung der Produktionsanlage kann die Adaptivität erreicht werden. Jedoch erfordert heutzutage jede Adaption manuellen Aufwand, z.B. zur Anpassung von proprietären Signalen oder zur Anpassung übergeordneter Funktionen. Dadurch sinkt die Leistungsfähigkeit der Anlage. Das Ziel dieser Arbeit ist es, die Interoperabilität in Bezug auf die Informationsverwendung in modularen Produktionsanlagen zu gewährleisten. Dazu werden Informationen durch semantische Modelle beschrieben. Damit wird ein einheitlicher Informationszugriff ermöglicht, und übergeordnete Funktionen erhalten Zugriff auf alle Informationen der Produktionsmodule, unabhängig von dem Typ, dem Hersteller und dem Alter des Moduls. Dadurch entfällt der manuelle Aufwand bei Anpassungen des modularen Produktionssystems, wodurch die Leistungsfähigkeit der Anlage gesteigert und Stillstandszeiten reduziert werden. Nach dem Ermitteln der Anforderungen an einen Modellierungsformalismus wurden potentielle Formalismen mit den Anforderungen abgeglichen. OWL DL stellte sich als geeigneter Formalismus heraus und wurde für die Erstellung des semantischen Modells in dieser Arbeit verwendet. Es wurde exemplarisch ein semantisches Modell für die drei Anwendungsfälle Interaktion, Orchestrierung und Diagnose erstellt. Durch einen Vergleich der Modellierungselemente von unterschiedlichen Anwendungsfällen wurde die Allgemeingültigkeit des Modells bewertet. Dabei wurde gezeigt, dass die Erreichung eines allgemeinen Modells für technische Anwendungsfälle möglich ist und lediglich einige Hundert Begriffe benötigt. Zur Evaluierung der erstellten Modelle wurde ein wandlungsfähiges Produktionssystem der SmartFactoryOWL verwendet, an dem die Anwendungsfälle umgesetzt wurden. Dazu wurde eine Laufzeitumgebung erstellt, die die semantischen Modelle der einzelnen Module zu einem Gesamtmodell vereint, Daten aus der Anlage in das Modell überträgt und eine Schnittstelle für die Services bereitstellt. Die Services realisieren übergeordnete Funktionen und verwenden die Informationen des semantischen Modells. In allen drei Anwendungsfällen wurden die semantischen Modelle korrekt zusammengefügt und mit den darin enthaltenen Informationen konnte die Aufgabe des jeweiligen Anwendungsfalles ohne zusätzlichen manuellen Aufwand gelöst werden. KW - Ontologie KW - Metamodell KW - Interoperabilität KW - OWL KW - Industrie 4.0 Y1 - 2020 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:gbv:wim2-20201215-43156 ER - TY - JOUR A1 - Vakkari, Pertti A1 - Völske, Michael A1 - Potthast, Martin A1 - Hagen, Matthias A1 - Stein, Benno T1 - Predicting essay quality from search and writing behavior JF - Journal of Association for Information Science and Technology N2 - Few studies have investigated how search behavior affects complex writing tasks. We analyze a dataset of 150 long essays whose authors searched the ClueWeb09 corpus for source material, while all querying, clicking, and writing activity was meticulously recorded. We model the effect of search and writing behavior on essay quality using path analysis. Since the boil-down and build-up writing strategies identified in previous research have been found to affect search behavior, we model each writing strategy separately. Our analysis shows that the search process contributes significantly to essay quality through both direct and mediated effects, while the author's writing strategy moderates this relationship. Our models explain 25–35% of the variation in essay quality through rather simple search and writing process characteristics alone, a fact that has implications on how search engines could personalize result pages for writing tasks. Authors' writing strategies and associated searching patterns differ, producing differences in essay quality. In a nutshell: essay quality improves if search and writing strategies harmonize—build-up writers benefit from focused, in-depth querying, while boil-down writers fare better with a broader and shallower querying strategy. KW - Information Retrieval KW - Textproduktion KW - Suchverfahren KW - Aufsatz KW - Suchverhalten KW - Pfadanalyse KW - Suchmaschine Y1 - 2021 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:gbv:wim2-20210804-44692 UR - https://asistdl.onlinelibrary.wiley.com/doi/10.1002/asi.24451 VL - 2021 IS - volume 72, issue 7 SP - 839 EP - 852 PB - Wiley CY - Hoboken, NJ ER - TY - JOUR A1 - Wiegmann, Matti A1 - Kersten, Jens A1 - Senaratne, Hansi A1 - Potthast, Martin A1 - Klan, Friederike A1 - Stein, Benno T1 - Opportunities and risks of disaster data from social media: a systematic review of incident information JF - Natural Hazards and Earth System Sciences N2 - Compiling and disseminating information about incidents and disasters are key to disaster management and relief. But due to inherent limitations of the acquisition process, the required information is often incomplete or missing altogether. To fill these gaps, citizen observations spread through social media are widely considered to be a promising source of relevant information, and many studies propose new methods to tap this resource. Yet, the overarching question of whether and under which circumstances social media can supply relevant information (both qualitatively and quantitatively) still remains unanswered. To shed some light on this question, we review 37 disaster and incident databases covering 27 incident types, compile a unified overview of the contained data and their collection processes, and identify the missing or incomplete information. The resulting data collection reveals six major use cases for social media analysis in incident data collection: (1) impact assessment and verification of model predictions, (2) narrative generation, (3) recruiting citizen volunteers, (4) supporting weakly institutionalized areas, (5) narrowing surveillance areas, and (6) reporting triggers for periodical surveillance. Furthermore, we discuss the benefits and shortcomings of using social media data for closing information gaps related to incidents and disasters. KW - Katastrophe KW - Social Media KW - Datenbank KW - Information KW - Katastrophenmanagement KW - Soziale Medien KW - Datensammlung Y1 - 2021 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:gbv:wim2-20210804-44634 UR - https://nhess.copernicus.org/articles/21/1431/2021/nhess-21-1431-2021.html VL - 2021 IS - Volume 21, Issue 5 SP - 1431 EP - 1444 PB - European Geophysical Society CY - Katlenburg-Lindau ER - TY - THES A1 - Kiesel, Johannes T1 - Harnessing Web Archives to Tackle Selected Societal Challenges N2 - With the growing importance of the World Wide Web, the major challenges our society faces are also increasingly affecting the digital areas of our lives. Some of the associated problems can be addressed by computer science, and some of these specifically by data-driven research. To do so, however, requires to solve open issues related to archive quality and the large volume and variety of the data contained. This dissertation contributes data, algorithms, and concepts towards leveraging the big data and temporal provenance capabilities of web archives to tackle societal challenges. We selected three such challenges that highlight the central issues of archive quality, data volume, and data variety, respectively: (1) For the preservation of digital culture, this thesis investigates and improves the automatic quality assurance of the web page archiving process, as well as the further processing of the resulting archive data for automatic analysis. (2) For the critical assessment of information, this thesis examines large datasets of Wikipedia and news articles and presents new methods for automatically determining quality and bias. (3) For digital security and privacy, this thesis exploits the variety of content on the web to quantify the security of mnemonic passwords and analyzes the privacy-aware re-finding of the various seen content through private web archives. N2 - Mit der wachsenden Bedeutung des World Wide Webs betreffen die großen Herausforderungen unserer Gesellschaft zunehmend auch die digitalen Bereiche unseres Lebens. Einige der zugehörigen Probleme können durch die Informatik, und einige von diesen speziell durch datengetriebene Forschung, angegangen werden. Dazu müssen jedoch offene Fragen im Zusammenhang mit der Qualität der Archive und der großen Menge und Vielfalt der enthaltenen Daten gelöst werden. Diese Dissertation trägt mit Daten, Algorithmen und Konzepten dazu bei, die große Datenmenge und temporale Protokollierung von Web-Archiven zu nutzen, um gesellschaftliche Herausforderungen zu bewältigen. Wir haben drei solcher Herausforderungen ausgewählt, die die zentralen Probleme der Archivqualität, des Datenvolumens und der Datenvielfalt hervorheben: (1) Für die Bewahrung der digitalen Kultur untersucht und verbessert diese Arbeit die automatische Qualitätsbestimmung einer Webseiten-Archivierung, sowie die weitere Aufbereitung der dabei entstehenden Archivdaten für automatische Auswertungen. (2) Für die kritische Bewertung von Information untersucht diese Arbeit große Datensätze an Wikipedia- und Nachrichtenartikeln und stellt neue Verfahren zur Bestimmung der Qualität und Einseitigkeit/Parteilichkeit vor. (3) Für die digitale Sicherheit und den Datenschutz nutzt diese Arbeit die Vielfalt der Inhalte im Internet, um die Sicherheit von mnemonischen Passwörtern zu quantifizieren, und analysiert das datenschutzbewusste Wiederauffinden der verschiedenen gesehenen Inhalte mit Hilfe von privaten Web-Archiven. KW - Informatik KW - Internet KW - Web archive Y1 - 2022 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:gbv:wim2-20220622-46602 ER -