Zuletzt bearbeitet vor einem Monat
von Margit Link-Rodrigue

Referenz:WikiRAG: Unterschied zwischen den Versionen

Margit Link-Rodrigue (Diskussion | Beiträge)
Keine Bearbeitungszusammenfassung
Margit Link-Rodrigue (Diskussion | Beiträge)
K (Benutzername entfernt) (Logbucheinzelheiten entfernt)
 
(Eine dazwischenliegende Version desselben Benutzers wird nicht angezeigt)
Zeile 7: Zeile 7:
|category=Kommunikation
|category=Kommunikation
|bsvFrom=5.2
|bsvFrom=5.2
|features=The extension '''WikiRAG''' provides data for RAG (Retrieval-Augmented Generation) applications from the wiki.  
|features=Die Erweiterung '''WikiRAG''' stellt Daten für RAG-Anwendungen (Retrieval-Augmented Generation) aus dem Wiki bereit.


Data is not directly indexed to targets, but first scheduled to be processed by a job at regular intervals. Change observers are normally responsible for detecting indexable changes and scheduling jobs to process. Depending on what changed, change observers will only schedule certain DataProviders to be executed.
Daten werden nicht direkt in Zielen indexiert, sondern zunächst in regelmäßigen Abständen von einem Job verarbeitet. Änderungsbeobachter sind normalerweise dafür verantwortlich, indexierbare Änderungen zu erkennen und die Verarbeitung von Jobs zu planen. Je nach Änderung planen Änderungsbeobachter nur die Ausführung bestimmter Datenprovider ein.


=== Types of pages being indexed ===
=== Indexierte Seitentypen ===
Not all pages are suitable for indexing. This determination is done in <code>IndexabilityChecker</code> (<code>WikiRAG._IndexabilityChecker</code> service and accessible over <code>Scheduler::canPageBeScheduled</code> method). By default, following pages are indexed:
Nicht alle Seiten sind für die Indexierung geeignet. Diese Bestimmung erfolgt im <code>IndexabilityChecker</code> (Dienst <code>WikiRAG._IndexabilityChecker</code> und ist über die Methode <code>Scheduler::canPageBeScheduled</code> zugänglich). Standardmäßig werden folgende Seiten indexiert:


* Non-talk content pages
* Seiten ohne Diskussionsinhalte
* File pages where file types are <code>OFFICE</code> or <code>TEXT</code> (<code>docx</code>, <code>doc</code>, <code>odt</code>, <code>pdf</code>, <code>txt</code>, <code>md</code>, ...)
* Dateiseiten mit den Dateitypen <code>OFFICE</code> oder <code>TEXT</code> (<code>docx</code>, <code>doc</code>, <code>odt</code>, <code>pdf</code>, <code>txt</code>, <code>md</code>, )
* Any page allowed by <code>WikiRAGCanBeIndexed</code> hook
* Alle Seiten, die durch den <code>WikiRAGCanBeIndexed</code>-Hook zugelassen werden


=== Prevent page index by MAGIC WORD ===
=== Seitenindexierung durch MAGISCHES WORT verhindern ===
Use <code>__NO_RAG_EXPORT__</code> magic word on a page to prevent it from being indexed.
Der Umschalter <code>__NO_RAG_EXPORT__</code> auf einer Seite verhindert, dass die Seite für die Indexierung berücksichtigt wird.
}}
}}

Aktuelle Version vom 18. November 2025, 10:53 Uhr

alle Erweiterungen

Übersicht
Beschreibung:

Erweiterungsschicht für wiki-gestützte LLMs

Status: stable Lizenz: GPL-3.0-only
Entwickler: Hallo Welt! Distribution: BlueSpice
Kategorie: Kommunikation Edition: BlueSpice pro, BlueSpice farm, BlueSpice cloud 5.2+

Funktion

Die Erweiterung WikiRAG stellt Daten für RAG-Anwendungen (Retrieval-Augmented Generation) aus dem Wiki bereit.

Daten werden nicht direkt in Zielen indexiert, sondern zunächst in regelmäßigen Abständen von einem Job verarbeitet. Änderungsbeobachter sind normalerweise dafür verantwortlich, indexierbare Änderungen zu erkennen und die Verarbeitung von Jobs zu planen. Je nach Änderung planen Änderungsbeobachter nur die Ausführung bestimmter Datenprovider ein.

Indexierte Seitentypen

Nicht alle Seiten sind für die Indexierung geeignet. Diese Bestimmung erfolgt im IndexabilityChecker (Dienst WikiRAG._IndexabilityChecker und ist über die Methode Scheduler::canPageBeScheduled zugänglich). Standardmäßig werden folgende Seiten indexiert:

  • Seiten ohne Diskussionsinhalte
  • Dateiseiten mit den Dateitypen OFFICE oder TEXT (docx, doc, odt, pdf, txt, md, …)
  • Alle Seiten, die durch den WikiRAGCanBeIndexed-Hook zugelassen werden

Seitenindexierung durch MAGISCHES WORT verhindern

Der Umschalter auf einer Seite verhindert, dass die Seite für die Indexierung berücksichtigt wird.

Technische Information[Bearbeiten | Quelltext bearbeiten]

Voraussetzungen[Bearbeiten | Quelltext bearbeiten]

  • MediaWiki: 1.43.0

Integriert in[Bearbeiten | Quelltext bearbeiten]

  • BlueSpiceDistributionConnector
  • BlueSpiceExtendedSearch
  • BlueSpiceVisualEditorConnector
  • WikiRAG

Konfiguration[Bearbeiten | Quelltext bearbeiten]

Name Wert
WikiRAGApiAllowedIP NULL
WikiRAGPipeline array ( )
WikiRAGTarget array ( 'type' => 'null-target', 'configuration' => array ( ), )

Hooks[Bearbeiten | Quelltext bearbeiten]

Composer-Anforderungen

all-packages mwstake/mediawiki-component-runjobstrigger


PDF-Ausschluss - Start

Feedback zur Dokumentation ist im Community-Forum möglich.

PDF-Ausschluss - Ende