tx_indexed_search Externe (Download) Dateien durchsuchen
- Einige Linux Hilfsprogramme müssen installiert werden
- Die Programm-Pfade müssen in der Konfiguration der Extension ‘tx_indexed-search’ eingetragen werden
- Die Verwendung der Extension Crawler für externe Dateien in der Konfiguration der Extension ‘tx_indexed-search’ aktivieren
- Die Verwendung der Extension Crawler für externe Dateien in der Konfiguration der Extension ‘tx_indexed-search’ aktivieren
- Die Indizierung manuell starten
- Weiterführende Infos
Mehr dazu:
1) Einige Linux Hilfsprogramme müssen installiert werden:
=====================================
- ‘pdftotext’ und ‘pdfinfo’ um Content aus PDF-Dateien zu extrahieren.
- ‘catdoc’ um Content aus Word-Dateien zu extrahieren.
- ‘xlhtml’ um Content aus EXCEL-Dateien zu extrahieren.
- ‘ppthtml’ um Content aus Powerpoint-Dateien zu extrahieren.
- ‘unrtf’ um Content aus RTF-Dateien zu extrahieren.
- “unzip” falls Content aus OpenOffice.org/Oasis OpenDocument Dateien indiziert werden soll.
Hinweis: Der Apache- Webserver muss die nötigen Zugriffsrechte haben um diese Hilfsprogramme ausführen zu können.
WICHTIG: Microsoft Office 2007 Dokumentformate werden noch nicht unterstützt!
2) Die Programm-Pfade müssen in der Konfiguration der Extension ‘tx_indexed-search’ eingetragen werden:
=====================================
Hinweis: Die Option ‘PDF parsing mode’ legt fest, wieviele Seiten maximal indiziert werden (Voreinstellung: 20 Seiten).
3) Die Verwendung der Extension Crawler für externe Dateien in der Konfiguration der Extension ‘tx_indexed-search’ aktivieren:
=====================================
4) Indexed Search Suche für Extension Crawler konfigurieren
=====================================
Mit Web->Liste auf der root-Seite der Homepage Konfigurationsdatensätze anlegen:
Der Datensatz für Dateiordner im Detail:
5) Indizierung manuell starten:
=====================================
Mit Web-Info den Ansichtsmodus ‘Site Crawler’wählen.
Dort dann den ‘Seiteninformation’-Modus ‘CLI Status’ auswählen:
Hinweise:
Über den ‘Seiteninformation’-Modus ‘Crawler log’ kann der Zustand der Indizierung geprüft werden.
Alternativ kann die Indizierung per Crawler auch über einen Cron-Job zeitgesteuert mit Hilfe eines Linux-Bash-Scriptes gestartet werden.
6) Weiterführende Hinweise: Indexed Search Handbuch
=====================================