Internetservice - Blog

bit4you präsentiert einen Blog rund um die Themen TYPO3, MySQL und PHP

tx_indexed_search Externe (Download) Dateien durchsuchen


  1. Einige Linux Hilfsprogramme müssen installiert werden
  2. Die Programm-Pfade müssen in der Konfiguration der Extension ‘tx_indexed-search’ eingetragen werden
  3. Die Verwendung der Extension Crawler für externe Dateien in der Konfiguration der Extension ‘tx_indexed-search’ aktivieren
  4. Die Verwendung der Extension Crawler für externe Dateien in der Konfiguration der Extension ‘tx_indexed-search’ aktivieren
  5. Die Indizierung manuell starten
  6. Weiterführende Infos

Mehr dazu:

1) Einige Linux Hilfsprogramme müssen installiert werden:
=====================================

  • ‘pdftotext’ und ‘pdfinfo’ um Content aus PDF-Dateien zu extrahieren.
  • ‘catdoc’ um Content aus Word-Dateien zu extrahieren.
  • ‘xlhtml’ um Content aus EXCEL-Dateien zu extrahieren.
  • ‘ppthtml’ um Content aus Powerpoint-Dateien zu extrahieren.
  • ‘unrtf’ um Content aus RTF-Dateien zu extrahieren.
  • “unzip” falls Content aus OpenOffice.org/Oasis OpenDocument Dateien indiziert werden soll.

Hinweis: Der Apache- Webserver muss die nötigen Zugriffsrechte haben um diese Hilfsprogramme ausführen zu können.
WICHTIG: Microsoft Office 2007 Dokumentformate werden noch nicht unterstützt!

2) Die Programm-Pfade müssen in der Konfiguration der Extension ‘tx_indexed-search’ eingetragen werden:
=====================================

 

Abb7.: indexed_search

Hinweis: Die Option ‘PDF parsing mode’ legt fest, wieviele Seiten maximal indiziert werden (Voreinstellung: 20 Seiten).

3) Die Verwendung der Extension Crawler für externe Dateien in der Konfiguration der Extension ‘tx_indexed-search’ aktivieren:
=====================================

 

Abb.10: indexed_search

4) Indexed Search Suche für Extension Crawler konfigurieren
=====================================

Mit Web->Liste auf der root-Seite der Homepage Konfigurationsdatensätze anlegen:

 

Abb.8: indexed_search

Der Datensatz für Dateiordner im Detail:

 

Abb.9: indexed_search

5) Indizierung manuell starten:
=====================================

Mit Web-Info den Ansichtsmodus ‘Site Crawler’wählen.
Dort dann den ‘Seiteninformation’-Modus ‘CLI Status’ auswählen:

 

Abb.1: indexed_search

Hinweise:
Ãœber den ‘Seiteninformation’-Modus ‘Crawler log’ kann der Zustand der Indizierung geprüft werden.
Alternativ kann die Indizierung per Crawler auch über einen Cron-Job zeitgesteuert mit Hilfe eines Linux-Bash-Scriptes gestartet werden.

6) Weiterführende Hinweise: Indexed Search Handbuch

=====================================

Kommentare sind zur Zeit geschlossen.

Internetservice - Blog läuft unter Wordpress 2.3.2
Anpassung und Design: bit4you :: Waldseer Str. 14 :: 88250 Weingarten