Dann bringst Du schon mal die besten Voraussetzungen mit :-)
Als "Übungsaufgabe" bringe meine Kontoauszüge der letzten zehn Jahre in eine Datenbanktabelle, das sind 120 PDF-Dateien.
Das ist von der Datenstruktur dann wirklich unproblematisch. Hatte da mir irgendwelchen semi-strukturierten Daten gerechnet. Mal aus Neugier: Wie genau hast Du die Umwandlung von PDF (Scan oder Text?) mit MSO gemacht? Habe mit der ORC-Funktion von MSO noch nie gearbeitet, halte das aber tendenziell für eine nicht triviale Aufgabe.
Für eine Suchmaschine würde ich mir Elasticsearch mal näher anschauen. Da bist Du von der Umsetzung von Volltextsuche wesentlich näher an MetaGer/Google als bei der eher rudimentären Volltextsuche (sofern Du die überhaupt suchst) von MySQL. Da das eine Dokumentenorientierte DB ist kannst Du auch später auch noch andere Dokumente importieren und dann gemeinsam durchsuchen suchen. Damit hättest Du dann auch einen direkten Mehrwert gegenüber einer Sammlung von CSVs die auch auch in Excel filtern könntest. Könntest Du bei Bedarf auch direkt mit JS/Ajax nutzen.
und möchte etwas für die Beschäftigung meiner grauen Zellen tun.
Dann könnten ggf. auch auch Freude an den Online-Kurse von OpenHPI haben. Da gibt es auch einige Angebote zu Webtechnologien, wobei man natürlich schauen um für welche Zielgruppe die jeweiligen Kurse sind. In-Memory-DBs wäre aber bestimmt interessant für Dich…
Gruß
Borlander