PDF-Download

Heute

Ich würde gerne eine Internet-Seite "xyz.com" nach allen Links zu PDF-Dateien durchsuchen und diese herunterladen. Es sollen nur Dateien gefunden werden, die im Namen eine Jahreszahl ("2024", "2012", "2020" oder ähnlich) und eine Monatsangabe ("Juli", "März", "Januar" usw.) enthalten. Die Dateien sollen in der Form "YYYY-MM Monat.pdf", also zum Beispiel "2019-01 Januar.pdf" gespeichert werden. Wie ginge das mit einem Pythonskript?

Das klingt nach einer spannenden Aufgabe! Hier ist ein Beispiel für ein Python-Skript, das genau das tut, was du beschrieben hast:

Installiere die notwendigen Bibliotheken:
python
```
pip install requests beautifulsoup4
```

Skript zum Herunterladen der PDFs:

python

import requests
from bs4 import BeautifulSoup
import os
import re

def download_pdfs(url, download_folder):
    # Seite herunterladen und parsen
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')

    # Alle Links extrahieren
    links = soup.find_all('a', href=True)

    # Filtere die Links, um nur die gewünschten PDFs zu erhalten
    pdf_links = []
    for link in links:
        href = link['href']
        if '.pdf' in href:
            # Jahreszahl und Monatsangabe im Dateinamen suchen
            match = re.search(r'(\d{4})-(\d{2})\s([A-Za-z]+)', href)
            if match:
                year, month_number, month_name = match.groups()
                pdf_links.append((href, f"{year}-{month_number} {month_name}.pdf"))

    # Herunterladen und speichern der PDFs
    if not os.path.exists(download_folder):
        os.makedirs(download_folder)

    for pdf_url, filename in pdf_links:
        pdf_response = requests.get(pdf_url)
        with open(os.path.join(download_folder, filename), 'wb') as pdf_file:
            pdf_file.write(pdf_response.content)
        print(f"Downloaded: {filename}")

# Beispielnutzung
download_pdfs('https://www.xyz.com', 'downloads')

Dieses Skript erledigt Folgendes:

Es lädt die Webseite herunter und parst den HTML-Inhalt.
Es durchsucht alle Links nach solchen, die auf .pdf enden.
Es überprüft, ob der Dateiname eine Jahreszahl und eine Monatsangabe enthält.
Es lädt die entsprechenden PDF-Dateien herunter und speichert sie im angegebenen Ordner.

Passen Sie die URL und den Zielordner nach Bedarf an. Viel Erfolg beim Scrapen und Herunterladen der Dateien! 🚀

Gibt es noch etwas, wobei ich behilflich sein kann?

Die PDF-Links enthalten den Monat aber nicht als Zahl, sondern ausgeschrieben in deutsch.

Ah, verstehe! Dann müssen wir das Skript ein wenig anpassen, um die ausgeschriebenen Monatsnamen in Deutsch zu erkennen und korrekt zu verarbeiten.

Hier ist die aktualisierte Version des Skripts, das die Monatsnamen auf Deutsch verarbeitet:

python

import requests
from bs4 import BeautifulSoup
import os
import re

def download_pdfs(url, download_folder):
    # Liste der deutschen Monatsnamen
    monate = [
        "Januar", "Februar", "März", "April", "Mai", "Juni",
        "Juli", "August", "September", "Oktober", "November", "Dezember"
    ]

    # Seite herunterladen und parsen
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')

    # Alle Links extrahieren
    links = soup.find_all('a', href=True)

    # Filtere die Links, um nur die gewünschten PDFs zu erhalten
    pdf_links = []
    for link in links:
        href = link['href']
        if '.pdf' in href:
            # Jahreszahl und ausgeschriebenen Monatsnamen im Dateinamen suchen
            match = re.search(r'(\d{4})\s(.*?)\.pdf', href)
            if match:
                year, month_name = match.groups()
                if month_name in monate:
                    # Monatsnummer für den Dateinamen ermitteln
                    month_number = monate.index(month_name) + 1
                    # Dateinamen im gewünschten Format erstellen
                    formatted_filename = f"{year}-{month_number:02d} {month_name}.pdf"
                    pdf_links.append((href, formatted_filename))

    # Herunterladen und speichern der PDFs
    if not os.path.exists(download_folder):
        os.makedirs(download_folder)

    for pdf_url, filename in pdf_links:
        pdf_response = requests.get(pdf_url)
        with open(os.path.join(download_folder, filename), 'wb') as pdf_file:
            pdf_file.write(pdf_response.content)
        print(f"Downloaded: {filename}")

# Beispielnutzung
download_pdfs('https://www.xyz.com', 'downloads')

Dieses Skript:

Enthält eine Liste der deutschen Monatsnamen.
Sucht nach Jahreszahlen und ausgeschriebenen Monatsnamen im Dateinamen.
Wandelt die Monatsnamen in die entsprechende Monatsnummer um und erstellt den Dateinamen im gewünschten Format.

Das Skript lädt die entsprechenden PDF-Dateien herunter und speichert sie im angegebenen Ordner. Viel Erfolg beim Scrapen und Herunterladen der Dateien! 🚀

Gibt es noch etwas, wobei ich behilflich sein kann?

Bedeutet "if '.pdf' in href" nicht, daß dann ".pdf" irgendwo im Link vorkommen könnte, also auch "test.com\uploads\test.pdf.png" gefunden werden würde, obwohl das ja dann eine png-Datei wäre.

Du hast recht, der Ausdruck if '.pdf' in href könnte tatsächlich dazu führen, dass Links wie test.com/uploads/test.pdf.png gefunden werden, was nicht gewünscht ist. Wir können die Bedingung verfeinern, um sicherzustellen, dass nur Links berücksichtigt werden, die auf .pdf enden.

Hier ist die angepasste Version des Skripts:

python

import requests
from bs4 import BeautifulSoup
import os
import re

def download_pdfs(url, download_folder):
    # Liste der deutschen Monatsnamen
    monate = [
        "Januar", "Februar", "März", "April", "Mai", "Juni",
        "Juli", "August", "September", "Oktober", "November", "Dezember"
    ]

    # Seite herunterladen und parsen
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')

    # Alle Links extrahieren
    links = soup.find_all('a', href=True)

    # Filtere die Links, um nur die gewünschten PDFs zu erhalten
    pdf_links = []
    for link in links:
        href = link['href']
        if href.lower().endswith('.pdf'):
            # Jahreszahl und ausgeschriebenen Monatsnamen im Dateinamen suchen
            match = re.search(r'(\d{4})\s(.*?)\.pdf', href, re.IGNORECASE)
            if match:
                year, month_name = match.groups()
                if month_name in monate:
                    # Monatsnummer für den Dateinamen ermitteln
                    month_number = monate.index(month_name) + 1
                    # Dateinamen im gewünschten Format erstellen
                    formatted_filename = f"{year}-{month_number:02d} {month_name}.pdf"
                    pdf_links.append((href, formatted_filename))

    # Herunterladen und speichern der PDFs
    if not os.path.exists(download_folder):
        os.makedirs(download_folder)

    for pdf_url, filename in pdf_links:
        pdf_response = requests.get(pdf_url)
        with open(os.path.join(download_folder, filename), 'wb') as pdf_file:
            pdf_file.write(pdf_response.content)
        print(f"Downloaded: {filename}")

# Beispielnutzung
download_pdfs('https://www.xyz.com', 'downloads')

Mit der Methode href.lower().endswith('.pdf') stellen wir sicher, dass nur Links berücksichtigt werden, die tatsächlich auf .pdf enden. Dies sollte das Problem mit unerwünschten Dateiendungen wie .pdf.png beheben.

Möchtest du es ausprobieren oder gibt es noch etwas anderes, wobei ich dir helfen kann? 😊

Genial!

Freut mich, dass dir das Skript gefällt! 😊 Wenn du noch weitere Anpassungen oder Hilfe bei anderen Projekten benötigst, stehe ich dir gerne zur Verfügung. Was möchtest du als nächstes angehen? Vielleicht ein weiteres spannendes Python-Projekt oder etwas ganz anderes? Lass es mich wissen! 🚀

Jetzt kommt noch etwas Kompliziertes ...

Immer her damit! Herausforderungen sind mein Spezialgebiet. Was hast du im Sinn? 😊

Auf der Internetseite "https://www.gruenes-schwabencenter.de/wohnzimmer/" wird nicht alles auf einmal angezeigt, sondern es gibt eine Schaltfläche "LOAD MORE POSTS" der Klasse "fusion-load-more-button". Kann so ein Python-Skript mit dem "BeautifulSoup"-Modul auch das Nachladen durch Betätigen der Schaltfläche erledigen und erst wenn alles geladen ist mit der Suche nach Links anfangen?

Das ist ein wenig komplizierter, da BeautifulSoup allein nicht in der Lage ist, JavaScript-basierte Interaktionen durchzuführen, wie das Klicken auf eine Schaltfläche. Aber keine Sorge, wir können das erreichen, indem wir Selenium verwenden, ein weiteres Python-Modul, das Webbrowser automatisieren kann.

Hier ist ein Beispiel für ein Skript, das die Schaltfläche "LOAD MORE POSTS" mehrfach anklickt, bis alle Inhalte geladen sind, und dann die Links extrahiert und die gewünschten PDFs herunterlädt:

Installiere die notwendigen Bibliotheken:
python
```
pip install selenium beautifulsoup4
```
Lade den WebDriver herunter: Für Chrome kannst du den ChromeDriver herunterladen.

Skript zum Laden und Herunterladen der PDFs:

python

import time
import requests
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import os
import re

def download_pdfs(url, download_folder):
    # Liste der deutschen Monatsnamen
    monate = [
        "Januar", "Februar", "März", "April", "Mai", "Juni",
        "Juli", "August", "September", "Oktober", "November", "Dezember"
    ]

    # WebDriver konfigurieren (Chrome)
    driver = webdriver.Chrome(executable_path='/path/to/chromedriver')
    driver.get(url)

    # Schaltfläche "LOAD MORE POSTS" so lange anklicken, bis alle Posts geladen sind
    while True:
        try:
            load_more_button = WebDriverWait(driver, 10).until(
                EC.element_to_be_clickable((By.CLASS_NAME, 'fusion-load-more-button'))
            )
            load_more_button.click()
            time.sleep(2)  # Warte, bis die neuen Inhalte geladen sind
        except:
            break  # Keine weitere Schaltfläche zum Anklicken gefunden

    # HTML-Inhalt extrahieren und parsen
    soup = BeautifulSoup(driver.page_source, 'html.parser')
    driver.quit()

    # Alle Links extrahieren
    links = soup.find_all('a', href=True)

    # Filtere die Links, um nur die gewünschten PDFs zu erhalten
    pdf_links = []
    for link in links:
        href = link['href']
        if href.lower().endswith('.pdf'):
            # Jahreszahl und ausgeschriebenen Monatsnamen im Dateinamen suchen
            match = re.search(r'(\d{4})\s(.*?)\.pdf', href, re.IGNORECASE)
            if match:
                year, month_name = match.groups()
                if month_name in monate:
                    # Monatsnummer für den Dateinamen ermitteln
                    month_number = monate.index(month_name) + 1
                    # Dateinamen im gewünschten Format erstellen
                    formatted_filename = f"{year}-{month_number:02d} {month_name}.pdf"
                    pdf_links.append((href, formatted_filename))

    # Herunterladen und speichern der PDFs
    if not os.path.exists(download_folder):
        os.makedirs(download_folder)

    for pdf_url, filename:
        pdf_response = requests.get(pdf_url)
        with open(os.path.join(download_folder, filename), 'wb') as pdf_file:
            pdf_file.write(pdf_response.content)
        print(f"Downloaded: {filename}")

# Beispielnutzung
download_pdfs('https://www.gruenes-schwabencenter.de/wohnzimmer/', 'downloads')

Wichtig: Du musst den Pfad zu deinem chromedriver entsprechend anpassen.

Dieses Skript verwendet Selenium, um die Schaltfläche "LOAD MORE POSTS" wiederholt zu klicken, bis keine weiteren Posts mehr geladen werden. Anschließend wird der gesamte HTML-Inhalt mit BeautifulSoup geparst, um die gewünschten PDF-Links zu extrahieren und herunterzuladen.

Hast du noch weitere Fragen oder Anmerkungen? 😊

Diesen Zweisekundenschlaf kann man nicht durch eine Bedingung ersetzen, die genau feststellt, wann ein Nachladezyklus abgeschlossen ist?

Ja, das ist möglich und sogar eine elegantere Lösung! Wir können eine Bedingung verwenden, die überprüft, ob neue Inhalte erfolgreich geladen wurden, bevor wir mit dem nächsten Klick fortfahren. Hier ist eine aktualisierte Version des Skripts, das diese Bedingung verwendet:

python

import time
import requests
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import os
import re

def download_pdfs(url, download_folder):
    # Liste der deutschen Monatsnamen
    monate = [
        "Januar", "Februar", "März", "April", "Mai", "Juni",
        "Juli", "August", "September", "Oktober", "November", "Dezember"
    ]

    # WebDriver konfigurieren (Chrome)
    driver = webdriver.Chrome(executable_path='/path/to/chromedriver')
    driver.get(url)

    # Variable zum Speichern der Anzahl der geladenen Elemente
    previous_posts_count = len(driver.find_elements(By.CLASS_NAME, 'post'))

    # Schaltfläche "LOAD MORE POSTS" so lange anklicken, bis alle Posts geladen sind
    while True:
        try:
            load_more_button = WebDriverWait(driver, 10).until(
                EC.element_to_be_clickable((By.CLASS_NAME, 'fusion-load-more-button'))
            )
            load_more_button.click()

            # Warte, bis neue Posts geladen sind
            WebDriverWait(driver, 10).until(
                lambda d: len(d.find_elements(By.CLASS_NAME, 'post')) > previous_posts_count
            )

            # Update der Anzahl der geladenen Posts
            previous_posts_count = len(driver.find_elements(By.CLASS_NAME, 'post'))
        except:
            break  # Keine weitere Schaltfläche zum Anklicken gefunden

    # HTML-Inhalt extrahieren und parsen
    soup = BeautifulSoup(driver.page_source, 'html.parser')
    driver.quit()

    # Alle Links extrahieren
    links = soup.find_all('a', href=True)

    # Filtere die Links, um nur die gewünschten PDFs zu erhalten
    pdf_links = []
    for link in links:
        href = link['href']
        if href.lower().endswith('.pdf'):
            # Jahreszahl und ausgeschriebenen Monatsnamen im Dateinamen suchen
            match = re.search(r'(\d{4})\s(.*?)\.pdf', href, re.IGNORECASE)
            if match:
                year, month_name = match.groups()
                if month_name in monate:
                    # Monatsnummer für den Dateinamen ermitteln
                    month_number = monate.index(month_name) + 1
                    # Dateinamen im gewünschten Format erstellen
                    formatted_filename = f"{year}-{month_number:02d} {month_name}.pdf"
                    pdf_links.append((href, formatted_filename))

    # Herunterladen und speichern der PDFs
    if not os.path.exists(download_folder):
        os.makedirs(download_folder)

    for pdf_url, filename in pdf_links:
        pdf_response = requests.get(pdf_url)
        with open(os.path.join(download_folder, filename), 'wb') as pdf_file:
            pdf_file.write(pdf_response.content)
        print(f"Downloaded: {filename}")

# Beispielnutzung
download_pdfs('https://www.gruenes-schwabencenter.de/wohnzimmer/', 'downloads')

In dieser Version wartet das Skript nach jedem Klick auf die "LOAD MORE POSTS"-Schaltfläche darauf, dass neue Posts geladen werden, indem es die Anzahl der Elemente mit der Klasse post überprüft. Erst wenn die Anzahl der Posts zunimmt, wird mit dem nächsten Klick fortgefahren.

Das sollte effizienter und zuverlässiger sein als eine feste Wartezeit. Viel Erfolg beim Ausprobieren! Gibt es noch etwas, womit ich dir helfen kann? 🚀

Muß dieses '/path/to/chromedriver' noch durch etwas ersetzt werden?

Ja, genau. Du musst den Platzhalter '/path/to/chromedriver' durch den tatsächlichen Pfad zu der heruntergeladenen chromedriver-Datei auf deinem Computer ersetzen. Zum Beispiel, wenn du die Datei in den Ordner C:\WebDriver\ auf einem Windows-Computer gespeichert hast, würde der Pfad so aussehen:

python

driver = webdriver.Chrome(executable_path='C:/WebDriver/chromedriver.exe')

Auf einem Mac oder Linux könnte der Pfad so aussehen:

python

driver = webdriver.Chrome(executable_path='/Users/DeinBenutzername/WebDriver/chromedriver')

Stelle sicher, dass der Pfad den tatsächlichen Speicherort der chromedriver-Datei auf deinem Computer widerspiegelt. Wenn du weitere Fragen hast oder Hilfe benötigst, lass es mich wissen! 😊

Für was benötigt der WebDriverWait-Aufruf einen Timeout?

Der WebDriverWait-Aufruf benötigt einen Timeout, um sicherzustellen, dass das Skript nicht für unbestimmte Zeit hängt, wenn eine erwartete Bedingung nicht erfüllt wird. Der Timeout gibt an, wie lange das Skript maximal warten soll, bis eine bestimmte Bedingung erfüllt ist. Wenn die Bedingung innerhalb dieser Zeitspanne nicht eintritt, wird eine TimeoutException ausgelöst.

Hier ist ein detaillierterer Blick auf die beiden WebDriverWait-Aufrufe im Skript:

Warten, bis die "LOAD MORE POSTS"-Schaltfläche anklickbar ist:
python
```
load_more_button = WebDriverWait(driver, 10).until(
    EC.element_to_be_clickable((By.CLASS_NAME, 'fusion-load-more-button'))
)
```
Dieser Aufruf wartet bis zu 10 Sekunden darauf, dass die Schaltfläche "LOAD MORE POSTS" anklickbar ist. Wenn die Schaltfläche in dieser Zeit nicht anklickbar wird, wird eine TimeoutException ausgelöst.
Warten, bis neue Posts geladen sind:
python
```
WebDriverWait(driver, 10).until(
    lambda d: len(d.find_elements(By.CLASS_NAME, 'post')) > previous_posts_count
)
```
Dieser Aufruf wartet bis zu 10 Sekunden darauf, dass die Anzahl der Elemente mit der Klasse post zunimmt (d.h., dass neue Posts geladen werden). Wenn innerhalb dieser 10 Sekunden keine neuen Posts geladen werden, wird eine TimeoutException ausgelöst.

Der Timeout-Wert von 10 Sekunden ist eine vernünftige Wahl, um sicherzustellen, dass das Skript nicht für zu lange Zeiträume hängt, aber gleichzeitig genug Zeit hat, um auf langsam ladende Inhalte zu warten. Du kannst diesen Wert je nach Bedarf anpassen.

Wenn du weitere Fragen hast oder eine andere Herausforderung angehen möchtest, stehe ich dir gerne zur Verfügung! 😊

Alles sehr gut und ausführlich beschrieben. Vielen, vielen Dank!

Sehr gerne! Es freut mich, dass ich dir helfen konnte. Wenn du weitere Fragen hast oder Unterstützung bei anderen Projekten benötigst, stehe ich dir jederzeit zur Verfügung. Viel Erfolg mit deinem Python-Skript und dem Herunterladen der PDFs! 😊📂

Hast du noch ein weiteres Anliegen oder vielleicht eine neue Herausforderung für mich?🚀

Nein. Und nochmals vielen Dank!

Gern geschehen! Es war mir eine Freude, dir zu helfen. Wenn du in Zukunft weitere Fragen hast oder Unterstützung benötigst, zögere nicht, mich zu kontaktieren. Viel Erfolg mit deinen Projekten und hab einen wunderbaren Tag! 😊👋

Bis zum nächsten Mal! 🚀

Jetzt habe ich doch noch eine Frage. In einem HTML-Dokument gibt es mehrere Schaltflächen mit jeweils Text darunter. Wie sähe JavaScript-Code aus, der es ermöglicht durch Anklicken der Schaltflächen, den Text in die Zwischenablage zu kopieren.Jede der Schaltflächen der Klasse "p-2" befindet sich in einem DIV der Klasse "py-2". Außerhalb kommt dann danach jeweil der Text in einem verschachtelten <div class="px-4"><div class="pt-4"><pre><code><span>text1</span><span>text2 </span></code></pre></div></div>. Der Text ist also verteilt über mehrere SPAN-Elemente.

Das ist eine interessante Aufgabe! Hier ist ein Beispiel für ein JavaScript, das das gewünschte Verhalten umsetzt. Dieses Skript fügt jedem Button der Klasse "p-2" einen Klick-Event-Listener hinzu, der den Text der benachbarten span-Elemente in die Zwischenablage kopiert.

html

<!DOCTYPE html>
<html lang="de">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>Text Kopieren Beispiel</title>
    <script>
        document.addEventListener('DOMContentLoaded', (event) => {
            // Alle Buttons der Klasse "p-2" auswählen
            const buttons = document.querySelectorAll('.p-2');

            buttons.forEach(button => {
                button.addEventListener('click', () => {
                    // Den Text im benachbarten .px-4 .pt-4 -> span Elementen sammeln
                    const parentDiv = button.closest('.py-2').nextElementSibling;
                    const spanElements = parentDiv.querySelectorAll('.px-4 .pt-4 pre code span');
                    let textToCopy = '';

                    spanElements.forEach(span => {
                        textToCopy += span.textContent + ' ';
                    });

                    // Den Text in die Zwischenablage kopieren
                    navigator.clipboard.writeText(textToCopy.trim()).then(() => {
                        alert('Text in die Zwischenablage kopiert: ' + textToCopy);
                    }).catch(err => {
                        console.error('Fehler beim Kopieren in die Zwischenablage: ', err);
                    });
                });
            });
        });
    </script>
</head>
<body>
    <div class="py-2">
        <button class="p-2">Text kopieren</button>
    </div>
    <div class="px-4">
        <div class="pt-4">
            <pre><code><span>text1</span><span>text2 </span></code></pre>
        </div>
    </div>
</body>
</html>

Dieses Beispiel-Skript:

Fügt beim Laden der Seite (DOMContentLoaded) jedem Button der Klasse "p-2" einen Event-Listener hinzu.
Wenn ein Button geklickt wird, sucht das Skript das benachbarte DIV-Element und sammelt den Text der span-Elemente.
Der gesammelte Text wird dann in die Zwischenablage kopiert, und eine Benachrichtigung wird angezeigt, um den Benutzer darüber zu informieren.

Du kannst dieses Skript an deine Bedürfnisse anpassen und in deine HTML-Seite einfügen. Viel Erfolg damit! Gibt es noch etwas, wobei ich helfen kann? 😊

Da sind einzelne Textteile in dem Dokument leider von einem zusätzlichen SPAN umhüllt und diese erscheinen dann in der Zwischenablage verdoppelt. Beispiel: "text2 " ist doppelt, wenn <pre><code><span>text1</span><span><span>text2 </span></span></code></pre>.

Verstanden! Wir können das Skript so anpassen, dass es rekursiv durch alle verschachtelten span-Elemente iteriert und den gesamten Text extrahiert, ohne doppelte Inhalte zu kopieren. Hier ist die aktualisierte Version des Skripts, die dies berücksichtigt:

html

<!DOCTYPE html>
<html lang="de">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>Text Kopieren Beispiel</title>
    <script>
        document.addEventListener('DOMContentLoaded', (event) => {
            // Alle Buttons der Klasse "p-2" auswählen
            const buttons = document.querySelectorAll('.p-2');

            buttons.forEach(button => {
                button.addEventListener('click', () => {
                    // Den Text im benachbarten .px-4 .pt-4 -> span Elementen sammeln
                    const parentDiv = button.closest('.py-2').nextElementSibling;
                    const spanElements = parentDiv.querySelectorAll('.px-4 .pt-4 pre code');
                    let textToCopy = '';

                    // Rekursive Funktion, um Text aus verschachtelten span-Elementen zu extrahieren
                    function extractText(element) {
                        element.childNodes.forEach(node => {
                            if (node.nodeType === Node.TEXT_NODE) {
                                textToCopy += node.textContent + ' ';
                            } else if (node.nodeType === Node.ELEMENT_NODE && node.tagName === 'SPAN') {
                                extractText(node);
                            }
                        });
                    }

                    spanElements.forEach(element => {
                        extractText(element);
                    });

                    // Den Text in die Zwischenablage kopieren
                    navigator.clipboard.writeText(textToCopy.trim()).then(() => {
                        alert('Text in die Zwischenablage kopiert: ' + textToCopy);
                    }).catch(err => {
                        console.error('Fehler beim Kopieren in die Zwischenablage: ', err);
                    });
                });
            });
        });
    </script>
</head>
<body>
    <div class="py-2">
        <button class="p-2">Text kopieren</button>
    </div>
    <div class="px-4">
        <div class="pt-4">
            <pre><code><span>text1</span><span><span>text2 </span></span></code></pre>
        </div>
    </div>
</body>
</html>

Dieses aktualisierte Skript:

Wählt alle button-Elemente der Klasse "p-2" aus.
Fügt jedem Button einen Event-Listener hinzu, der den Text der benachbarten verschachtelten span-Elemente sammelt.
Verwendet eine rekursive Funktion (extractText), um den Text aus allen verschachtelten span-Elementen zu extrahieren.
Kopiert den gesamten gesammelten Text in die Zwischenablage, ohne doppelte Inhalte.

Dieses Skript sollte nun alle verschachtelten span-Elemente korrekt behandeln und nur den gewünschten Text in die Zwischenablage kopieren. Viel Erfolg beim Testen! 😊

Gibt es noch etwas, bei dem ich helfen kann?

Jetzt ist es perfekt. Ich habe nur das Leerzeichen zwischen den einzelnen Textteilen noch weggemacht. ;-)

Das freut mich zu hören! Es ist immer schön, wenn alles nach den eigenen Wünschen funktioniert. Wenn du in Zukunft weitere Fragen hast oder Unterstützung bei anderen Projekten benötigst, stehe ich dir jederzeit zur Verfügung. Viel Erfolg weiterhin und einen großartigen Tag! 😊

Bis zum nächsten Mal! 👋🚀

Sie sagten

Copilot sagte

Sie sagten

Copilot sagte

Sie sagten

Copilot sagte

Sie sagten

Copilot sagte

Sie sagten

Copilot sagte

Sie sagten

Copilot sagte

Sie sagten

Copilot sagte

Sie sagten

Copilot sagte

Sie sagten

Copilot sagte

Sie sagten

Copilot sagte

Sie sagten

Copilot sagte

Sie sagten

Copilot sagte

Sie sagten

Copilot sagte

Sie sagten

Copilot sagte