Загрузить файлы в «/»

2024-08-01 03:33:38 +00:00
parent 7bfd735f1f
commit cd3e5f38f7
2 changed files with 129 additions and 0 deletions
--- a/pars_oem.py
+++ b/pars_oem.py
@@ -0,0 +1,81 @@
 import csv
 import re
 import time
 import requests
 from bs4 import BeautifulSoup
 from tqdm import tqdm
 f = open('lynx_pn_input.txt', 'r')
 urls = f.read().split()
 f.close()
 with open('oen.csv', 'w', newline='', encoding='windows-1251') as csvfile:
    writer = csv.writer(csvfile)
    writer.writerow(
        ['url', 'ID', 'Название', 'Описание', 'Фото', 'OeN', 'Аналоги'])
    for url in tqdm(urls, desc="Processing", unit="iteration"):
        try:
            # Отправляем GET-запрос к странице
            response = requests.get(url)
            html_content = response.text
            soup = BeautifulSoup(html_content, "html.parser")
            data = [url]
            IDD = soup.find("div", class_="pcard-model").get_text(strip=True)
            if IDD:
                data.append(IDD)
            else:
                data.append('None')
            Name = soup.find("div", class_="pcard-name").get_text(strip=True)
            if Name:
                data.append(Name)
            else:
                data.append('None')
            form_element = soup.find("div", id="pcard-props")
            if form_element:
                data.append(' | '.join([
                                           f'{row.find("td", class_="title").get_text(strip=True)} {row.find("td", class_="value").get_text(strip=True)}'
                                           for row in form_element.find_all("tr")]))
            else:
                data.append('None')
            pcard_view_wrapper = soup.find("div", id="pcard-view-images")
            if pcard_view_wrapper:
                img = ' | '.join([img['src'] for img in pcard_view_wrapper.find_all('img')])
                if img == 'https://lynxauto.info/image/trumb/400x300/no_image.jpg':
                    data.append('None')
                else:
                    data.append(img)
            else:
                data.append('None')
            OeN = []
            table = soup.find('div', id='pcard-oeno')
            if table:
                for row in table.find_all('tr')[1:]:
                    row_data = [re.sub(r'\n+', ' | ', (
                        cell.get_text().strip().replace('\t', '').replace('  ', ''))) for cell in
                                row.find_all(['td', 'th'])]
                    OeN.append(' | '.join(row_data))
                data.append(' <> '.join(OeN))
            else:
                data.append('None')
            analog = []
            table = soup.find('div', id='pcard-analog')
            if table:
                for row in table.find_all('tr')[1:]:
                    row_data = [re.sub(r'\n+', ' | ', (
                        cell.get_text().strip().replace('\t', '').replace('  ', ''))) for cell in
                                row.find_all(['td', 'th'])]
                    analog.append(' | '.join(row_data))
                data.append(' <> '.join(analog))
            else:
                data.append('None')
            writer.writerow(data)
        except Exception as e:
            print(e)
            time.sleep(60)
--- a/ДОПАРСИНГ.py
+++ b/ДОПАРСИНГ.py
@@ -0,0 +1,48 @@
 import csv
 from tqdm import tqdm
 def chort_text(parts):
    if parts[0] == 'None':
        return 'None'
    # Создаем словарь для хранения данных
    processed_data = {}
    # Обрабатываем каждую часть
    for part in parts:
        # Разбиваем часть по разделителю |
        subparts = part.split('|')
        # Получаем производителя и номер детали
        manufacturer = subparts[0].strip()
        number = subparts[1].strip()
        # Получаем дополнительную информацию
        info = subparts[2].strip() if len(subparts) > 2 else ''
        # Добавляем данные в словарь
        if manufacturer in processed_data:
            processed_data[manufacturer].append(f"{number}")
        else:
            processed_data[manufacturer] = [info, number]
    # Преобразуем словарь в требуемый формат
    string = ''
    for key, value in processed_data.items():
        if value[0] == '':
            string += f'{key} : {" | ".join(value[1:])} <> '
        else:
            string += f'{key} : {" | ".join(value[1:])} : {value[0]} <> '
    return string
 with open('oen.csv', newline='') as csvfile:
    reader = csv.reader(csvfile)
    csv_data = list(reader)
 with open('oem2.csv', 'w', newline='', encoding='windows-1251') as csvfile:
    writer = csv.writer(csvfile)
    for datas in tqdm(csv_data[1:], desc="Processing", unit="iteration"):
        row = datas
        parts = datas[5].split('<>')
        row[5] = chort_text(parts)
        parts = datas[6].split('<>')
        row[6] = chort_text(parts)
        writer.writerow(row)