# Python

## Работа с файлами

### Раздел 1. Общие сведения

В некоторых проектах просто невозможно избежать необходимости создавать хранилище данных. В случаях, когда речь идет о большом количестве данных, которые реализуют какую-то схему (в контексте релляционных БД это озночает, что они могут быть описаны в виде таблицы или совокупности таблиц), лучше всего подходят базы данных. Но очевидно, что создавать базу данных только лишь для хранения конфигурации — не самое оптимальное решение. К тому же, часть задач требует чтения информации из файлов или записи информации в файлы. Таким образом, понимание работы с файлами необходима и может пригодиться в очень задачах из различных областей.

### Раздел 2. Взаимодействие с binary-файлами

Прежде всего необходимо отметить, что в Python есть два типа данных, которые позволяют оперировать над двоичными данными: bytes и bytearray. Оба из них содержат последовательность из нуля и более целых чисел от 0 до 255 включительно. Оба типа похожи на тип string и предоставляют схожий интерфейс. В дополнение, bytes является неизменяемым, а bytearray — изменяемым. В результате, для последнего доступен интерфейс, схожий со списками.

Взаимодействие с двоичным представлением данных как правило позволяет добиться наибольшей компрессии данных. Самым удобным в данном случае является использование модуля Pickles, хотя ручная обработка бинарных данных может помочь сэкономить немного дискового пространства.

#### Pickles с опциональным сжатием

Pickles — самый удобный способ сохранять в и загружать из файлов данные, представленные в виде объектов языка Python. При этом Pickles не предоставляет никаких механизмов защиты, так что загрузка объекта, полученного извне, несет с собой потенциальные угрозы.

Вот пример кода для экспорт объекта при помощи Pickles (из Саммерфилда):

In [None]:
def export_pickle(self, filename, compress=False):
 fh = None
 try:
 if compress:
 fh = gzip.open(filename, "wb")
 else:
 fh = open(filename, "wb")
 pickle.dump(self, fh, pickle.HIGHEST_PROTOCOL)
 return True
 except (EnvironmentError, pickle.PicklingError) as err:
 print("{0}: export error: {1}".format(os.path.basename(sys.argv[0]), err))
 return False
 finally:
 if fh is not None:
 fh.close()

Если был передан параметр compression со значением True, то будет выполнено сжатие при помощи модуля gzip. В противном случае, дескриптор файла будет получен при помощи функции open. И в том, и в другом случае доступ к файлу будет осуществляться в бинарном режиме для чтения (wb). Для записи объекта в файл используется вызов dump модуля pickle, с параметром pickle.HIGHEST_PROTOCOL который отвечает за использование компактного двоичного формата.

В случае, если мы получили какое-то исключение, мы его обработает, выведя сообщение об ошибке и вернув False в качестве результата.

Если никаких исключений не было, то возвращается значение True.

В любом случае, дескриптор файла необходимо закрыть, так что в блоке finally содержится соответствующий вызов, если дескриптор файла не является None на момент вызова.

##### Небольшая вставка про магические числа

Магические числа (magic numbers) — специальные последовательности бит, которые располагаются где-то вначале файла, которые позволяют определить, к какому типу относится данный файл. За всеми подробностями обращайтесь к `man file` и `man magic`, но если коротко, то волшебные числа определяются при помощи смещения, типа значения и самого значения. Т.е. вы можете определить собственное магическое число, которое представлено, скажем строкой "Lambda" со смещением 42. Тогда взяв любой файл, вы сможете определить, относится он или не относится к определенному вами типу.

Перейдем теперь к импорту файлов при помощи Pickles (код также из Саммерфилда):

In [None]:
GZIP_MAGIC = b"\x1F\x8B"

def import_pickle(self, filename):
 fh = None
 try:
 fh = open(filename, "rb")
 magic = fh.read(len(GZIP_MAGIC))
 if magic == GZIP_MAGIC:
 fh.close()
 fh = gzip.open(filename, "rb")
 else:
 fh.seek(0)
 self.clear()
 self.update(pickle.load(fh))
 return True
 except (EnvironmentError, pickle.UnpicklingError) as err:
 print("{0}: import error: {1}".format(os.path.basename(sys.argv[0]), err))
 return False
 finally:
 if fh is not None:
 fh.close()

Здесь мы просто открываем файл, проверяем, есть ли в начале него магическое число, отвечающее формату gzip. Если есть, то закрываем дескриптор файла и открываем снова при помощи вызова open модуля gzip. В противном случае возвращаемся к началу файла при помощи метода seek файлового дескриптора. В обоих случаях открытие происходит с двоичным доступом для чтения (rb). После чего очищаем объект self при помощи метода clear и заполняем его при помощи метода update результатом работы вызова load модуля pickle, которому передаем файловый дескриптор.

Если в результате было получено исключение, выведем его и вернем False. В противном случае возвращаемое значение равно True. В блоке finally закрываем дескриптор файла, если он существует.

### Раздел 3. Взаимодействие с тексстовыми файлами

Запись текстовых файлов — очень простой процесс, но вот парсинг данных из текстового файла — занятие трудозатратное.

#### Запись в текстовые файлы

Мы можем записать текст в виде пар key=value, обозначив данные narrative (описание произошедшего) при помощи маркеров .NARRATIVE_START и .NARRATIVE_END

Например:

[20070927022009C]

date=2007-09-27

aircraft_id=1675B

aircraft_type=DHC-2-MK1

airport=MERLE K (MUDHOLE) SMITH

pilot_percent_hours_on_type=46.1538461538

pilot_total_hours=13000

midair=0

.NARRATIVE_START.

 ACCORDING TO THE PILOT, THE DRAG LINK FAILED DUE TO AN OVERSIZED
 TAIL WHEEL TIRE LANDING ON HARD SURFACE.
 
.NARRATIVE_END.

Запись текста в файл будет производиться следующим образом (код из Саммерфилда):

In [None]:
def export_text(self, filename):
 wrapper = textwrap.TextWrapper(initial_indent=" ", subsequent_indent=" ")
 fh = None
 try:
 fh = open(filename, "w", encoding="utf8")
 for incident in self.values():
 narrative = "\n".join(wrapper.wrap(incident.narrative.strip()))
 fh.write("[{0.report_id}]\n"
 "date={0.date!s}\n"
 "aircraft_id={0.aircraft_id}\n"
 "aircraft_type={0.aircraft_type}\n"
 "airport={airport}\n"
 "pilot_percent_hours_on_type="
 "{0.pilot_percent_hours_on_type}\n"
 "pilot_total_hours={0.pilot_total_hours}\n"
 "midair={0.midair:d}\n"
 ".NARRATIVE_START.\n{narrative}\n"
 ".NARRATIVE_END.\n\n".format(incident, airport=incident.airport.strip(), narrative=narrative))
 if fh is not None:
 fh.close()
 return True

Здесь мы просто открываем файл для записи в текстовом режиме (w) в кодировке utf-8 и делаем форматный вывод нашего объекта.

#### Чтение текстового файла

Чтение текстового файла может производиться при помощи "ручной" обработки текста:

In [None]:
def import_text_manual(self, filename):
 fh = None
 try:
 fh = open(filename, encoding="utf8")
 self.clear()
 data = {}
 narrative = None
 for lino, line in enumerate(fh, start=1):
 line = line.rstrip()
 if not line and narrative is None:
 continue
 if narrative is not None:
 if line == ".NARRATIVE_END.":
 data["narrative"] = textwrap.dedent(
 narrative).strip()
 if len(data) != 9:
 raise IncidentError("missing data on "
 "line {0}".format(lino))
 incident = Incident(**data)
 self[incident.report_id] = incident
 data = {}
 narrative = None
 else:
 narrative += line + "\n"
 elif (not data and line[0] == "[" and line[-1] == "]"):
 data["report_id"] = line[1:-1]
 elif "=" in line:
 key, value = line.split("=", 1)
 if key == "date":
 data[key] = datetime.datetime.strptime(value, "%Y-%m-%d").date()
 elif key == "pilot_percent_hours_on_type":
 data[key] = float(value)
 elif key == "pilot_total_hours":
 data[key] = int(value)
 elif key == "midair":
 data[key] = bool(int(value))
 else:
 data[key] = value
 elif line == ".NARRATIVE_START.":
 narrative = ""
 else:
 raise KeyError("parsing error on line {0}".format(
 lino))

Как видно, парсинг файла "вручную" сопряжено с огромной головной болью, необходимо вручную отлавливать ключи и т.д.

С другой стороны, можно подключить инструментарий регулярных выражений для парсинга текста:

In [None]:
def import_text_regex(self, filename):
 incident_re = re.compile(
 r"\[(?P<id>[^]]+)\](?P<keyvalues>.+?)"
 r"^\.NARRATIVE_START\.$(?P<narrative>.*?)"
 r"^\.NARRATIVE_END\.$",
 re.DOTALL|re.MULTILINE)
 key_value_re = re.compile(r"^\s*(?P<key>[^=]+?)\s*=\s*"
 r"(?P<value>.+?)\s*$", re.MULTILINE)
 fh = None
 try:
 fh = open(filename, encoding="utf8")
 self.clear()
 for incident_match in incident_re.finditer(fh.read()):
 data = {}
 data["report_id"] = incident_match.group("id")
 data["narrative"] = textwrap.dedent(
 incident_match.group("narrative")).strip()
 keyvalues = incident_match.group("keyvalues")
 for match in key_value_re.finditer(keyvalues):
 data[match.group("key")] = match.group("value")
 data["date"] = datetime.datetime.strptime(
 data["date"], "%Y-%m-%d").date()
 data["pilot_percent_hours_on_type"] = (
 float(data["pilot_percent_hours_on_type"]))
 data["pilot_total_hours"] = int(
 data["pilot_total_hours"])
 data["midair"] = bool(int(data["midair"]))
 if len(data) != 9:
 raise IncidentError("missing data")
 incident = Incident(**data)
 self[incident.report_id] = incident
 return True

Регулярные выражения в значительной степени облегчают поиск паттернов (они для этого и нужны) в текстовых файлах.

### Раздел 4. Работа с XML-файлами

XML — специальный язык для разметки данных. Работа с ним может осуществляться при помощи модуля Element Tree, DOM и в ручном режиме, а также при помощи Simple API for XML (SAX).

#### Использование Element Trees

Запись XML:

In [None]:
def export_xml_etree(self, filename):
 root = xml.etree.ElementTree.Element("incidents")
 for incident in self.values():
 element = xml.etree.ElementTree.Element("incident",
 report_id=incident.report_id,
 date=incident.date.isoformat(),
 aircraft_id=incident.aircraft_id,
 aircraft_type=incident.aircraft_type,
 pilot_percent_hours_on_type=str(
 incident.pilot_percent_hours_on_type),
 pilot_total_hours=str(incident.pilot_total_hours),
 midair=str(int(incident.midair)))
 airport = xml.etree.ElementTree.SubElement(element,
 "airport")
 airport.text = incident.airport.strip()
 narrative = xml.etree.ElementTree.SubElement(element,
 "narrative")
 narrative.text = incident.narrative.strip()
 root.append(element)
 tree = xml.etree.ElementTree.ElementTree(root)
 try:
 tree.write(filename, "UTF-8")
 except EnvironmentError as err:
 print("{0}: import error: {1}".format(
 os.path.basename(sys.argv[0]), err))
 return False
 return True

Здесь мы просто проходим по вершинам дерева и заполняем соответствующие данные.

Чтение XML:

In [None]:
def import_xml_etree(self, filename):
 try:
 tree = xml.etree.ElementTree.parse(filename)
 except (EnvironmentError,
 xml.parsers.expat.ExpatError) as err:
 print("{0}: import error: {1}".format(
 os.path.basename(sys.argv[0]), err))
 return False
 self.clear()
 for element in tree.findall("incident"):
 try:
 data = {}
 for attribute in ("report_id", "date", "aircraft_id",
 "aircraft_type",
 "pilot_percent_hours_on_type",
 "pilot_total_hours", "midair"):
 data[attribute] = element.get(attribute)
 data["date"] = datetime.datetime.strptime(
 data["date"], "%Y-%m-%d").date()
 data["pilot_percent_hours_on_type"] = (
 float(data["pilot_percent_hours_on_type"]))
 data["pilot_total_hours"] = int(
 data["pilot_total_hours"])
 data["midair"] = bool(int(data["midair"]))
 data["airport"] = element.find("airport").text.strip()
 narrative = element.find("narrative").text
 data["narrative"] = (narrative.strip() if narrative is not None else "")
 incident = Incident(**data)
 self[incident.report_id] = incident
 except (ValueError, LookupError, IncidentError) as err:
 print("{0}: import error: {1}".format(
 os.path.basename(sys.argv[0]), err))
 return False
 return True

В данном случае логика обратная, загружаем дерево, обходим дерево и заполняем объект self данными.

#### Чтение и запись XML при помощи DOM

Запись:

In [None]:
def export_xml_dom(self, filename):
 dom = xml.dom.minidom.getDOMImplementation()
 tree = dom.createDocument(None, "incidents", None)
 root = tree.documentElement
 for incident in self.values():
 element = tree.createElement("incident")
 for attribute, value in (
 ("report_id", incident.report_id),
 ("date", incident.date.isoformat()),
 ("aircraft_id", incident.aircraft_id),
 ("aircraft_type", incident.aircraft_type),
 ("pilot_percent_hours_on_type",
 str(incident.pilot_percent_hours_on_type)),
 ("pilot_total_hours",
 str(incident.pilot_total_hours)),
 ("midair", str(int(incident.midair)))):
 element.setAttribute(attribute, value)
 for name, text in (("airport", incident.airport), ("narrative", incident.narrative)):
 text_element = tree.createTextNode(text)
 name_element = tree.createElement(name)
 name_element.appendChild(text_element)
 element.appendChild(name_element)
 root.appendChild(element)
 fh = None
 try:
 fh = open(filename, "w", encoding="utf8")
 tree.writexml(fh, encoding="UTF-8")
 return True



Чтение:

In [None]:
def import_xml_dom(self, filename):
 def get_text(node_list):
 text = []
 for node in node_list:
 if node.nodeType == node.TEXT_NODE:
 text.append(node.data)
 return "".join(text).strip()
 
 try:
 dom = xml.dom.minidom.parse(filename)
 except (EnvironmentError,
 xml.parsers.expat.ExpatError) as err:
 print("{0}: import error: {1}".format(
 os.path.basename(sys.argv[0]), err))
 return False
 self.clear()
 for element in dom.getElementsByTagName("incident"):
 try:
 data = {}
 for attribute in ("report_id", "date", "aircraft_id",
 "aircraft_type",
 "pilot_percent_hours_on_type",
 "pilot_total_hours", "midair"):
 data[attribute] = element.getAttribute(attribute)
 data["date"] = datetime.datetime.strptime(
 data["date"], "%Y-%m-%d").date()
 data["pilot_percent_hours_on_type"] = (
 float(data["pilot_percent_hours_on_type"]))
 data["pilot_total_hours"] = int(
 data["pilot_total_hours"])
 data["midair"] = bool(int(data["midair"]))
 airport = element.getElementsByTagName("airport")[0]
 data["airport"] = get_text(airport.childNodes)
 narrative = element.getElementsByTagName(
 "narrative")[0]
 data["narrative"] = get_text(narrative.childNodes)
 incident = Incident(**data)
 self[incident.report_id] = incident
 except (ValueError, LookupError, IncidentError) as err:
 print("{0}: import error: {1}".format(
 os.path.basename(sys.argv[0]), err))
 return False
 return True

#### Запись XML-файлов "вручную"

In [None]:
def export_xml_manual(self, filename):
 fh = None
 try:
 fh = open(filename, "w", encoding="utf8")
 fh.write('<?xml version="1.0" encoding="UTF-8"?>\n')
 fh.write("<incidents>\n")
 for incident in self.values():
 fh.write('<incident report_id={report_id} '
 'date="{0.date!s}" '
 'aircraft_id={aircraft_id} '
 'aircraft_type={aircraft_type} '
 'pilot_percent_hours_on_type='
 '"{0.pilot_percent_hours_on_type}" '
 'pilot_total_hours="{0.pilot_total_hours}" '
 'midair="{0.midair:d}">\n'
 '<airport>{airport}</airport>\n'
 '<narrative>\n{narrative}\n</narrative>\n'
 '</incident>\n'.format(incident,
 report_id=xml.sax.saxutils.quoteattr(
 incident.report_id),
 aircraft_id=xml.sax.saxutils.quoteattr(
 incident.aircraft_id),
 aircraft_type=xml.sax.saxutils.quoteattr(
 incident.aircraft_type),
 airport=xml.sax.saxutils.escape(incident.airport),
 narrative="\n".join(textwrap.wrap(
 xml.sax.saxutils.escape(
 incident.narrative.strip()), 70))))
 fh.write("</incidents>\n")
 return True

#### Чтение XML при помощи SAX

In [None]:
def import_xml_sax(self, filename):
 fh = None
 try:
 handler = IncidentSaxHandler(self)
 parser = xml.sax.make_parser()
 parser.setContentHandler(handler)
 parser.parse(filename)
 return True
 except (EnvironmentError, ValueError, IncidentError,
 xml.sax.SAXParseException) as err:
 print("{0}: import error: {1}".format(
 os.path.basename(sys.argv[0]), err))
 return False

class IncidentSaxHandler(xml.sax.handler.ContentHandler):
 def __init__(self, incidents):
 super().__init__()
 self.__data = {}
 self.__text = ""
 self.__incidents = incidents
 self.__incidents.clear()

 def startElement(self, name, attributes):
 if name == "incident":
 self.__data = {}
 for key, value in attributes.items():
 if key == "date":
 self.__data[key] = datetime.datetime.strptime(
 value, "%Y-%m-%d").date()
 elif key == "pilot_percent_hours_on_type":
 self.__data[key] = float(value)
 elif key == "pilot_total_hours":
 self.__data[key] = int(value)
 elif key == "midair":
 self.__data[key] = bool(int(value))
 else:
 self.__data[key] = value
 self.__text = ""

 def endElement(self, name):
 if name == "incident":
 if len(self.__data) != 9:
 raise IncidentError("missing data")
 incident = Incident(**self.__data)
 self.__incidents[incident.report_id] = incident
 elif name in frozenset({"airport", "narrative"}):
 self.__data[name] = self.__text.strip()
 self.__text = ""

 def characters(self, text):
 self.__text += text

### Раздел 5. Работа с файлами, формалированными в других стандартах описания данных

Зачастую конфигурации удобно хранить в форматах JSON и Yaml. Доступ осуществляется соответственно при помощи модулей JSON и PyYaml.

Чтение и запись из производится при помощи методов load и dump из соответствующих классов.

### Раздел 6. Домашнее задание

- Выполнить все упражнения после 7 главы Саммерфилда
- Прочитать в Саммерфилде про ручную работу с binary-файлами и Random Access binary-файлами
- Почитать про Big Endian / Little Endian
- Почитать про Document Object Model (DOM)
- Выполнить субботнюю задачу

Для самых настойчивых:

- Написать свой reader и writer для файлов JSON и/или Yaml