lexing: thys2/Paper/document/root.tex@46e5566ad4ba (annotated)

396 cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	1	\documentclass[runningheads]{lipics-v2021}
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	2	\usepackage{times}
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	3	\usepackage{isabelle}
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	4	\usepackage{isabellesym}
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	5	\usepackage{amsmath}
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	6	\usepackage{amssymb}
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	7	\usepackage{mathpartir}
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	8	\usepackage{tikz}
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	9	\usepackage{pgf}
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	10	\usetikzlibrary{positioning}
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	11	%\usepackage{pdfsetup}
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	12	%\usepackage{stmaryrd}
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	13	%\usepackage{url}
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	14	%\usepackage{color}
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	15	%\usepackage[safe]{tipa}
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	16	%\usepackage[sc]{mathpazo}
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	17	%\usepackage{fontspec}
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	18	%\setmainfont[Ligatures=TeX]{Palatino Linotype}
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	19
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	20
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	21
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	22
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	23	\urlstyle{rm}
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	24	\isabellestyle{it}
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	25	\renewcommand{\isastyleminor}{\it}%
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	26	\renewcommand{\isastyle}{\normalsize\it}%
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	27
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	28
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	29	\def\dn{\,\stackrel{\mbox{\scriptsize def}}{=}\,}
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	30	\renewcommand{\isasymequiv}{$\dn$}
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	31	\renewcommand{\isasymemptyset}{$\varnothing$}
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	32	\renewcommand{\isacharunderscore}{\mbox{$\_\!\_$}}
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	33	\renewcommand{\isasymiota}{\makebox[0mm]{${}^{\prime}$}}
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	34	\renewcommand{\isasymin}{\ensuremath{\,\in\,}}
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	35
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	36
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	37	\def\Brz{Brzozowski}
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	38	\def\der{\backslash}
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	39	\newtheorem{falsehood}{Falsehood}
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	40	\newtheorem{conject}{Conjecture}
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	41
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	42	\bibliographystyle{plainurl}
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	43
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	44	\title{{POSIX} {L}exing with {B}itcoded {D}erivatives}
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	45	\titlerunning{POSIX Lexing with Bitcoded Derivatives}
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	46	\author{Chengsong Tan}{King's College London}{chengsong.tan@kcl.ac.uk}{}{}
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	47	\author{Christian Urban}{King's College London}{christian.urban@kcl.ac.uk}{}{}
398 dac6d27c99c6 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 397 diff changeset	48	\authorrunning{C.~Tan and C.~Urban}
397 e1b74d618f1b updated Sizebound4 Christian Urban <christian.urban@kcl.ac.uk> parents: 396 diff changeset	49	\keywords{POSIX matching, Derivatives of Regular Expressions, Isabelle/HOL}
e1b74d618f1b updated Sizebound4 Christian Urban <christian.urban@kcl.ac.uk> parents: 396 diff changeset	50	\category{}
e1b74d618f1b updated Sizebound4 Christian Urban <christian.urban@kcl.ac.uk> parents: 396 diff changeset	51	\ccsdesc[100]{Design and analysis of algorithms}
e1b74d618f1b updated Sizebound4 Christian Urban <christian.urban@kcl.ac.uk> parents: 396 diff changeset	52	\ccsdesc[100]{Formal languages and automata theory}
e1b74d618f1b updated Sizebound4 Christian Urban <christian.urban@kcl.ac.uk> parents: 396 diff changeset	53	\Copyright{\mbox{}}
e1b74d618f1b updated Sizebound4 Christian Urban <christian.urban@kcl.ac.uk> parents: 396 diff changeset	54	\nolinenumbers
396 cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	55
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	56
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	57	\begin{document}
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	58	\maketitle
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	59
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	60	\begin{abstract}
397 e1b74d618f1b updated Sizebound4 Christian Urban <christian.urban@kcl.ac.uk> parents: 396 diff changeset	61	Sulzmann and Lu described a lexing algorithm that calculates
400 46e5566ad4ba updated Christian Urban <christian.urban@kcl.ac.uk> parents: 398 diff changeset	62	Brzozowski derivatives using bitcodes annotated to regular
397 e1b74d618f1b updated Sizebound4 Christian Urban <christian.urban@kcl.ac.uk> parents: 396 diff changeset	63	expressions. Their algorithm generates POSIX values which encode
e1b74d618f1b updated Sizebound4 Christian Urban <christian.urban@kcl.ac.uk> parents: 396 diff changeset	64	the information of \emph{how} a regular expression matches a
e1b74d618f1b updated Sizebound4 Christian Urban <christian.urban@kcl.ac.uk> parents: 396 diff changeset	65	string---that is, which part of the string is matched by which part
400 46e5566ad4ba updated Christian Urban <christian.urban@kcl.ac.uk> parents: 398 diff changeset	66	of the regular expression. The purpose of the bitcodes in Sulzmann
46e5566ad4ba updated Christian Urban <christian.urban@kcl.ac.uk> parents: 398 diff changeset	67	and Lu's algorithm is to generate POSIX values incrementally while
46e5566ad4ba updated Christian Urban <christian.urban@kcl.ac.uk> parents: 398 diff changeset	68	derivatives are calculated. However they also help with designing
46e5566ad4ba updated Christian Urban <christian.urban@kcl.ac.uk> parents: 398 diff changeset	69	`aggressive' simplification methods that keep the size of
46e5566ad4ba updated Christian Urban <christian.urban@kcl.ac.uk> parents: 398 diff changeset	70	derivatives small. Without simplification derivatives can grow
46e5566ad4ba updated Christian Urban <christian.urban@kcl.ac.uk> parents: 398 diff changeset	71	exponentially resulting in an extremely slow lexing algorithm. In this
46e5566ad4ba updated Christian Urban <christian.urban@kcl.ac.uk> parents: 398 diff changeset	72	paper we describe a variant of Sulzmann and Lu's algorithm: Our
46e5566ad4ba updated Christian Urban <christian.urban@kcl.ac.uk> parents: 398 diff changeset	73	algorithm is a small, recursive functional program, whereas Sulzmann
46e5566ad4ba updated Christian Urban <christian.urban@kcl.ac.uk> parents: 398 diff changeset	74	and Lu's version involves a fixpoint construction. We \textit{(i)}
46e5566ad4ba updated Christian Urban <christian.urban@kcl.ac.uk> parents: 398 diff changeset	75	prove in Isabelle/HOL that our program is correct and generates
46e5566ad4ba updated Christian Urban <christian.urban@kcl.ac.uk> parents: 398 diff changeset	76	unique POSIX values; we also \textit{(ii)} establish a polynomial
46e5566ad4ba updated Christian Urban <christian.urban@kcl.ac.uk> parents: 398 diff changeset	77	bound for the size of the derivatives. The size can be seen as a
46e5566ad4ba updated Christian Urban <christian.urban@kcl.ac.uk> parents: 398 diff changeset	78	proxy measure for the effeciency of the lexing algorithm---that means
46e5566ad4ba updated Christian Urban <christian.urban@kcl.ac.uk> parents: 398 diff changeset	79	our algorithm does not suffer from the exponential blowup.
397 e1b74d618f1b updated Sizebound4 Christian Urban <christian.urban@kcl.ac.uk> parents: 396 diff changeset	80
400 46e5566ad4ba updated Christian Urban <christian.urban@kcl.ac.uk> parents: 398 diff changeset	81	% Brzozowski introduced the notion of derivatives for regular
46e5566ad4ba updated Christian Urban <christian.urban@kcl.ac.uk> parents: 398 diff changeset	82	% expressions. They can be used for a very simple regular expression
46e5566ad4ba updated Christian Urban <christian.urban@kcl.ac.uk> parents: 398 diff changeset	83	% matching algorithm. Sulzmann and Lu cleverly extended this
46e5566ad4ba updated Christian Urban <christian.urban@kcl.ac.uk> parents: 398 diff changeset	84	% algorithm in order to deal with POSIX matching, which is the
46e5566ad4ba updated Christian Urban <christian.urban@kcl.ac.uk> parents: 398 diff changeset	85	% underlying disambiguation strategy for regular expressions needed
46e5566ad4ba updated Christian Urban <christian.urban@kcl.ac.uk> parents: 398 diff changeset	86	% in lexers. Their algorithm generates POSIX values which encode
46e5566ad4ba updated Christian Urban <christian.urban@kcl.ac.uk> parents: 398 diff changeset	87	% the information of \emph{how} a regular expression matches a
46e5566ad4ba updated Christian Urban <christian.urban@kcl.ac.uk> parents: 398 diff changeset	88	% string---that is, which part of the string is matched by which
46e5566ad4ba updated Christian Urban <christian.urban@kcl.ac.uk> parents: 398 diff changeset	89	% part of the regular expression. In this paper we give our
46e5566ad4ba updated Christian Urban <christian.urban@kcl.ac.uk> parents: 398 diff changeset	90	% inductive definition of what a POSIX value is and show $(i)$ that
46e5566ad4ba updated Christian Urban <christian.urban@kcl.ac.uk> parents: 398 diff changeset	91	% such a value is unique (for given regular expression and string
46e5566ad4ba updated Christian Urban <christian.urban@kcl.ac.uk> parents: 398 diff changeset	92	% being matched) and $(ii)$ that Sulzmann and Lu's algorithm always
46e5566ad4ba updated Christian Urban <christian.urban@kcl.ac.uk> parents: 398 diff changeset	93	% generates such a value (provided that the regular expression
46e5566ad4ba updated Christian Urban <christian.urban@kcl.ac.uk> parents: 398 diff changeset	94	% matches the string). We show that $(iii)$ our inductive definition
46e5566ad4ba updated Christian Urban <christian.urban@kcl.ac.uk> parents: 398 diff changeset	95	% of a POSIX value is equivalent to an alternative definition by
46e5566ad4ba updated Christian Urban <christian.urban@kcl.ac.uk> parents: 398 diff changeset	96	% Okui and Suzuki which identifies POSIX values as least elements
46e5566ad4ba updated Christian Urban <christian.urban@kcl.ac.uk> parents: 398 diff changeset	97	% according to an ordering of values. We also prove the correctness
46e5566ad4ba updated Christian Urban <christian.urban@kcl.ac.uk> parents: 398 diff changeset	98	% of Sulzmann's bitcoded version of the POSIX matching algorithm and
46e5566ad4ba updated Christian Urban <christian.urban@kcl.ac.uk> parents: 398 diff changeset	99	% extend the results to additional constructors for regular
46e5566ad4ba updated Christian Urban <christian.urban@kcl.ac.uk> parents: 398 diff changeset	100	% expressions. \smallskip
396 cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	101	\end{abstract}
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	102
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	103
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	104
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	105	\input{session}
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	106
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	107
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	108
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	109	\end{document}
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	110
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	111	%%% Local Variables:
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	112	%%% mode: latex
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	113	%%% TeX-master: t
cc8e231529fb added ITP paper Christian Urban <christian.urban@kcl.ac.uk> parents: diff changeset	114	%%% End:

author	Christian Urban <christian.urban@kcl.ac.uk>
	Sat, 29 Jan 2022 23:53:21 +0000
changeset 400	46e5566ad4ba
parent 398	dac6d27c99c6
child 401	8bbe2468fedc
permissions	-rwxr-xr-x