afl-material: hws/hw04.tex@6fc5aafc7d45 (annotated)

31 e22ba348b209 added hw04 Christian Urban <urbanc@in.tum.de> parents: diff changeset	1	\documentclass{article}
264 4deef8ac5d72 uodated hws Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 166 diff changeset	2	\usepackage{../style}
292 7ed2a25dd115 updated Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 267 diff changeset	3	\usepackage{../graphics}
146 9da175d5eb63 added new hws Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 102 diff changeset	4
31 e22ba348b209 added hw04 Christian Urban <urbanc@in.tum.de> parents: diff changeset	5	\begin{document}
e22ba348b209 added hw04 Christian Urban <urbanc@in.tum.de> parents: diff changeset	6
e22ba348b209 added hw04 Christian Urban <urbanc@in.tum.de> parents: diff changeset	7	\section*{Homework 4}
e22ba348b209 added hw04 Christian Urban <urbanc@in.tum.de> parents: diff changeset	8
916 2ab96407f350 texupdate Christian Urban <christian.urban@kcl.ac.uk> parents: 893 diff changeset	9	%%\HEADER
347 22b5294daa2a updated hws Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 294 diff changeset	10
31 e22ba348b209 added hw04 Christian Urban <urbanc@in.tum.de> parents: diff changeset	11	\begin{enumerate}
34 eeff9953a1c1 tuned Christian Urban <urbanc@in.tum.de> parents: 32 diff changeset	12
726 f6c2e8c48a1c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 577 diff changeset	13	\item Given the regular expressions
f6c2e8c48a1c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 577 diff changeset	14
f6c2e8c48a1c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 577 diff changeset	15	\begin{center}
f6c2e8c48a1c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 577 diff changeset	16	\begin{tabular}{ll}
f6c2e8c48a1c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 577 diff changeset	17	1) & $(ab + a)\cdot (\ONE + b)$\\
f6c2e8c48a1c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 577 diff changeset	18	2) & $(aa + a)^*$\\
f6c2e8c48a1c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 577 diff changeset	19	\end{tabular}
f6c2e8c48a1c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 577 diff changeset	20	\end{center}
f6c2e8c48a1c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 577 diff changeset	21
f6c2e8c48a1c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 577 diff changeset	22	there are several values for how these regular expressions can
f6c2e8c48a1c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 577 diff changeset	23	recognise the strings (for 1) $ab$ and (for 2) $aaa$. Give in each case
f6c2e8c48a1c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 577 diff changeset	24	\emph{all} the values and indicate which one is the POSIX value.
942 7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	25
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	26	\solution{
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	27	1) There are only 2 values (writing $a$ for $Char(a)$ and so on)
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	28
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	29	\begin{center}
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	30	\begin{tabular}{l}
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	31	$Sequ(Left(Sequ(a,b)),Left(Empty))$\\
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	32	$Sequ(Right(a),Left(b))$\\
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	33	\end{tabular}
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	34	\end{center}
726 f6c2e8c48a1c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 577 diff changeset	35
942 7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	36	The first is the POSIX value because of the preference for $Left$.
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	37
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	38	2) There are three ``main'' values, namely
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	39
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	40	\begin{center}
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	41	\begin{tabular}{l}
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	42	$Stars\,[Left(Sequ(a,a)),Right(a)]$\\
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	43	$Stars\,[Right(a), Left(Sequ(a,a))]$\\
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	44	$Stars\,[Right(a), Right(a), Right(a)]$\\
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	45	\end{tabular}
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	46	\end{center}
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	47
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	48	Again the first one is the POSIX value, but if it just about all
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	49	possible values, then there are in fact infinitely many values because
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	50	the following
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	51
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	52	\begin{center}
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	53	\begin{tabular}{l}
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	54	$Stars\,[Left(Sequ(a,a)),Empty,Right(a)]$\\
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	55	$Stars\,[Left(Sequ(a,a)),Empty,Empty,Right(a)]$\\
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	56	$Stars\,[Left(Sequ(a,a)),Empty,Right(a), Empty]$, \ldots\\
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	57	\end{tabular}
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	58	\end{center}
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	59
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	60	are also values for this regex and the string $aaa$.
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	61	}
726 f6c2e8c48a1c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 577 diff changeset	62
444 3056a4c071b0 updated Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 401 diff changeset	63	\item If a regular expression $r$ does not contain any occurrence of $\ZERO$,
893 908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	64	is it possible for $L(r)$ to be empty? Explain why, or give a proof.
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	65
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	66	\solution{
942 7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	67	No. The property to prove by induction is
893 908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	68
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	69	\begin{center}
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	70	$P(r)$: If $r$ does not contain $\ZERO$, then $L(r) \not= \emptyset$.
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	71	\end{center}
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	72
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	73	For this you have to now go through all cases.
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	74
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	75	Case $r = 0$: $P(\ZERO)$ says: If $\ZERO$ does not contain $\ZERO$
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	76	then \ldots. The premise is obviously false, so everything follows,
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	77	in particular $L(r) \not= \emptyset$.\medskip
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	78
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	79	Case $r = \ONE$ and $r = c$ are similar, just that the premise is
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	80	true, but also $L(\ONE)$ and $L(c)$ are not empty. So we shown
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	81	$L(r) \not= \emptyset$.\medskip
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	82
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	83	Case $r = r_1 + r_2$: We know $P(r_1)$ and $P(r_2)$ as IHs. We need to show
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	84	$P(r_1 + r_2)$: If $r_1 + r_2$ does not contain $\ZERO$, then $L(r_1 + r_2) \not= \emptyset$.
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	85
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	86	If $r_1 + r_2$ does not contain $\ZERO$, then also $r_1$ does not contain $\ZERO$
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	87	and $r_2$ does not contain $\ZERO$. So we can apply the two IHs $P(r_1)$ and $P(r_2)$,
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	88	which allow us to infer that $L(r_1) \not= \emptyset$ and $L(r_2) \not= \emptyset$.
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	89	But if this is the case, then also $L(r_1 + r_2) \not= \emptyset$, which is what we needed
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	90	to show in this case.\medskip
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	91
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	92	The other cases are similar.\bigskip
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	93
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	94
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	95	This lemma essentially says that for basic regular expressions, if
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	96	they do not match anything at all, they must contain $\ZERO$(s)
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	97	somewhere.
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	98
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	99	}
32 d085fe0c086f started Christian Urban <urbanc@in.tum.de> parents: 31 diff changeset	100
264 4deef8ac5d72 uodated hws Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 166 diff changeset	101	\item Define the tokens and regular expressions for a language
267 a1544b804d1e updated homeworks Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 264 diff changeset	102	consisting of numbers, left-parenthesis $($, right-parenthesis $)$,
a1544b804d1e updated homeworks Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 264 diff changeset	103	identifiers and the operations $+$, $-$ and $*$. Can the following
a1544b804d1e updated homeworks Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 264 diff changeset	104	strings in this language be lexed?
264 4deef8ac5d72 uodated hws Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 166 diff changeset	105
267 a1544b804d1e updated homeworks Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 264 diff changeset	106	\begin{itemize}
264 4deef8ac5d72 uodated hws Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 166 diff changeset	107	\item $(a + 3) * b$
4deef8ac5d72 uodated hws Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 166 diff changeset	108	\item $)()++ -33$
4deef8ac5d72 uodated hws Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 166 diff changeset	109	\item $(a / 3) * 3$
267 a1544b804d1e updated homeworks Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 264 diff changeset	110	\end{itemize}
264 4deef8ac5d72 uodated hws Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 166 diff changeset	111
267 a1544b804d1e updated homeworks Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 264 diff changeset	112	In case they can, can you give the corresponding token
a1544b804d1e updated homeworks Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 264 diff changeset	113	sequences.
264 4deef8ac5d72 uodated hws Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 166 diff changeset	114
942 7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	115	\solution{
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	116	The first 2 are lexibile. The 3 one contains $/$ which is not an operator.
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	117	}
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	118
768 fd7f4f23d4af updated Christian Urban <christian.urban@kcl.ac.uk> parents: 726 diff changeset	119	\item Assume $r$ is nullable. Show that
fd7f4f23d4af updated Christian Urban <christian.urban@kcl.ac.uk> parents: 726 diff changeset	120	\[ 1 + r + r\cdot r \;\equiv\; r\cdot r
fd7f4f23d4af updated Christian Urban <christian.urban@kcl.ac.uk> parents: 726 diff changeset	121	\]
fd7f4f23d4af updated Christian Urban <christian.urban@kcl.ac.uk> parents: 726 diff changeset	122
fd7f4f23d4af updated Christian Urban <christian.urban@kcl.ac.uk> parents: 726 diff changeset	123	holds.
fd7f4f23d4af updated Christian Urban <christian.urban@kcl.ac.uk> parents: 726 diff changeset	124
893 908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	125	\solution{
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	126	If $r$ is nullable, then $1 + r \equiv r$. With this you can replace
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	127
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	128	\begin{align}
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	129	(1 + r) + r\cdot r & \equiv r + r\cdot r\\
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	130	& \equiv r \cdot (1 + r)\\
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	131	& \equiv r \cdot r
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	132	\end{align}
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	133
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	134	where in (2) you pull out the ``factor'' $r$ (because $r_1 \cdot (r_2 + r_3) \equiv r_1 \cdot r_2 + r_1 \cdot r_3$).
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	135	}
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	136
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	137
938 0eb340948fdb updated Christian Urban <christian.urban@kcl.ac.uk> parents: 916 diff changeset	138	%\item \textbf{(Deleted)} Assume that $s^{-1}$ stands for the operation of reversing a
0eb340948fdb updated Christian Urban <christian.urban@kcl.ac.uk> parents: 916 diff changeset	139	% string $s$. Given the following \emph{reversing} function on regular
0eb340948fdb updated Christian Urban <christian.urban@kcl.ac.uk> parents: 916 diff changeset	140	% expressions
0eb340948fdb updated Christian Urban <christian.urban@kcl.ac.uk> parents: 916 diff changeset	141	%
0eb340948fdb updated Christian Urban <christian.urban@kcl.ac.uk> parents: 916 diff changeset	142	% \begin{center}
0eb340948fdb updated Christian Urban <christian.urban@kcl.ac.uk> parents: 916 diff changeset	143	% \begin{tabular}{r@{\hspace{1mm}}c@{\hspace{1mm}}l}
0eb340948fdb updated Christian Urban <christian.urban@kcl.ac.uk> parents: 916 diff changeset	144	% $rev(\ZERO)$ & $\dn$ & $\ZERO$\\
0eb340948fdb updated Christian Urban <christian.urban@kcl.ac.uk> parents: 916 diff changeset	145	% $rev(\ONE)$ & $\dn$ & $\ONE$\\
0eb340948fdb updated Christian Urban <christian.urban@kcl.ac.uk> parents: 916 diff changeset	146	% $rev(c)$ & $\dn$ & $c$\\
0eb340948fdb updated Christian Urban <christian.urban@kcl.ac.uk> parents: 916 diff changeset	147	% $rev(r_1 + r_2)$ & $\dn$ & $rev(r_1) + rev(r_2)$\\
0eb340948fdb updated Christian Urban <christian.urban@kcl.ac.uk> parents: 916 diff changeset	148	% $rev(r_1 \cdot r_2)$ & $\dn$ & $rev(r_2) \cdot rev(r_1)$\\
0eb340948fdb updated Christian Urban <christian.urban@kcl.ac.uk> parents: 916 diff changeset	149	% $rev(r^)$ & $\dn$ & $rev(r)^$\\
0eb340948fdb updated Christian Urban <christian.urban@kcl.ac.uk> parents: 916 diff changeset	150	% \end{tabular}
0eb340948fdb updated Christian Urban <christian.urban@kcl.ac.uk> parents: 916 diff changeset	151	% \end{center}
0eb340948fdb updated Christian Urban <christian.urban@kcl.ac.uk> parents: 916 diff changeset	152	%
0eb340948fdb updated Christian Urban <christian.urban@kcl.ac.uk> parents: 916 diff changeset	153	% and the set
0eb340948fdb updated Christian Urban <christian.urban@kcl.ac.uk> parents: 916 diff changeset	154	%
0eb340948fdb updated Christian Urban <christian.urban@kcl.ac.uk> parents: 916 diff changeset	155	% \begin{center}
0eb340948fdb updated Christian Urban <christian.urban@kcl.ac.uk> parents: 916 diff changeset	156	% $Rev\,A \dn \{s^{-1} \;\|\; s \in A\}$
0eb340948fdb updated Christian Urban <christian.urban@kcl.ac.uk> parents: 916 diff changeset	157	% \end{center}
0eb340948fdb updated Christian Urban <christian.urban@kcl.ac.uk> parents: 916 diff changeset	158	%
0eb340948fdb updated Christian Urban <christian.urban@kcl.ac.uk> parents: 916 diff changeset	159	% prove whether
0eb340948fdb updated Christian Urban <christian.urban@kcl.ac.uk> parents: 916 diff changeset	160	%
0eb340948fdb updated Christian Urban <christian.urban@kcl.ac.uk> parents: 916 diff changeset	161	% \begin{center}
0eb340948fdb updated Christian Urban <christian.urban@kcl.ac.uk> parents: 916 diff changeset	162	% $L(rev(r)) = Rev (L(r))$
0eb340948fdb updated Christian Urban <christian.urban@kcl.ac.uk> parents: 916 diff changeset	163	% \end{center}
0eb340948fdb updated Christian Urban <christian.urban@kcl.ac.uk> parents: 916 diff changeset	164	%
0eb340948fdb updated Christian Urban <christian.urban@kcl.ac.uk> parents: 916 diff changeset	165	% holds.
34 eeff9953a1c1 tuned Christian Urban <urbanc@in.tum.de> parents: 32 diff changeset	166
938 0eb340948fdb updated Christian Urban <christian.urban@kcl.ac.uk> parents: 916 diff changeset	167	\item Construct a regular expression that can validate passwords. A
0eb340948fdb updated Christian Urban <christian.urban@kcl.ac.uk> parents: 916 diff changeset	168	password should be at least 8 characters long and consist of upper-
0eb340948fdb updated Christian Urban <christian.urban@kcl.ac.uk> parents: 916 diff changeset	169	and lower-case letters and digits. It should contain at least a
0eb340948fdb updated Christian Urban <christian.urban@kcl.ac.uk> parents: 916 diff changeset	170	single lower-case letter, at least a single upper-case letter and at
942 7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	171	least a single digit. If possible use the intersection regular
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	172	expression from CW1, written $\_\&\_$, and the bounded regular
938 0eb340948fdb updated Christian Urban <christian.urban@kcl.ac.uk> parents: 916 diff changeset	173	expressions; you can also assume a regular expression written
0eb340948fdb updated Christian Urban <christian.urban@kcl.ac.uk> parents: 916 diff changeset	174	\texttt{ALL} that can match any character.
31 e22ba348b209 added hw04 Christian Urban <urbanc@in.tum.de> parents: diff changeset	175
938 0eb340948fdb updated Christian Urban <christian.urban@kcl.ac.uk> parents: 916 diff changeset	176	\solution{
0eb340948fdb updated Christian Urban <christian.urban@kcl.ac.uk> parents: 916 diff changeset	177	You can build-up the different constraints separately and then
0eb340948fdb updated Christian Urban <christian.urban@kcl.ac.uk> parents: 916 diff changeset	178	use the intersection operator:
32 d085fe0c086f started Christian Urban <urbanc@in.tum.de> parents: 31 diff changeset	179
938 0eb340948fdb updated Christian Urban <christian.urban@kcl.ac.uk> parents: 916 diff changeset	180	\begin{center}
0eb340948fdb updated Christian Urban <christian.urban@kcl.ac.uk> parents: 916 diff changeset	181	\begin{tabular}{lll}
0eb340948fdb updated Christian Urban <christian.urban@kcl.ac.uk> parents: 916 diff changeset	182	$ALL^{\{8..\}}$ & \;\&\; & $(ALL^\cdot [a-z]\cdot ALL^)$\\
0eb340948fdb updated Christian Urban <christian.urban@kcl.ac.uk> parents: 916 diff changeset	183	& \;\&\; & $(ALL^\cdot [A-Z]\cdot ALL^)$\\
0eb340948fdb updated Christian Urban <christian.urban@kcl.ac.uk> parents: 916 diff changeset	184	& \;\&\; & $(ALL^\cdot [0-9]\cdot ALL^)$\\
0eb340948fdb updated Christian Urban <christian.urban@kcl.ac.uk> parents: 916 diff changeset	185	\end{tabular}
267 a1544b804d1e updated homeworks Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 264 diff changeset	186	\end{center}
942 7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	187
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	188	$ALL$ could be represented as $\sim \ZERO$.
938 0eb340948fdb updated Christian Urban <christian.urban@kcl.ac.uk> parents: 916 diff changeset	189	}
0eb340948fdb updated Christian Urban <christian.urban@kcl.ac.uk> parents: 916 diff changeset	190
401 5d85dc9779b1 updated Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 359 diff changeset	191	\item Assume the delimiters for comments are
5d85dc9779b1 updated Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 359 diff changeset	192	\texttt{$\slash$} and \texttt{$\slash$}. Give a
5d85dc9779b1 updated Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 359 diff changeset	193	regular expression that can recognise comments of the
5d85dc9779b1 updated Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 359 diff changeset	194	form
42 5529cfb2a81e tuned Christian Urban <urbanc@in.tum.de> parents: 34 diff changeset	195
267 a1544b804d1e updated homeworks Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 264 diff changeset	196	\begin{center}
a1544b804d1e updated homeworks Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 264 diff changeset	197	\texttt{$\slash$~\ldots{}~$\slash$}
a1544b804d1e updated homeworks Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 264 diff changeset	198	\end{center}
42 5529cfb2a81e tuned Christian Urban <urbanc@in.tum.de> parents: 34 diff changeset	199
401 5d85dc9779b1 updated Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 359 diff changeset	200	where the three dots stand for arbitrary characters, but
5d85dc9779b1 updated Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 359 diff changeset	201	not comment delimiters. (Hint: You can assume you are
5d85dc9779b1 updated Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 359 diff changeset	202	already given a regular expression written \texttt{ALL},
5d85dc9779b1 updated Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 359 diff changeset	203	that can recognise any character, and a regular
5d85dc9779b1 updated Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 359 diff changeset	204	expression \texttt{NOT} that recognises the complement
5d85dc9779b1 updated Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 359 diff changeset	205	of a regular expression.)
942 7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	206
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	207	\solution{
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	208	\[/ * \sim (ALL^* * / ALL^) /\]
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	209
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	210	The idea to make sure in between $/ $ and $ /$ ar no strings that contain $* /$.
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	211	}
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	212
355 a259eec25156 updated Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 347 diff changeset	213	\item Simplify the regular expression
42 5529cfb2a81e tuned Christian Urban <urbanc@in.tum.de> parents: 34 diff changeset	214
355 a259eec25156 updated Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 347 diff changeset	215	\[
401 5d85dc9779b1 updated Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 359 diff changeset	216	(\ZERO \cdot (b \cdot c)) +
5d85dc9779b1 updated Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 359 diff changeset	217	((\ZERO \cdot c) + \ONE)
355 a259eec25156 updated Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 347 diff changeset	218	\]
a259eec25156 updated Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 347 diff changeset	219
401 5d85dc9779b1 updated Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 359 diff changeset	220	Does simplification always preserve the meaning of a
942 7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	221	regular expression?
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	222
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	223	\solution{ Yes, simplification preserves the language. It
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	224	simplifies to just $\ONE$. It should be remembered that the
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	225	Brzozowski does not simplify under stars. This does not apply
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	226	in this example, though. }
355 a259eec25156 updated Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 347 diff changeset	227
401 5d85dc9779b1 updated Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 359 diff changeset	228	\item The Sulzmann \& Lu algorithm contains the function
5d85dc9779b1 updated Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 359 diff changeset	229	$mkeps$ which answers how a regular expression can match
5d85dc9779b1 updated Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 359 diff changeset	230	the empty string. What is the answer of $mkeps$ for the
355 a259eec25156 updated Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 347 diff changeset	231	regular expressions:
146 9da175d5eb63 added new hws Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 102 diff changeset	232
355 a259eec25156 updated Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 347 diff changeset	233	\[
a259eec25156 updated Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 347 diff changeset	234	\begin{array}{l}
401 5d85dc9779b1 updated Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 359 diff changeset	235	(\ZERO \cdot (b \cdot c)) +
5d85dc9779b1 updated Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 359 diff changeset	236	((\ZERO \cdot c) + \ONE)\\
577 1d6043a87a3e updated Christian Urban <urbanc@in.tum.de> parents: 525 diff changeset	237	(a + \ONE) \cdot (\ONE + \ONE)\\
1d6043a87a3e updated Christian Urban <urbanc@in.tum.de> parents: 525 diff changeset	238	a^*
355 a259eec25156 updated Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 347 diff changeset	239	\end{array}
942 7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	240	\]
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	241
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	242	\solution{
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	243	The values are
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	244	\begin{center}
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	245	\begin{tabular}{l}
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	246	$Right(Right(Empty))$\\
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	247	$Sequ(Right(\ONE),Left(\ONE))$\\
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	248	$Stars\,[]$
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	249	\end{tabular}
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	250	\end{center}
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	251
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	252	The last one uses the rule that $mkeps$ for the star returns always $Star\,[]$.
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	253	}
355 a259eec25156 updated Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 347 diff changeset	254
401 5d85dc9779b1 updated Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 359 diff changeset	255	\item What is the purpose of the record regular expression in
942 7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	256	the Sulzmann \& Lu algorithm?
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	257
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	258	\solution{
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	259	It marks a part of a regular expression and can be used to extract the part of the
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	260	string that is matched by this marked part of the regular expression.
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	261	}
498 cd2d192775a4 updated Christian Urban <urbanc@in.tum.de> parents: 444 diff changeset	262
843 f3204dd2b6dc updated Christian Urban <christian.urban@kcl.ac.uk> parents: 768 diff changeset	263	\item Recall the functions \textit{nullable} and
f3204dd2b6dc updated Christian Urban <christian.urban@kcl.ac.uk> parents: 768 diff changeset	264	\textit{zeroable}. Define recursive functions
f3204dd2b6dc updated Christian Urban <christian.urban@kcl.ac.uk> parents: 768 diff changeset	265	\textit{atmostempty} (for regular expressions that match no
f3204dd2b6dc updated Christian Urban <christian.urban@kcl.ac.uk> parents: 768 diff changeset	266	string or only the empty string), \textit{somechars} (for
f3204dd2b6dc updated Christian Urban <christian.urban@kcl.ac.uk> parents: 768 diff changeset	267	regular expressions that match some non-empty string),
f3204dd2b6dc updated Christian Urban <christian.urban@kcl.ac.uk> parents: 768 diff changeset	268	\textit{infinitestrings} (for regular expressions that can match
f3204dd2b6dc updated Christian Urban <christian.urban@kcl.ac.uk> parents: 768 diff changeset	269	infinitely many strings).
893 908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	270
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	271	\solution{
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	272	\textbf{zeroable}: The property is $z(r) \;\text{iff}\; L(r) = \emptyset$:
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	273
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	274	\begin{align}
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	275	z(\ZERO) &\dn true\\
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	276	z(\ONE) &\dn false\\
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	277	z(c) &\dn false\\
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	278	z(r_1 + r_2) &\dn z(r_1) \wedge z(r_2)\\
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	279	z(r_1 \cdot r_2) &\dn z(r_1) \vee z(r_2)\\
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	280	z(r^*) &\dn false
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	281	\end{align}\bigskip
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	282
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	283	\textbf{atmostempty}: The property is ``either $L(r) = \emptyset$ or $L(r) = \{[]\}$'', which
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	284	is more formally $a(r) \;\text{iff}\; L(r) \subseteq \{[]\}$:
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	285
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	286	\begin{align}
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	287	a(\ZERO) &\dn true\\
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	288	a(\ONE) &\dn true\\
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	289	a(c) &\dn false\\
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	290	a(r_1 + r_2) &\dn a(r_1) \wedge a(r_2)\\
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	291	a(r_1 \cdot r_2) &\dn z(r_1) \vee z(r_2) \vee (a(r_1) \wedge a(r_2))\\
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	292	a(r^*) &\dn a(r)
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	293	\end{align}
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	294
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	295	For this it is good to remember the regex should either not
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	296	match anything at all, or just the empty string.\bigskip
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	297
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	298	\textbf{somechars}: The property is ``$L(r)$ must contain a string which is not the empty string'', which
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	299	is more formally $s(r) \;\text{iff}\; \exists\,s. s \not= [] \wedge s \in L(r)$:
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	300
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	301	\begin{align}
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	302	s(\ZERO) &\dn false\\
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	303	s(\ONE) &\dn false\\
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	304	s(c) &\dn true\\
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	305	s(r_1 + r_2) &\dn s(r_1) \vee s(r_2)\\
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	306	s(r_1 \cdot r_2) &\dn (\neg z(r_1) \wedge s(r_2)) \;\vee\; (\neg z(r_2) \wedge s(r_1))\\
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	307	s(r^*) &\dn s(r)
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	308	\end{align}
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	309
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	310	Here the interesting case is $r_1 \cdot r_2$ where one essentially has to make sure
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	311	that one of the regexes is not zeroable, because then the resulting regex cannot match any
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	312	string.\bigskip
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	313
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	314	\textbf{infinitestrings}: The property is
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	315	$i(r) \;\text{iff}\; L(r)\;\text{is infinite}$:
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	316
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	317	\begin{align}
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	318	i(\ZERO) &\dn false\\
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	319	i(\ONE) &\dn false\\
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	320	i(c) &\dn false\\
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	321	i(r_1 + r_2) &\dn i(r_1) \vee i(r_2)\\
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	322	i(r_1 \cdot r_2) &\dn (\neg z(r_1) \wedge i(r_2)) \;\vee\; (\neg z(r_2) \wedge i(r_1))\\
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	323	i(r^*) &\dn \neg a(r)
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	324	\end{align}
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	325
942 7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	326	Here the interesting bit is that as soon $r$ can match at least a single non-empty string, then $r^*$
893 908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	327	will match infinitely many strings.
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	328	}
908e4f6cdf7c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 892 diff changeset	329
498 cd2d192775a4 updated Christian Urban <urbanc@in.tum.de> parents: 444 diff changeset	330
892 4a15a336022c updated Christian Urban <christian.urban@kcl.ac.uk> parents: 843 diff changeset	331	\item There are two kinds of automata that are generated for
843 f3204dd2b6dc updated Christian Urban <christian.urban@kcl.ac.uk> parents: 768 diff changeset	332	regular expression matching---DFAs and NFAs. (1) Regular expression engines like
f3204dd2b6dc updated Christian Urban <christian.urban@kcl.ac.uk> parents: 768 diff changeset	333	the one in Python generate NFAs. Explain what is the problem with such
f3204dd2b6dc updated Christian Urban <christian.urban@kcl.ac.uk> parents: 768 diff changeset	334	NFAs and what is the reason why they use NFAs. (2) Regular expression
f3204dd2b6dc updated Christian Urban <christian.urban@kcl.ac.uk> parents: 768 diff changeset	335	engines like the one in Rust generate DFAs. Explain what is the
f3204dd2b6dc updated Christian Urban <christian.urban@kcl.ac.uk> parents: 768 diff changeset	336	problem with these regex engines and also what is the problem with $a^{\{1000\}}$
f3204dd2b6dc updated Christian Urban <christian.urban@kcl.ac.uk> parents: 768 diff changeset	337	in these engines.
942 7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	338
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	339	\solution{
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	340	Why they use NFAs? NFAs are of similar size as the regular expression (they do not explode
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	341	for the basic regular expressions. Python regex library supports constructions like
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	342	back-refernces which cannot be represented by DFAs (string matching with back-references
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	343	can be NP. What is the problem with $a^{\{1000\}}$. When generating DFAs (and NFAs) for the
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	344	bounded regular expressions, one has to make $n$ copies, which means their size can grow
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	345	drastically for large counters.
7f52427568ff updated Christian Urban <christian.urban@kcl.ac.uk> parents: 938 diff changeset	346	}
843 f3204dd2b6dc updated Christian Urban <christian.urban@kcl.ac.uk> parents: 768 diff changeset	347
146 9da175d5eb63 added new hws Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 102 diff changeset	348	%\item (Optional) The tokenizer in \texttt{regexp3.scala} takes as
9da175d5eb63 added new hws Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 102 diff changeset	349	%argument a string and a list of rules. The result is a list of tokens. Improve this tokenizer so
9da175d5eb63 added new hws Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 102 diff changeset	350	%that it filters out all comments and whitespace from the result.
9da175d5eb63 added new hws Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 102 diff changeset	351
9da175d5eb63 added new hws Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 102 diff changeset	352	%\item (Optional) Modify the tokenizer in \texttt{regexp2.scala} so that it
9da175d5eb63 added new hws Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 102 diff changeset	353	%implements the \texttt{findAll} function. This function takes a regular
9da175d5eb63 added new hws Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 102 diff changeset	354	%expressions and a string, and returns all substrings in this string that
444 3056a4c071b0 updated Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 401 diff changeset	355	%match the regular expression.
3056a4c071b0 updated Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 401 diff changeset	356
3056a4c071b0 updated Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 401 diff changeset	357	\item \POSTSCRIPT
31 e22ba348b209 added hw04 Christian Urban <urbanc@in.tum.de> parents: diff changeset	358	\end{enumerate}
e22ba348b209 added hw04 Christian Urban <urbanc@in.tum.de> parents: diff changeset	359
e22ba348b209 added hw04 Christian Urban <urbanc@in.tum.de> parents: diff changeset	360
e22ba348b209 added hw04 Christian Urban <urbanc@in.tum.de> parents: diff changeset	361	\end{document}
e22ba348b209 added hw04 Christian Urban <urbanc@in.tum.de> parents: diff changeset	362
e22ba348b209 added hw04 Christian Urban <urbanc@in.tum.de> parents: diff changeset	363	%%% Local Variables:
e22ba348b209 added hw04 Christian Urban <urbanc@in.tum.de> parents: diff changeset	364	%%% mode: latex
e22ba348b209 added hw04 Christian Urban <urbanc@in.tum.de> parents: diff changeset	365	%%% TeX-master: t
e22ba348b209 added hw04 Christian Urban <urbanc@in.tum.de> parents: diff changeset	366	%%% End:

author	Christian Urban <christian.urban@kcl.ac.uk>
	Fri, 19 Sep 2025 18:41:04 +0100
changeset 988	6fc5aafc7d45
parent 942	7f52427568ff
child 1009	7fd1997bd14c
permissions	-rw-r--r--