afl-material: parser2.scala@9215b9fb8852 (annotated)

62 5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	1	:load matcher.scala
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	2
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	3	// some regular expressions
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	4	val LETTER = RANGE("abcdefghijklmnopqrstuvwxyz".toList)
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	5	val ID = PLUS(LETTER)
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	6
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	7	val DIGIT = RANGE("0123456789".toList)
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	8	val NONZERODIGIT = RANGE("123456789".toList)
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	9	val NUMBER = ALT(SEQ(NONZERODIGIT, STAR(DIGIT)), "0")
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	10
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	11	val LPAREN = CHAR('(')
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	12	val RPAREN = CHAR(')')
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	13
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	14	val WHITESPACE = PLUS(RANGE(" \n".toList))
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	15	val OPS = RANGE("+-*".toList)
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	16
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	17	// for classifying the strings that have been recognised
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	18	abstract class Token
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	19
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	20	case object T_WHITESPACE extends Token
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	21	case class T_NUM(s: String) extends Token
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	22	case class T_ID(s: String) extends Token
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	23	case class T_OP(s: String) extends Token
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	24	case object T_LPAREN extends Token
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	25	case object T_RPAREN extends Token
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	26	case object T_IF extends Token
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	27	case object T_THEN extends Token
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	28	case object T_ELSE extends Token
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	29
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	30	def tokenizer(rs: List[Rule[Token]], s: String) : List[Token] =
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	31	tokenize(rs, s.toList).filterNot(_ match {
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	32	case T_WHITESPACE => true
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	33	case _ => false
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	34	})
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	35
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	36
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	37	// lexing rules for arithmetic expressions
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	38	val lexing_rules: List[Rule[Token]]=
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	39	List(("if", (s) => T_IF),
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	40	("then", (s) => T_THEN),
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	41	("else", (s) => T_ELSE),
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	42	(NUMBER, (s) => T_NUM(s.mkString)),
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	43	(ID, (s) => T_ID(s.mkString)),
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	44	(WHITESPACE, (s) => T_WHITESPACE),
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	45	(LPAREN, (s) => T_LPAREN),
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	46	(RPAREN, (s) => T_RPAREN),
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	47	(OPS, (s) => T_OP(s.mkString)))
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	48
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	49
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	50	// parse trees
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	51	abstract class ParseTree
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	52	case class Leaf(t: Token) extends ParseTree
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	53	case class Branch(pts: List[ParseTree]) extends ParseTree
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	54
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	55	def combine(pt1: ParseTree, pt2: ParseTree) = pt1 match {
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	56	case Leaf(t) => Branch(List(Leaf(t), pt2))
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	57	case Branch(pts) => Branch(pts ++ List(pt2))
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	58	}
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	59
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	60	// parser combinators
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	61	abstract class Parser {
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	62	def parse(ts: List[Token]): Set[(ParseTree, List[Token])]
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	63
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	64	def parse_all(ts: List[Token]) : Set[ParseTree] =
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	65	for ((head, tail) <- parse(ts); if (tail == Nil)) yield head
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	66
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	67	def \|\| (right : => Parser) : Parser = new AltParser(this, right)
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	68	def ~ (right : => Parser) : Parser = new SeqParser(this, right)
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	69	}
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	70
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	71	class AltParser(p: => Parser, q: => Parser) extends Parser {
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	72	def parse (ts: List[Token]) = p.parse(ts) ++ q.parse(ts)
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	73	}
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	74
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	75	class SeqParser(p: => Parser, q: => Parser) extends Parser {
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	76	def parse(ts: List[Token]) =
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	77	for ((head1, tail1) <- p.parse(ts);
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	78	(head2, tail2) <- q.parse(tail1)) yield (combine(head1, head2), tail2)
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	79	}
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	80
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	81	class ListParser(ps: => List[Parser]) extends Parser {
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	82	def parse(ts: List[Token]) = ps match {
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	83	case Nil => Set()
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	84	case p::Nil => p.parse(ts)
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	85	case p::ps =>
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	86	for ((head1, tail1) <- p.parse(ts);
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	87	(head2, tail2) <- new ListParser(ps).parse(tail1)) yield (Branch(List(head1, head2)), tail2)
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	88	}
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	89	}
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	90
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	91	case class TokParser(tok: Token) extends Parser {
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	92	def parse(ts: List[Token]) = ts match {
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	93	case t::ts if (t == tok) => Set((Leaf(t), ts))
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	94	case _ => Set ()
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	95	}
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	96	}
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	97
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	98	implicit def token2tparser(t: Token) = TokParser(t)
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	99
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	100	case object IdParser extends Parser {
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	101	def parse(ts: List[Token]) = ts match {
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	102	case T_ID(s)::ts => Set((Leaf(T_ID(s)), ts))
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	103	case _ => Set ()
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	104	}
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	105	}
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	106
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	107	case object NumParser extends Parser {
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	108	def parse(ts: List[Token]) = ts match {
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	109	case T_NUM(s)::ts => Set((Leaf(T_NUM(s)), ts))
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	110	case _ => Set ()
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	111	}
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	112	}
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	113
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	114	lazy val E: Parser = (T ~ T_OP("+") ~ E) \|\| T // start symbol
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	115	lazy val T: Parser = (F ~ T_OP("*") ~ T) \|\| F
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	116	lazy val F: Parser = (T_LPAREN ~ E ~ T_RPAREN) \|\| NumParser
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	117
64 2d625418c011 added everything Christian Urban <christian dot urban at kcl dot ac dot uk> parents: 62 diff changeset	118	tokenizer(lexing_rules, "1 + 2 + 3")
62 5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	119	println(E.parse_all(tokenizer(lexing_rules, "1 + 2 + 3")))
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	120
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	121	def eval(t: ParseTree) : Int = t match {
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	122	case Leaf(T_NUM(n)) => n.toInt
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	123	case Branch(List(t1, Leaf(T_OP("+")), t2)) => eval(t1) + eval(t2)
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	124	case Branch(List(t1, Leaf(T_OP("")), t2)) => eval(t1) eval(t2)
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	125	case Branch(List(Leaf(T_LPAREN), t, Leaf(T_RPAREN))) => eval(t)
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	126	}
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	127
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	128	(E.parse_all(tokenizer(lexing_rules, "1 + 2 + 3"))).map(eval(_))
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	129	(E.parse_all(tokenizer(lexing_rules, "1 + 2 * 3"))).map(eval(_))
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	130	(E.parse_all(tokenizer(lexing_rules, "(1 + 2) * 3"))).map(eval(_))
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	131
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	132	lazy val EXPR: Parser =
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	133	new ListParser(List(T_IF, EXPR, T_THEN, EXPR)) \|\|
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	134	new ListParser(List(T_IF, EXPR, T_THEN, EXPR, T_ELSE, EXPR)) \|\|
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	135	IdParser
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	136
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	137	println(EXPR.parse_all(tokenizer(lexing_rules, "if a then b else c")))
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	138	println(EXPR.parse_all(tokenizer(lexing_rules, "if a then if x then y else c")))
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	139
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	140
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	141
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	142

author	Christian Urban <christian dot urban at kcl dot ac dot uk>
	Wed, 21 Nov 2012 02:20:16 +0000
changeset 66	9215b9fb8852
parent 64	2d625418c011
child 71	7717f20f0504
permissions	-rw-r--r--