afl-material: parser1.scala@a09ecb1e7384 (annotated)

62 5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	1	:load matcher.scala
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	2
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	3	// some regular expressions
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	4	val DIGIT = RANGE("0123456789".toList)
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	5	val NONZERODIGIT = RANGE("123456789".toList)
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	6
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	7	val NUMBER = ALT(SEQ(NONZERODIGIT, STAR(DIGIT)), "0")
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	8	val LPAREN = CHAR('(')
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	9	val RPAREN = CHAR(')')
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	10	val WHITESPACE = PLUS(RANGE(" \n".toList))
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	11	val OPS = RANGE("+-*".toList)
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	12
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	13	// for classifying the strings that have been recognised
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	14	abstract class Token
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	15	case object T_WHITESPACE extends Token
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	16	case object T_NUM extends Token
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	17	case class T_OP(s: String) extends Token
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	18	case object T_LPAREN extends Token
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	19	case object T_RPAREN extends Token
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	20	case class T_NT(s: String, rhs: List[Token]) extends Token
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	21
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	22	def tokenizer(rs: List[Rule[Token]], s: String) : List[Token] =
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	23	tokenize(rs, s.toList).filterNot(_ match {
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	24	case T_WHITESPACE => true
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	25	case _ => false
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	26	})
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	27
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	28
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	29
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	30	// lexing rules for arithmetic expressions
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	31	val lexing_rules: List[Rule[Token]]=
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	32	List((NUMBER, (s) => T_NUM),
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	33	(WHITESPACE, (s) => T_WHITESPACE),
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	34	(LPAREN, (s) => T_LPAREN),
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	35	(RPAREN, (s) => T_RPAREN),
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	36	(OPS, (s) => T_OP(s.mkString)))
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	37
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	38
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	39	type Grammar = List[(String, List[Token])]
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	40
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	41	// grammar for arithmetic expressions
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	42	val grammar =
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	43	List ("E" -> List(T_NUM),
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	44	"E" -> List(T_NT("E", Nil), T_OP("+"), T_NT("E", Nil)),
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	45	"E" -> List(T_NT("E", Nil), T_OP("-"), T_NT("E", Nil)),
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	46	"E" -> List(T_NT("E", Nil), T_OP("*"), T_NT("E", Nil)),
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	47	"E" -> List(T_LPAREN, T_NT("E", Nil), T_RPAREN))
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	48
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	49	def startsWith[A](ts1: List[A], ts2: List[A]) : Boolean = (ts1, ts2) match {
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	50	case (_, Nil) => true
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	51	case (T_NT(e, _)::ts1,T_NT(f, _)::ts2) => (e == f) && startsWith(ts1, ts2)
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	52	case (t1::ts1, t2::ts2) => (t1 == t2) && startsWith(ts1, ts2)
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	53	case _ => false
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	54	}
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	55
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	56	def chop[A](ts1: List[A], prefix: List[A], ts2: List[A]) : Option[(List[A], List[A])] =
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	57	ts1 match {
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	58	case Nil => None
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	59	case t::ts =>
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	60	if (startsWith(ts1, prefix)) Some(ts2.reverse, ts1.drop(prefix.length))
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	61	else chop(ts, prefix, t::ts2)
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	62	}
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	63
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	64	// examples
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	65	chop(List(1,2,3,4,5,6,7,8,9), List(4,5), Nil)
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	66	chop(List(1,2,3,4,5,6,7,8,9), List(3,5), Nil)
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	67
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	68	def replace[A](ts: List[A], out: List[A], in: List [A]) =
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	69	chop(ts, out, Nil) match {
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	70	case None => None
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	71	case Some((before, after)) => Some(before ::: in ::: after)
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	72	}
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	73
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	74	def parse1(g: Grammar, ts: List[Token]) : Boolean = ts match {
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	75	case List(T_NT("E", tree)) => { println(tree); true }
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	76	case _ => {
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	77	val tss = for ((lhs, rhs) <- g) yield replace(ts, rhs, List(T_NT(lhs, rhs)))
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	78	tss.flatten.exists(parse1(g, _))
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	79	}
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	80	}
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	81
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	82
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	83	println() ; parse1(grammar, tokenizer(lexing_rules, "2 + 3 * 4 + 1"))
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	84	println() ; parse1(grammar, tokenizer(lexing_rules, "(2 + 3) * (4 + 1)"))
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	85	println() ; parse1(grammar, tokenizer(lexing_rules, "(2 + 3) * 4 (4 + 1)"))
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	86
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	87
5988e44ea048 added Christian Urban <urbanc@in.tum.de> parents: diff changeset	88

author	Christian Urban <christian dot urban at kcl dot ac dot uk>
	Wed, 21 Nov 2012 02:34:37 +0000
changeset 68	a09ecb1e7384
parent 62	5988e44ea048
permissions	-rw-r--r--