زبان نشانه گذاری html یک زبان آزاد و بدون ساختار است. بدین معنی که در HTML محتوای متنی صفحه وب و برچسبهای وب در هم مخلوط هستند و دست طراح وب برای استفاده از برچسبهای وب و درج هرگونه متن دلخواه در هر کجای صفحه باز است. به عبارتی ماهیت و نوع اطلاعات جاسازی شده در یک صفحه وب مشخص نیست و همه از نوع متن ساده هستند. این قضیه کار را برای موتورهای جستجو دشوار می کند چرا که وقتی یک کاربر دنبال یک نام کالا می گردد موتور جستجو مجبور است محتوای سر تا سر صفحات وب را بگردد و هر کلمه ای که با نام موردنظر کاربر مطابقت دارد آنرا بعنوان نتیجه برگرداند. در ضمن مطمئن نیست آیا کلمه ای که با نام موردنظر کاربر تطبیق دارد واقعا نام کالاست یا کلمه ای مشابه در خصوص موضوعی دیگر است است که در جای دیگر از صفحه وب ظاهر شده است.
کنسرسیوم جهانی وب w3c برای ساختار دادن به صفحات html استاندارد جدیدی وضع کرد که به کمک آن می توان ترکیب و ماهیت داده های متنی یک صفحه وب را مشخص کرد تا کار پردازش خودکار صفحات وب ساده تر شود.
کنسرسیوم وب در استاندارد جدید دو زبان مکمل و همراه تعریف کرده است: زبان اول xml است که محتویا صفحه وب را به صورت ساختار یافته توصیف می نماید. زبان دوم xsl است که در حقیقت شیوه نمایش محتویات یک فایل xml را مشخص می کند. این دو زبان پیچیده و مفصل هستند و برای آشنایی با آنها باید به مراجع فنی آنها مراجعه کرد.
هسته اصلی زبان XML به (تعریف نوع سند) (Document TYPE Definition) اختصاص دارد که به اختصار DTD گفته می شود. در حقیقت DTD چیزی شبیه به کتابخانه تعریف انواع داده در بانکهای اطلاعاتی رابطه ای (Relation Database) است . یک DTD برچسبهای شروع و ختم یک فایل xml را تعریف می کند و امکان آن را فراهم می آورد تا کسی که مولفه های درونی یک فایل xml را مشاهده می نماید احساسی از نوع و ماهیت داده بدست بیاورد.
کل کاری که یک فایل xml انجام می دهد تعریفی ساختار یافته از مجموعه داده ها است ولیکن این فایل هیچ اطلاعاتی در مورد نحوه نمایش آن بر روی صفحه مروروگر دیده نمی شود. برای قالب دادن و تعریف شکل نمایش بصری این اطلاعات به فایل دیگری با پسوند xsl نیاز است . این فایل در حقیقت شیوه نامه ای در خصوص چگونگی ظاهر شدن این مجموعه اطلاعات از روی صفحه نمایش است.
Linkback: https://irmeta.com/meta/b1396/t8196/