Кодирование текстовой информации

Обработка текстовой информации

ВВЕДЕНИЕ

Для массового пользователя ЭВМ наибольший интерес представляет прикладное программное обеспечение, позволяющее непосредственно решать задачи из его предметной области. Одной из важнейших функций в деятельности современного человека является обработка текстовой информации. Средства для обработки текстовой информации являются одной из составляющих компонент автоматизации учрежденческой деятельности в самом широком смысле ее понимания, позволяя пользователю с максимальными удобствами создавать высококачественные документы различного назначения посредством персонального компьютера и соответствующего программного обеспечения.

Современные текстовые процессоры предоставляют пользователю широкие возможности по подготовке документов. Это и функции редактирования, допускающие возможность любого изменения, вставки, замены, копирования и перемещения фрагментов в рамках одного документа и между различными документами, функции форматирования символов, абзацев, страниц, разделов документа, проверки грамматики и орфографии, использования наряду с простыми текстовыми элементами списков, таблиц, рисунков, графиков и диаграмм.

Целью курсовой работы является изучение средств и технологии обработки текстовой информации.

Поставленная цель курсовой работы решается путем реализации комплекса взаимосвязанных задач, в числе которых:

— рассмотреть средства и технологии обработки текстовой информации;

— исследовать классификацию и возможности текстовых редакторов;

— изучить характеристику текстовых редакторов и процессоров.

2.1 Общая характеристика задачи

ООО «Сигмаком» предоставляет услуги доступа к сети Интеренет. Данные о тарифах на услуги предоставления доступа к Интернету для абонентов квартирного сектора предоставлены на рис. 1, о курсе у.е. к рублю РФ на определенную дату – на рис. 2.

  1. Построить таблицы по приведенным ниже данным.
  2. Произвести расчет начисленной суммы, баланса на конец месяца в у.е. и рублях за услуги предоставления доступа к Интернету для абонентов квартирного сектора. Для определения начисленной суммы использовать функцию ВПР() (рис. 1–3). Необходимо учитывать, что предоплаченный трафик входит в сумму абонентской платы и необходимо оплачивать только тот трафик, который получен сверх предоплаченного.

Начислено, у.е. = Абонентская плата, у.е. + (Трафик, Mb – Предоплаченный трафик, Mb) x Стоимость трафика за 1Mb, у.е.

     Данные расчета занести в таблицу на рис. 3.

  1. По данным таблицы на рис 3 построить гистограмму, отражающую баланс на начало и конец месяца в у.е.
  2. Сформировать и заполнить документ «Ведомость начисления за услуги предоставления доступа к Интернету» за месяц.

Тарифы на услуги предоставления доступа к Интернету ООО «Сигмаком» для абонентов квартирного сектора (декабрь 20__г.)

Наименование
тарифа

Абонентская
плата, у.е.

Предоплаченный
трафик, Mb

Стоимость
трафика за 1 Mb, у.е.

Абонентский

5

0,0500

Базовый

30

10000

0,0042

Домашний

15

2000

0,0075

Скоростной

21

5000

0,0030

Рис. 1. Тарифы на услуги предоставления доступа к Интернету для абонентов квартирного сектора

Курс у.е. к рублю РФ,установленный ООО «Сигмаком» на _____20__г.

1 у.е.

25,00 руб.

Рис. 2. Курс у.е. к рублю РФ, установленный ООО «Сигмаком»

Начисление за услуги предоставления доступа к Интернету за декабрь 20__г.

Номер
догово-ра

Наименова-ние
тарифа

ФИО
абонента

Баланс
на начало
месяца, у.е.

Трафик,
Mb

Начи-слено, у.е.

Баланс
на конец месяца, у.е.

Баланс
на конец месяца, руб.

2345а

Абонентский

Иванов М.М.

10,00

10

2456d

Домашний

Петров

С.П.

30,00

2000

2347s

Скоростной

Сидоров К.К.

40,00

5000

7689b

Базовый

Иванкин Р.Д.

40,00

10000

2349a

Абонентский

Пышкин Н.Г.

10,00

20

Рис. 3.  Таблица для расчета начислений за услуги предоставления доступа к Интернету за месяц

Стенография

Стенография представляет собой метод кодирования текстовых данных посредством специальных знаков. Она является достаточно быстрым способом записи речи устной формы. Стенографию далеко не каждый может освоить, а только прошедшие специальное обучение люди, известные как стенографисты. Они обладают записывать текст параллельно произносимой выступающим человеком речи, что для обычных людей кажется достаточно сложной задачей. Однако для стенографистов это не является проблемой, так как в стенограмме одно слово или сочетание некоторых букв может быть обозначено в виде одного знака. По скорости письмо стенографического типа превосходит обычное в 4−7 раз. Произвести расшифровку по силам только самому стенографисту.

На рисунке ниже представлено то, как выглядит стенография, в которой закодирована следующая информация: «Говорить умеют все люди на свете. Даже у самых примитивных племен есть речь. Язык — это нечто всеобщее и самое человеческое, что есть на свете»:

Такой метод предоставляет возможность не только производить запись, синхронную устной речи, но и сделать письменную технику более рациональной.

Приведённые выше примеры являются иллюстрацией основного правила: для того, что закодировать одну и ту же информацию можно прибегнуть к различным способам, при этом делать выбор в пользу того или иного способа нужно руководствоваться целью, условиями имеющимися для кодирования средствами.

  • если необходимо записывать текст синхронно с речью, это стоит делать посредством стенографии;
  • если необходимо отправить текст адресату из другой страны, можно прибегнуть к латинице;
  • если нужно представить текст в форме, понятной для грамотного человека, его стоит записывать согласно грамматическим правилам русского языка.

Кроме того, немаловажное значение имеет выбор метода кодирования данных, который, помимо прочего, может иметь связь с предполагаемым методом их обработки. Также стоит рассмотреть пример, при котором представляются числа количественной информации

Прибегнув к буквам кириллицы, можно написать число «сорок». Если же прибегнуть к арабской десятичной системе, то число будет выглядеть как 40. Как пример, поставлена задача, вычислить какое либо числовое значение. Понятное дело, что для этой задачи мы делаем выбор в пользу наиболее удобных арабских цифр, хотя ничто не мешает прибегать к словам, однако на их написание уйдет больше времени и места

Также стоит рассмотреть пример, при котором представляются числа количественной информации. Прибегнув к буквам кириллицы, можно написать число «сорок». Если же прибегнуть к арабской десятичной системе, то число будет выглядеть как 40. Как пример, поставлена задача, вычислить какое либо числовое значение. Понятное дело, что для этой задачи мы делаем выбор в пользу наиболее удобных арабских цифр, хотя ничто не мешает прибегать к словам, однако на их написание уйдет больше времени и места.

Стоит отметить, что вышеописанные примеры написания одного и того же числа базируются на совершенно разных языках. В первом случае используются буквы русского алфавита, в то время как во втором применяется формальный математический язык, который не имеет национальной привязанности. Переход от естественного языка к формальной разновидности можно считать кодированием.

Общие сведения о системах подготовки текстовых документов

Обработка текстов как направление развития техники возникло в начале XX в. с появлением механической пишущей машинки. Затем более полувека пишущая машинка оставалась единственным общедоступным средством получения печатного текста на бумаге. Очевидно, что при печатании на пишущей машинке наиболее трудоемким является процесс внесения изменений в текст, когда в лучшем случае с помощью ножниц и клея создается новый вариант документа, который затем перепечатывается заново для получения чистового варианта.

С появлением в 80-е гг. персональных компьютеров положение кардинально изменилось. Подготовка документов, внесение в них исправлений стали гораздо проще. Но для того, чтобы на компьютере можно было набирать текст, на нем должны быть установлены специальные программы. Вначале эти программы были довольно простыми и позволяли только набирать тексты и вносить в них изменения. Такие программы называются текстовые редакторы.

Редактор текстов (text editor) обеспечивает ввод, изменение и сохранение любого символьного текста, но предназначен он в основном для подготовки текстов программ, поскольку тексты программ не требуют форматирования. Результатом работы текстового редактора становится файл, в котором все знаки являются знаками кода ASCII. Такие файлы называются ASCII-файлами. Использование для подготовки и печати документа редактора текстов на качественном уровне соответствует использованию пишущей машинки. Производительность в данном случае обеспечивается легкостью получения большого числа печатных копий с хранимой в электронной памяти заготовки и возможностью, как исправления опечаток, так и частичной переработки текста путем вставки или исключения новых фрагментов. Одним из текстовых редакторов является редактор Блокнот.

С развитием техники появилась возможность автоматизировать некоторые рутинные операции по обработке текстовых документов, и на смену текстовым редакторам пришли текстовые процессоры.

Текстовые процессоры – это общее название программных средств, предназначенных для создания и обработки текстов. В отличие от текстовых редакторов, позволяющих только набирать и исправлять (редактировать) текст, текстовые процессоры имеют специальные дополнительные функции, которые предназначены для облегчения ввода текста и представления его в напечатанном виде. Среди этих функций можно выделить следующие:

  • ввод текста под контролем функций форматирования, обеспечивающих точное соответствие экранного образа документа его печатной копии. Этот принцип по-английски называется WYSIWYG (What You See Is What You Get – что Вы видите, то и получите);
  • предварительное описание структуры будущего документа с помощью специального языка; в этом описании задаются такие параметры, как величина абзацных отступов, тип и размер шрифта для различных элементов текста, расположение заголовков, межстрочные интервалы, число колонок текста, расположение и способ нумерации сносок (в конце текста или на той же странице) и т.д.;
  • автоматическая проверка орфографии и получение подсказки при выборе синонимов;
  • ввод и редактирование таблиц и формул с изображением их на экране в том виде, в котором они будут напечатаны;
  • объединение документов в процессе подготовки текста к печати;
  • автоматическое составление оглавления и алфавитного справочника;
  • возможность совместной работы над одним документом нескольких соавторов с учетом исправлений, внесенных каждым из них.

Почти все текстовые процессоры имеют уникальную структуру данных для представления текста, что объясняется необходимостью включения в текст дополнительной информации, описывающей структуру документа, шрифты и т.п., поскольку каждое слово или даже символ могут иметь свои особенные характеристики. Поэтому текст, подготовленный с помощью одного текстового процессора, как правило, не может быть прочитан другими текстовыми процессорами и, следовательно, не может быть отредактирован и распечатан.

В России сейчас наиболее распространен входящий в состав пакета Microsoft Office текстовый процессор МS Word.

1.4 Форматы текстовых файлов

Формат файла определяет способ хранения текста в файле. Существуют универсальные форматы текстовых файлов, которые могут быть прочитаны большинством текстовых редакторов, и оригинальные форматы, которые используются отдельными текстовыми редакторами. Для преобразования текстового файла из одного формата в другой используются специальные программы – программы-конверторы. Рассмотрим распространенные форматы текстовых файлов.

Только текст (Text Only) (TXT). Наиболее универсальный формат. Сохраняет текст без формирования, в текст вставляются только управляющие символы конца абзаца.

Текст в формате RTF (Rich Text Format) (RTF). Универсальный формат, который сохраняет все формирование. Преобразует управляющие коды в команду, которые могут быть прочитаны и интерпретированы многими приложениями, в результате информационный объем файла существенно возрастает.

 Документ Word (DOC). Оригинальный формат используемой в настоящее время версии Word. Полностью сохраняет форматирование. Использует 16-битную кодировку символов.

Works 4.0 для Windows (WPS). При преобразовании из формата Word форматирование сохраняется не полностью.

HTML — документ (HTM, HTML). Формат хранения Web —  страниц. Содержит управляющие коды (теги) языка разметки гипертекста.

Выбор требуемого формата текстового документа или его преобразование производится в процессе сохранения файла.

1.2 Классификация и возможности текстовых редакторов

Несмотря на широкие возможности использования компьютеров для обработки самой разной информации, самыми популярными по-прежнему остаются программы, предназначенные для работы с текстом.

Программы для обработки текстовой информацией подразделяются на несколько категорий:

  • текстовые редакторы;
  • текстовые процессоры;
  • настольные издательские программы;
  • специализированные программы обработки текстов.

Текстовые редакторы — это программы для создания, редактирования, форматирования, сохранения и печати документов. Современный документ может содержать, кроме текста, и другие объекты (таблицы, диаграммы, рисунки и т. д.).

Простые текстовые редакторы (например, WordPad, Блокнот) предназначены для создания несложного текста с элементами простого форматирования. Мощный текстовый редактор, располагающий большими возможностями по обработке текстовых документов (например, поиск и замена символов, средства проверки орфографии, вставка таблиц и др.), обычно называют тестовыми процессорами.

Основными функциями текстовых редакторов и процессоров являются:

  • ввод и редактирование символов текста;
  • возможность использования различных шрифтов символов;
  • копирование и перенос части текста с одного места на другое или из одного документа в другой;
  • контекстный поиск и замена частей текста;
  • задание произвольных параметров абзацев и шрифтов;
  • автоматический перенос слов на новую строку;
  • автоматическую нумерацию страниц;
  • обработка и нумерация сносок;
  • создание таблиц и построение диаграмм;
  • проверка правописания слов и подбор синонимов;
  • построение оглавлений и предметных указателей;
  • распечатка подготовленного текста на принтере и т.п.

Также практически все текстовые процессоры обладают следующими функциями:

  • поддержка различных форматов документов;
  • многооконность, т.е. возможность работы с несколькими документами одновременно;
  • вставка и редактирование формул;
  • автоматическое сохранение редактируемого документа;
  • работа с многоколоночным текстом;
  • возможность работы с различными стилями форматирования;
  • создание шаблонов документов;
  • анализ статистической информации.

При выборе для работы текстового редактора нужно учитывать многие факторы: характер содержания документа (например, простой текст или таблицы, формулы, уравнения и т. п.), сложность создаваемых документов, объемы текстов, требования к качеству напечатанного на бумаге документа.

Наиболее известные редакторы текстов по специализации можно условно разделить на 5 групп:

  1. процессоры общего назначения (Microsoft Word, WordPerfect и др.);
  2. редакторы научных документов (ТEХ);
  3. издательские системы (Adobe PageMaker, Ventura Publisher, Microsoft Publisher, Quark Press и др.);
  4. редакторы;
  5. редакторы исходных текстов программ (MultiEdit и встроенные редакторы систем программирования Basic, Pascal, C и др.).

Разумеется, с помощью Microsoft Word можно подготовить и текст программы, а с помощью MultiEdit – документ общего назначения. Специализация редактора заключается в добавлении или оптимизировании функций, которые необходимы для обслуживания документов определенного типа. Например, редактор ТЕХ более удобен для набора математических выражений, чем встроенный редактор формул Microsoft Word.

Сегодня практически все мощные текстовые редакторы входят в состав интегрированных программных пакетов, предназначенных для нужд современного офиса. Так, например, Microsoft Word входит в состав самого популярного офисного пакета Microsoft Office.

Аналогичные MS Office программы — OpenOffice.org Writer, StarOffice Writer, Corel WordPerfect, Apple Pages.

Издательские системы специализируются на подготовке набранного документа к публикации, создания макета издания. Основная функция, для которой используются издательские системы, — окончательная верстка документа (размещение текста на странице, вставка рисунков, использование различных шрифтов и пр.).

К специализированным программам обработки текстов относятся:

  • перекодировщики;
  • программы стилистического, орфографического, грамматического контроля текста;
  • словари (например, для подбора синонимов);
  • переводчики.

Для подготовки Web-страниц и Web-сайтов используют специализированные программы, называемые Web-редакторами (например, Microsoft FrontPage или Macromedia Dreamweaver).

Криптография

В особых случаях возникает необходимость в засекречивании информации, содержащейся в сообщениях или документации. Это нужно для того чтобы она не была прочтена сторонними людьми. Такое кодирование текста именуется защитой данных от несанкционированного доступа, при которой секретный текст зашифровывается. В далеком прошлом пытались скрывать данные посредством тайнописи.

Под шифрованием подразумевается процесс, при котором открытый текст преобразуется в зашифрованный. Дешифрование является полностью обратным процессом преобразования, цель которого — восстановление исходного текста. Шифрование тоже является кодированием, но с использованием засекреченного метода, известного лишь источнику данных и их получателю. Есть целая наука о методах шифрования, известная как криптография.

Криптография — это наука, изучающая принципы и методы передачи и приема данных, зашифрованных посредством специальных ключей. Ключи — это секретные данные, применяемые при шифровке и расшифровке информации.

Не нашли ответ?
Просто напиши,с чем тебе нужна помощь

Мне нужна помощь

ТЕКСТ — это… (определение). Что такое текст?

Текст — это последовательность предложений или абзацев, связанных общей темой или главной идеей и обладающих смысловой завершенностью.

Мы хотим узнать, что такое текст на русском языке. Мы выясним, что обеспечивает единство его внутренней и внешней форм и какие коммуникативные средства используются в тексте.

Для выявления авторского замысла будут использованы такие признаки текста, как тематическое единство, развитие, последовательность, связность, полнота и целостность.

Рассмотрим подробнее особенности текста, которые обеспечивают единство внешней и внутренней формы — его целостность.

Наиболее важными характеристиками текста являются

(1) Тематическое единство. Все предложения текста или его частей (абзацев) раскрывают его тему и главную мысль.

(2) Редактирование. Тема текста уточняется с помощью подчиненных клаузул или подчиненных предложений. Последовательный выбор подтем позволяет более полно представить тему. Если текст длинный, подтемы могут быть расширены микротемами. Подтемы и микротемы придают тексту глубину и определяют, как развивается основная мысль текста. 3.

3. понятность — это характеристика, которая означает, что текст разделен на структурные смысловые части:

  • пред­ло­же­ния
  • абза­цы
  • слож­ные син­так­си­че­ские целые.

Помните, что простое предложение, даже обычное, занимающее много строк в письменном тексте, не является текстом.

4. связность — это характеристика, реализуемая, когда каждое последующее предложение содержит новую информацию, разворачивающую содержание текста.

5. связность — это характеристика текста, которая обеспечивает единство текста как смыслового целого.

6. целесообразность — это атрибут, который не позволяет вводить языковые средства (лексические, грамматические или стилистические), противоречащие авторскому замыслу.

7. полнота — это атрибут текста, который выражает полноту текста. Тема полностью раскрыта с точки зрения замысла автора.

Числовое кодирование текстовой информации

В каждом национальном языке имеется свой алфавит, который состоит из определенного набора букв, следующих друг за другом, а значит и имеющих свой порядковый номер.

Каждой букве сопоставляется целое положительное число, которое называют кодом символа. Именно этот код и будет хранить память компьютера, а при выводе на экран или бумагу преобразовывать в соответствующий ему символ. Помимо кодов самих символов в памяти компьютера хранится и информация о том, какие именно данные закодированы в конкретной области памяти. Это необходимо для различия представленной информации в памяти компьютера (числа и символы).

Используя соответствия букв алфавита с их числовыми кодами, можно сформировать специальные таблицы кодирования. Иначе можно сказать, что символы конкретного алфавита имеют свои числовые коды в соответствии с определенной таблицей кодирования.

Однако, как известно, алфавитов в мире большое множество (английский, русский, китайский и др.). Соответственно возникает вопрос, каким образом можно закодировать все используемые на компьютере алфавиты.

Чтобы ответить на данный вопрос, нам придется заглянуть назад в прошлое.

В $60$-х годах прошлого века в американском национальном институте стандартизации (ANSI) была разработана специальная таблица кодирования символов, которая затем стала использоваться во всех операционных системах. Эта таблица называется ASCII (American Standard Code for Information Interchange, что означает в переводе с английского «американский стандартный код для обмена информацией»).

В данной таблице представлен $7$-битный стандарт кодирования, при использовании которого компьютер может записать каждый символ в одну $7$-битную ячейку запоминающего устройства. При этом известно, что в ячейке, состоящей из $7$ битов, можно сохранять $128$ различных состояний. В стандарте ASCII каждому из этих $128$ состояний соответствует какая-то буква, знак препинания или же специальный символ.

В процессе развития вычислительной техники стало ясно, что $7$-битный стандарт кодирования достаточно мал, поскольку в $128$ состояниях $7$-битной ячейки нельзя закодировать буквы всех письменностей, имеющихся в мире.

Чтобы решить эту проблему, разработчики программного обеспечения начали создавать собственные 8-битные стандарты кодировки текста. За счет дополнительного бита диапазон кодирования в них был расширен до $256$ символов. Во избежание путаницы, первые $128$ символов в таких кодировках, как правило, соответствуют стандарту ASCII. Оставшиеся $128$ — реализуют региональные языковые особенности.

Замечание 3

Как мы знаем национальных алфавитов огромное количество, поэтому и расширенные таблицы ASCII-кодов представлены множеством вариантов. Так для русского языка существует также несколько вариантов, наиболее распространенные Windows-$1251$ и Koi8-r. Большое количество вариантов кодировочных таблиц создает определенные трудности. К примеру, мы отправляем письмо, представленное в одной кодировке, а получатель при этом пытается прочесть его в другой. В результате на экране у него появляется непонятная абракадабра, что говорит о том, что получателю для прочтения письма требуется применить иную кодировочную таблицу.

Существует и другая проблема, которая заключается в том, что алфавиты некоторых языков содержат слишком много символов, которые не позволяют помещаться им в отведенные позиции с $128$ до $255$ однобайтовой кодировки.

Следующая проблема возникает тогда, когда в тексте используют несколько языков (например, русский, английский и немецкий). Нельзя же использовать обе таблицы сразу.

Для решения этих проблем в начале $90$-х годов прошлого столетия был разработан новый стандарт кодирования символов, который назвали Unicode. С помощью этого стандарта стало возможным использование в одном тексте любых языков и символов.

Данный стандарт для кодирования символов предоставляет $31$ бит, что составляет $4$ байта за минусом $1$ бита. Количество возможных комбинаций при использовании данной кодировочной таблицы очень велико: $231 = 2 \ 147 \ 483 \ 684$ (т.е. более $2$ млрд.). Это возможно стало в связи с тем, что Unicode описывает алфавиты всех известных языков, даже «мертвых» и выдуманных, включает многие математические и другие специальные символы. И все-таки информационная емкость $31$-битового Unicode слишком велика, И как следствие, наиболее часто используют именно сокращенную $16$-битовую версию ($216 = 65 \ 536$ значений), в которой представлены все современные алфавиты.
В Unicode первые $128$ кодов совпадают с таблицей ASCII.

§ 1.9. Текстовая информация

Текст — это любое словесное высказывание,
напечатанное, написанное или существующее в устной форме.

Информация, представленная в форме
письменного текста, называется текстовой информацией.

Всякий письменный текст — это
определённая последовательность символов. Пропуск, замена или перестановка хотя
бы одного символа в тексте изменяет его смысл. Рассмотрим две фразы,
отличающиеся одна от другой единственным, последним символом:

Кто к нам пришёл!

Кто
к нам пришёл?

Смысл первой последовательности символов
состоит в том, что вошедшего увидели и узнали. Вторая последовательность
символов является вопросом, подчеркивающим неизвестность и неопределённость
ситуации.

На протяжении тысячелетий люди записывали
информацию. В течение этого времени менялось и то, на чём записывали информацию
(камень, глина, дерево, папирус, пергамент, бумага), и то, с помощью чего это
делали (острый камень, костяная палочка, птичье перо, перьевые ручки,
авторучки, с конца XIX века для выполнения письменных работ стала применяться
пишущая машинка). Но не менялось главное: чтобы внести изменения в текст, его
надо было заново переписать. А это очень длительный и трудоёмкий процесс.

Появление компьютеров коренным образом
изменило технологию письма. С помощью специальных компьютерных программ можно
набрать любой текст, при необходимости внести в него изменения, записать текст
в память компьютера для длительного хранения, отпечатать на принтере какое
угодно количество копий текста без его повторного ввода или отправить текст с
помощью электронной почты на другие компьютеры.

Понравилась статья? Поделиться с друзьями:
Грамматический портал
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: